Viac

Kalkulačka QGIS Raster: Je potrebné, aby boli namiesto nulových údajov nastavené hodnoty na 0

Kalkulačka QGIS Raster: Je potrebné, aby boli namiesto nulových údajov nastavené hodnoty na 0


Mám mapu landcover s rôznymi hodnotami pre možnosti landuse napr. 190 pre komerčne využívané oblasti. Teraz chcem pomocou Raster Calculator s výrazom extrahovať iba tieto oblasti

„Raster @ 1“ = 190

To funguje dobre, výsledný raster obsahuje hodnotu 1 pre všetky bunky, ktoré boli predtým 190 (ako sa má), ale žiadne hodnoty údajov (vysoké záporné hodnoty) pre všetky ostatné bunky, ktoré musia byť namiesto toho nulové. Keď som urobil rovnakú operáciu s ostatnými rastrami, QGIS nastavil ostatné bunky na 0, čo je v tomto prípade nevyhnutné, aby som výsledný raster neskôr pridal do iného rastra.

Máte nejaké nápady, ako sa môžem vyhnúť tomu, aby QGIS nastavil bunky na žiadne dátové bunky? A čo môže byť dôvodom, že pri použití rovnakej operácie s rastrovou kalkulačkou narába s rastrami rovnakého formátu inak? Oba rastre sú .tif, ale z rôznych zdrojov.


V rámci QGIS považujem rastrovú kalkulačku za trochu obmedzujúcu, ale môžete použiť nástroj na spracovanie SAGA „Reclassify grid cells“ (Nástroje na spracovanie> SAGA> Grid-Tools

V parametroch môžete pre metódu zvoliť „[1] rozsah“, zadať svoj rozsah a zvoliť 0 pre „novú hodnotu pre ďalšie hodnoty“.


Práve som našiel nástroje SAGA a lepšiu rastrovú kalkulačku. Problém som vyriešil pomocou nasledujúceho vzorca:

ifelse (ekv (a, 190), 1, 0)

ktorá aktívne nastavuje všetky bunky s hodnotou inou ako 190 na nulu.

Edit: Práve som našiel dôvod, prečo QGIS postupoval inak tiež: Mýlil som sa s tvrdením, že oba rastre mali rovnaký formát. V prvom prípade bol môj vstupný raster vo formáte ASCII a QGIS nastavil nuly. Rovnakou operáciou s formátom tif nenastaví žiadne údajové hodnoty.


Energetická divízia z oddelenia plánovania a rozvoja okresu Santa Barbara žiada vašu radu o veternú energiu. Získali grant na osádzanie malosériovej výroby veternej energie subvencovaním turbín WES 250kW určených na inštaláciu v kontinentálnej oblasti Santa Barbara. Tieto turbíny pracujú vo výškach nábojov medzi 30 m a 50 m.

Ak vezmeme do úvahy kapitálové výdavky turbíny (CAPEX), prevádzkové náklady (OPEX), životnosť a tarifu napájania, nebude WES 250kW ekonomicky životaschopný, ak bude prevádzkovaný na miestach s hustotou veternej energie nižšou ako 300 W / m / m na uzle výška. Za predpokladu Weibullovho rozdelenia s Weibullovou hodnotou k 2,0, hustota veterného výkonu 300 W / m / m zodpovedá priemernej ročnej rýchlosti vetra 6,4 m / s.

Energetická divízia chce zaradiť zoznam 10 potenciálnych lokalít, z ktorých každá má najmenej 4 susediace hektáre, ktoré spĺňajú ich požiadavky na vhodnosť, a to nasledovne:

  • Vietor: Webové stránky musia mať dostatočnú hustotu veternej energie.
  • Cesty: Miesta sa musia nachádzať do 7,5 km od hlavnej cesty.
  • Letiská: Weby nemôžu byť vzdialené do 7,5 km od letiska.
  • Urban: Weby nemôžu byť do 1 míle od existujúcej mestskej oblasti.
  • Oheň: Stránky sa nemôžu nachádzať v zónach nebezpečenstva požiaru
  • Verejné: Weby nemôžu byť na verejnom pozemku

Krátka odpoveď je, že je to sporné. Na rozdiel od rady, ktorú ste spomenuli, ľudia v mnohých oblastiach využívajú radové stupnice a sú často radi, že si robia, čo chcú. Jedným z príkladov sú priemerné známky alebo ekvivalent v mnohých vzdelávacích systémoch.

Poradové údaje, ktoré sa bežne nedistribuujú, však nie sú platným dôvodom, pretože priemerná hodnota je

široko používaný pre neobvyklé distribúcie

matematicky dobre definované pre veľmi veľa neobvyklých distribúcií, s výnimkou niektorých patologických prípadov.

V praxi nemusí byť dobrý nápad používať stredné hodnoty, ak údaje rozhodne nie sú bežne distribuované, ale to je iné.

Silnejším dôvodom nepoužívania priemeru s ordinálnymi údajmi je to, že jeho hodnota závisí od konvencií pri kódovaní. Číselné kódy ako 1, 2, 3, 4 sa zvyčajne vyberajú iba pre jednoduchosť alebo pohodlie, v zásade by však mohli byť rovnako 1, 23, 456, 7890, pokiaľ zodpovedajú definovanému príslušnému poradiu. Vymyslieť priemer v obidvoch prípadoch by znamenalo brať tieto dohovory doslovne (teda akoby čísla neboli ľubovoľné, ale odôvodniteľné), a nie sú na to dôsledné dôvody. Potrebujete intervalovú stupnicu, v ktorej je možné brať rovnaké rozdiely medzi hodnotami doslovne, aby ste ospravedlnili využitie prostriedkov. To považujem za hlavný argument, ale ako už bolo uvedené, ľudia to často a zámerne ignorujú, pretože považujú prostriedky za užitočné, nech už teoretici merania hovoria čokoľvek.

Tu je ďalší príklad. Ľudia sú často požiadaní, aby si vybrali jedno zo „zásadne nesúhlasím“. „rozhodne súhlasia“ a (čiastočne závisia od toho, čo softvér chce), výskumníci to kódujú ako 1 .. 5 alebo 0 .. 4 alebo podľa toho, čo chcú, alebo to deklarujú ako usporiadaný faktor (alebo akýkoľvek výraz, ktorý softvér používa). Tu je kódovanie ľubovoľné a skryté pred ľuďmi, ktorí odpovedajú na otázku.

Ako však často niečo hodnotíte, ľudia sa často pýtajú (povedzme) na stupnici od 1 do 5? Existuje veľa príkladov: webové stránky, šport, iné druhy súťaží a skutočne vzdelávanie. Tu sa ľuďom ukazuje stupnica a žiada sa od nej, aby ju používali. Je všeobecne známe, že iné ako celé čísla majú zmysel, ale iba vám je dovolené používať celé čísla ako konvenciu. Je to radová stupnica? Niekto hovorí áno, niekto nie. Inak povedané, súčasťou problému je, že to, čo je ordinálna stupnica, je sama o sebe fuzzy alebo diskutovaná oblasť.

Zvážte znova známky za akademickú prácu, povedzte E až A. Často sa s týmito známkami zaobchádza aj číselne, povedzme ako 1 až 5, a ľudia bežne vypočítavajú priemery pre študentov, kurzy, školy atď. A robia ďalšie analýzy týchto údajov. Aj keď stále platí, že každé priradenie k číselnému skóre je ľubovoľné, ale akceptovateľné, pokiaľ zachováva poriadok v praxi ľudia priraďujúci a prijímajúci známky vedia, že skóre majú číselné ekvivalenty a vedia, že známky budú spriemerované.

Jedným z pragmatických dôvodov použitia prostriedkov je, že mediány a režimy sú často zlým súhrnom informácií v dátach. Predpokladajme, že máte stupnicu od silného nesúhlasu po úplnú zhodu a pre uľahčenie kódu tie body 1 až 5. Teraz si predstavte jednu vzorku kódovanú 1, 1, 2, 2, 2 a ďalšiu 1, 2, 2, 4, 5. Teraz zdvihnite vaše ruky, ak si myslíte, že medián a režim sú jediné zdôvodniteľné súhrny, pretože ide o radovú stupnicu. Teraz zdvihnite ruky, ak považujete priemer aj za užitočný, bez ohľadu na to, či sú sumy presne definované atď.

Prirodzene by to bol precitlivený súhrn, ak by kódy boli napríklad štvorce alebo kocky od 1 do 5, a to by možno nebolo to, čo chcete. (Ak máte v úmysle rýchlo identifikovať letcov s vysokou úrovňou letectva, mohlo by to byť presne to, čo chcete!) Ale práve preto je konvenčné kódovanie s postupnými celočíselnými kódmi praktickou voľbou, pretože v praxi často funguje celkom dobre. Toto nie je argument, ktorý by teoretikom merania mal akúkoľvek váhu, ani by nemal, ale analytici dát by mali mať záujem na produkcii informačne bohatých súhrnov.

Súhlasím s každým, kto hovorí: použite celú distribúciu frekvencií ročníka, ale to nie je sporné.


5 odpovedí 5

Nezabudnite na balík rms od Franka Harrella. Nájdete všetko, čo potrebujete pre montáž a validáciu GLM.

Tu je príklad hračky (iba s jedným prediktorom):

Teraz pomocou funkcie lrm

Čoskoro získate veľa indexov prispôsobenia modelu, vrátane Nagelkerke $ R ^ 2 $, s potlačou (mod1b):

Tu $ R ^ 2 = 0,445 $ a počíta sa ako $ left (1- exp (- text/ n) right) / left (1- exp (- (- 2L_0) / n) right) $, kde LR je $ chi ^ 2 $ stat (porovnanie dvoch vnorených modelov, ktoré ste opísali), zatiaľ čo menovateľ je iba maximálna hodnota pre $ R ^ 2 $. Pre dokonalý model by sme očakávali $ text= 2L_0 $, to je $ R ^ 2 = 1 $.

Ewout W. Steyerberg vo svojej knihe diskutoval o použití $ R ^ 2 $ s GLM Modely klinickej predikcie (Springer, 2009, § 4.2.2, s. 58 - 60). V zásade je vzťah medzi štatistikou LR a Nagelkerkeho $ R ^ 2 $ približne lineárny (bude lineárnejší s nízkou incidenciou). Teraz, ako som už diskutoval o staršom vlákne, na ktoré som vo svojom komentári odkazoval, môžete použiť ďalšie opatrenia, ako je štatistika $ c $, ktorá je ekvivalentná so štatistikou AUC (vo vyššie uvedenom odkaze je tiež pekná ilustrácia, pozri obrázok 4.6).

Pre ľahké získanie McFaddenovho pseudo $ R ^ 2 $ pre prispôsobený model v R použite balík "pscl" od Simona Jackmana a príkaz pR2. http://cran.r-project.org/web/packages/pscl/index.html

Pri výpočte Pseudo- $ R ^ 2 $ buďte opatrní:

McFaddenovo Pseudo- $ R ^ 2 $ sa počíta ako $ R ^ 2_M = 1- frac<>_><>_> $, kde $ ln hat_$ je pravdepodobnosť úplného modelu v protokole a $ ln hat_$ je log-pravdepodobnosť modelu s iba zachytením.

Dva prístupy k výpočtu Pseudo- $ R ^ 2 $:

Použite odchýlku: pretože $ deviance = -2 * ln (L_) $, $ null.deviance = -2 * ln (L_)$

pR2 = 1 - mod $ deviance / mod $ null.deviance # funguje pre glm

Vyššie uvedený prístup ale nefunguje pre Pseudo $ R ^ 2 $ mimo vzorky

Použite funkciu „logLik“ v R a definícii (funguje aj pre vzorku)

1, family = binomial, data = insample) 1- logLik (mod) / logLik (mod_null)

To je možné mierne upraviť, aby sa vypočítal Pseudo $ R ^ 2 $ mimo vzorky

Pseudo-R mimo vzorky

Spravidla sa pseudo-$ R ^ 2 $ mimo vzorky počíta ako $ R_p ^ 2 = 1− frac<>><>>, $ kde $ L_$ je logaritmická pravdepodobnosť pre obdobie mimo vzorky na základe odhadovaných koeficientov obdobia vo vzorke, zatiaľ čo $ L_$ je pravdepodobnosť logu pre model iba na odpočúvanie pre obdobie mimo vzorky.

pred.out.link & lt- predpovedať (mod, outSample, type = "link") mod.out.null & lt- gam (predvolené

1, family = binomial, data = outSample) pR2.out & lt- 1 - sum (outSample $ y * pred.out.link - log (1 + exp (pred.out.link)))) / logLik (mod.out. nulový)

agegp + tobgp * alcgp, data = esoph, family = binomial) a zavolajte model1 $ deviáciu a -2 * logLik (model1). $ endgroup $ & ndash Tomas 2. novembra19 o 11:22

ak by bola odchýlka úmerná logaritmickej pravdepodobnosti a jedna by použila definíciu (pozri napríklad McFadden tu)

potom by pseudo- $ R ^ 2 $ vyššie bol $ 1 - frac <198,63> <958,66> $ = 0,7928

Otázka znie: je hlásená odchýlka úmerná logaritmovej pravdepodobnosti?

Ak je to mimo vzorky, potom verím, že $ R ^ 2 $ musí byť vypočítané podľa log-pravdepodobnosti ako $ R ^ 2 = 1- frac<>><>> $, kde $ ll_$ je logaritmická pravdepodobnosť testovacích údajov s prediktívnym modelom kalibrovaným na cvičnej sade a $ ll_$ je log-pravdepodobnosť testovacích dát s modelom s iba konštantou prispôsobenou na cvičnú množinu, a potom pomocou prispôsobenej konštanty predpovedá na testovacej množine pravdepodobnosti, a preto získa log-pravdepodobnosť.


Pozri si video: QGIS - Clipper - Clip Raster with shapefile boundary