6. Fejezet - Mintavétel
Szerkesztette: Charles Parson, Bemidji State University és Timothy
Nyerges, University of Washington
Magyar változat: Mezősi Gábor, József Attila Tudományegyetem,
Szeged
A. BEVEZETÉS
B. A VALÓSÁG LEÍRÁSA
Állandó változás
C. TÉRBELI ADATOK
Hely
Tulajdonságok
Idő
D. MINTAVÉTEL
Mérési skálák
1. nominális
2. ordinális (sorrendi)
3. intervallum
4. arány
E. ADATFORRÁSOK
Elsődleges adatgyűjtés
Másodlagos adatforrások
F. SZABVÁNYOK
Több helyen előálló közös adatok
Hivatali szabványok
G. HIBÁK ÉS PONTOSSÁG
Adatforrási hibák
Határok
Osztályozási hibák
Adatfelvételi hibák
Pontossági szabványok
IRODALOM
ELLENőRZő KÉRDÉSEK
MEGJEGYZÉSEK
Ez a fejezet az adatszerzéssel foglakozik azt vizsgálva, hogy a
valós világ végtelen komplexitását hogyan lehet diszkretizálni és mintavételezni.
6. Fejezet - Mintavétel
Szerkesztette: Charles Parson, Bemidji State University és Timothy
Nyerges, University of Washington
Magyar változat: Mezősi Gábor, József Attila Tudományegyetem,
Szeged
A. BEVEZETÉS
- a világ végtelenül komplex
- a térbeli adatbázisok tartalma a világ sajátos képét jeleníti
meg
- a felhasználó a valós világot az adatbázis szűrőjén
keresztül látja
- az adatbázisban tárolt adatoknak, mintáknak a világot olyan
teljesen és pontosan kell bemutatniuk, amennyire lehet
- az adatbázisok tartalmának relevánsnak kell lennie a
következőkre
- az adott téma és jellemzői
- a vizsgált időintervallum
- a vizsgált terület
- ez a fejezet a mintavétel technikáit, illetve ezek pontosságát
és szabványait vizsgálja
B. A valóság ábrázolása
- az adatbázis a diszkrét objektumok digitális ábrázolása
- a térképen bemutatott objektumokat, jelenségeket (pl. tavak,
magassági pontok, szintvonalak) diszkrétnek tekinthetjük
- így a térképek tartalmát adatbázisba foglalhatjuk úgy, hogy a
térképi jellemzőket az adatbázis elemeinek feleltetjük meg
- a térképen ábrázolt jellemzők egy része képzeletbeli, a valós
világban nem létezik
- a szintvonalak a valóságban nem léteznek; a házak és a tavak
valós objektumok
- a térbeli adatbázisba tartalma:
- a valós objektumok digitális formái, pl. házak
- a mesterséges térképi jelek ill. jellemzők digitális formái
(pl. szintvonalak)
- az adatbázis építésekor létrehozott mesterséges objektumok pl.
pixelek
Folyamatos változás
- néhány jellemző mindenütt létezik és változása folyamatos a
Föld felszínén
- pl. magasság, léghőmérséklet és légnyomás, természetes
növényzet vagy talajtípus
- ezeket a változásokat a következőképpen tudjuk meghatározni:
- méréseket végezve a kiválasztott pontokon, pl. meteorológiai
állomáson
- keresztszelvények felvételével
- a terület foltokra, vagy zónákra osztásával feltételezve, hogy
a változás állandónak tekinthető minden egyes zónán belül pl. talajtérképezés
- szintvonal rajzolással pl. topográfiai térképezés
- ezen módszerek mindegyike egy diszkrét objektumot eredményez
- az objektumok minden esetben pontok, vonalak vagy területek
- a raszter elképzelhető úgy, mint:
- a pontszerű mintának egy olyan speciális esete, ahol a pontok
szabályosan helyezkednek el
- a zónáknak egy olyan speciális esete, ahol a zónák mind egyenlő
méretűek
- mindegyik módszer közelítő, a valós kapcsolatoknak csak egy
töredékét fedi le
- a pontszerű mintánál hiányzik a pontok közötti kapcsolat
- keresztszelvényeknél nincs adat a szelvények között
- a zónák azt sugallják, hogy a változás a határoknál éles, és
a zónán belül nincs változás
- a szintvonalak közötti változásokat nem ismerjük
- számos módszert használnak az egyes eljárások
tökéletesítésére
- pl. zónákra:
- a térképi határokat elmosódottnak (fuzzy) tekintik éles vonalak
helyett
- a zónákat mint keverékeket írják le, s nem mint egyes
osztályokat pl. 7O% "A" talajtípus, 3O% "B" talajtípus
C. Térbeli adatok
- a valós világ jelenségeit három "módon"
figyelhetjük meg: térbelileg, időbelileg és tematikusan
- a térbeli mód a helyről-helyre történő változással
foglalkozik
- az időbeli mód az időről-időre történő változással
foglalkozik
- a tematikus mód egyik jellemzőről a másik jellemzőre történő
változással foglalkozik (egyik tematikus szinttől a másikig)
- a világ minden mérhető vagy leírható tulajdonsága besorolható
a három mód -tér, idő, téma- valamelyikébe
- kimerítő leírást mindhárom módról adni nem lehetséges
- ha a valós világ jelenségeit megfigyeljük, az egyik módot
"rögzítjük", a másikat "ellenőrzött" körülmények között
változtatjuk és a harmadikat "mérjük" (Sinton, 1978)
- pl. népszámlálásnál rögzítjük az időt (pl.1990),
ellenőrizzük a helyet, felhasználva a választási területeket (körzeteket), és
mérjük a tematikus oldalt, mint pl. az autóval rendelkezők %-os arányát
- ha a földrajzot (értsd teret) lerögzítjük, az időt változtatva
úgynevezett longitudinális adatokhoz jutunk (idősorok)
- az időt lerögzítve és a földrajzot változtatva térbeli
keresztmetszetet adó adatokhoz jutunk
- az adatbázisban tárolt információ módjára hat a megoldandó
probléma típusa
Hely
- az információ térbeli módját rendszerint helynek nevezik
Tulajdonság
- a tulajdonságok az objektumok különböző jellemzőinek
meghatározásával a tematikus módba tartoznak
- az objektumok tulajdonságait bemutató táblát attributum
táblának nevezik
- minden objektum megfelel a táblázat egy sorának
- minden tulajdonság, vagy tematikus sajátosság megfelel a
táblázat egy oszlopának
- igy a táblázat a tematikus módot és néhány térbeli módot
ábrázol
Idő
- az időbeliség (időbeli mód) több úton is elérhető
- annak az időbeli intervallumnak a megadásával, amely alatt az
objektum létezik
- az információ egy meghatározott időpontban történő
beszerzésével
- az odjektum mozgásának részletezésével
- attól függően, hogy az időbeliséget hogyan értük el, azt egy
egyszerű attributum-tábla tartalmazhatja, vagy ugyanannak az objektumnak az idő
függvényében előálló attributum-tábla sorozata mutathatja
D. Mintavétel
A mérés skálái
- a numerikus értékeket nominális, ordinális (sorrendi),
intervallum és arány skálák szerint lehet definiálni
- fontos felismerni, hogy a GIS adatai milyen skálájúak, minthogy ez
meghatározza az adatokkal kapcsolatos matematikai műveletek fajtáit
1. Nominális
- a nominális skálán a számok csupán az azonosítás
megállapítására valók
- pl. a telefonszám csak a készülék egyértelmű azonosítását
jelenti
- a versenyben a rajtszámok, amelyet a személyek azonosítására
használnak, nominális skálájúak
- ezek az azonosító számok a verseny kimenetelét illetően nem
jeleznek semmilyen sorrendet vagy relatív értéket
2. Ordinális (sorrendi)
- az ordinális skálán a számok csak a sorrend megállapítására
valók
- a 962824-es telefonszám semmivel sem több, mint a 961849, így a
telefonszámok nem ordinálisak
- a versenyen minden versenyző végső helyezése, azaz 1., 2., 3.
hely, ordinális skálájú
- noha mi nem tudjuk, mekkora az időkülönbség az egyes versenyzők
között
3. Intervallum skála
- az intervallum skálán a számok közötti eltérés (intervallum) a
lényeges, de a számskálának nem kell 0'ról indulni
- a kivonásnak van értelme, de az osztásnak nincs
- pl. azt lehet mondani, hogy a 200 Co 100 Co-kal melegebb, mint a 100
Co, így a Co hőmérsékletek itt intervallum skálájúak, de a 200 Co nem kétszer
olyan meleg, mint a 100 Co
- pl. nincs értelme azt mondani, hogy 9680244 telefonszám 62195-tel
több, mint 9618049-es, így a telefonszámok nem mérhetők intervallum skálán
- a versenyben intervallum skálán mérhető a versenyzők
időeredménye
- ha a versenyzők 9:10-re, 9:20-ra és 9:25-re végeznek, akkor az 1
versenyző 10 perccel a 2-es előtt végez és a különbség az 1 és a 2 között
kétszer akkora, mint a 2 és 3 közötti
- bár a verseny 9:10-re befejeződik, nem lesz vége kétszer olyan
gyorsan mint amelyik 18:20-kor ér véget
4. Arányskála
- az arányskálán a mérésnek van egy abszolút 0 értéke, és a
számok közti különbségnek van jelentősége
- az osztásnak van értelme
- pl. van értelme azt mondani, hogy egy 50 kg-os személy fele olyan
nehéz, mint a 100 kg-os, így a kg-ban mért súly arányskálájú
- a súly 0 pontja abszolút, de a Celsius skála 0 pontja nem
- versenyünkben az első helyezett 2:30, a második 2:40, a 450.
befutó 5 óra alatt teljesítette a versenyt
- a 450.-nek kétszer olyan hosszú idő kellett, mint az első
helyezettnek (5/2.5=2)
- bár ezek a megkülönböztetések fontosak, nem mindig világosan
definiáltak
- a magasság intervallum- vagy arányskálájú?, a 2000 láb magas
hegy kétszer olyan magas-e, mint az 1000 láb magas, ha egy 750 láb magasságú
völgypontból nézzük?
- a GIS alkalmazásokban használt földrajzi adatok legtöbb típusa
nominális vagy ordinális skálájú
- az értékek osztályok sorrendjeit fejezik ki, vagy azok
megkülönböztető azonosítását, de ritkán intervallum- vagy arányskálájúak
- így nem lehet:
- összeszorozni a 2-es számú talajtípust a 3-as számúval és 6-os
típusút kapni
- elosztani a beépített területeket a város nagyságrendjével és
értelmezhető számot kapni
- kivonni az 1 alkalmassági osztályt a 4 alkalmassági osztályból
és valamilyen hármat kapni
- ezzel szemben megtehető:
- elosztani a népességet a területtel (mindkettő arányskála) és
népsűrűséget kapni
- kivonni egy A pont magasságát egy B pont magasságából és
magasságkülönbséget kapni
Többszörös ábrázolás
- az adatmodell alapvető fontosságú a földrajzi adatok digitális
adatbázisban való szerepeltetéséhez
- különböző adatmodellek vannak
- ugyanaz a jelenség különbözőképpen ábrázolható különböző
skálán és különböző pontossági szinttel
- így ugyanannak a földrajzi jelenségnek többszörös ábrázolása
lehetséges
- nehéz az egyik ábrázolást a másikká átalakítani
- pl. kis méretarányúról (1:250.000) nagy méretarányúra
(1:10.000)
- gyakori az olyan adatbázis, amelyben ugyanaz a jelenség
többszörösen ábrázolt
- ez pazarló, de az elkerülését biztosító technikák még
gyengén fejlettek
E. Adatforrások
Elsődleges adatgyűjtés
- a térbeli adatbázis néhány adata közvetlenül mérhető
- pl. terepi mintavétel vagy távérzékelés
- a mintavétel sűrűsége meghatározza az adatok felbontását
- pl. az óránként vett adatok óránkénti változás
regisztrálására jók, de hiba rövidebb idejű változások jellemzésére használni
- pl. az 1 km sűrűséggel vett mintát hiba az 1 km-nél kisebb
felbontású változások jellemzésére használni
- a mintavételt úgy kell megtervezni, hogy a valóságban jelenlévő
változásokat reprezentálja
-pl. a helyhez kötött mintákat úgy kell kijelölni, hogy minden
jellemző helyet érintsünk
-pl. az időbeli mintákat úgy kell megtervezni, hogy a változás
minden lehetséges idejét tartalmazzák
- a mintavételnek számos megközelítése ismert:
- véletlenszerű (random) mintavétel, a minden helyen vagy időben
azonos valószínűségű választás
- a módszeres mintavételnél egy szabálynak megfelelően
választunk, pl. kilométerenként, de a szabály kibővíthető, hogy az elemzési
eredményekben ne legyen különbség, azaz az eredmények hasonlóak, mintha
véletlenszerűen vettük volna a mintákat
- egyes mintavételeknél a kutatók ismerik azokat az okokat, ami
miatt a valóság jelentősen különböző részhalmazokat tartalmaz és a mintákat úgy
kell venni, hogy adekvátan jellemezzék azokat
- pl. tudjuk, hogy a terület egyik részén sokkal tagoltabb a
domborzat, így ott a megfelelő bemutatáshoz sokkal sűrűbb mintavétel szükséges
Másodlagos adatforrások
- néhány adat meglévő térképekből, táblázatokból vagy más
adatbázisból is beszerezhető
- ezek a másodlagos források
- fontos az adatokról kiegészítő információt is szerezni:
- az adatgyűjtés és szerkesztés módjáról
- a kódolási sémáról, ill. a műszer pontosságáról
- sajnos ilyen információk gyakran nem állnak rendelkezésünkre
- az adatbázis felhasználója nem tudhatja, hogyan gyűjtötték az
adatokat és milyen eljárásoknak vetették alá őket az adatbázisba kerülés előtt
- ez gyakran téves interpretációhoz és a pontosság hamis
képzetéhez vezethet
F. Szabványok
- a szabványok az egységességet biztosítják
- egy adatsoron belül
- adatsorok között
- pl. egységes információ a fák típusairól az adatbázis
egészében jobb tűzvédelmi módszerek használatát teszi lehetővé, vagy jobban
ellenőrizhető a rovarok elszaporodása
- az adatfelvételnek mindig szabványos módon kell történnie, ami
biztosítja az információ legszélesebb körű felhasználhatóságát
Több helyen előálló közös adatok
- nem ritka, hogy olykor három ügynökség (cég) is ugyanazt az
adatbázist állítja elő látszólag ugyanazzal az információval
- pl. egy tervező cég készíthet erdőtípusokat bemutató
területhasznosítási térképet; az erdőgazdaságért felelős minisztérium ugyancsak
elkészítheti az erdők térképét, végül az állatvédelemért felelős valamelyik
intézmény szintén készíthet az állatok tartózkodási helyét bemutató térképet,
amely tartalmazza a mező- és erdőtípusokat
- mindegyik digitalizálhatja a maga erdőkategóriáit különböző
GIS rendszerekben, különböző szabályok alapján, különböző módon definiálva az
osztályokat és az erdőborítást
- ez elvesztegetett idő és pénz
- a többször előforduló információ kiegészítő értéket adhat
- a más információ-ellátókkal pl. a közlekedési szférával
kialakított közös adatfelvételi alapformák sokkal piacképesebbé tehetik az
adatbázist
Hivatali szabványok
- állami hivatalok és cégek bizonyos környezeti adatokra
szabványokat állítottak fel
- az USA Geológiai Szolgálata a területhasznosításra,
közlekedésre és hidrogeográfiára szabványokat állított fel, amit széles körben
használnak
- az USA Talajvédelmi Szolgálata szintén több szabványt dolgozott
ki
- az erdőleltárak- és kataszterek nem szabványosítottak az USA-ban
(Magyarországon igen), az erdőkkel kapcsolatos vizsgálatokra különböző rendszerek
használhatók
- a 69. Fejezetben a GIS szabványokat részletesebben tárgyaljuk
G. Hiba és pontosság
- ezt a témát a 45. és 46. Fejezetben részletesebben ismerteti
- majdnem egyetemes tendencia a hibák szem elől tévesztése, ha az
adatok digitális formában vannak
- hibák:
- bekerülnek az adatbázisba, mert az eredeti források is hibásak
voltak (forráshiba)
- az adatfelvétel vagy tárolás alatt keletkeznek (eljárási hiba)
- akkor jelennek meg, ha az adatokat a számítógépből hívjuk le
- akkor keletkeznek, ha a különböző adatszinteket kombináljuk
- forráshibák
- nagyon gyakoriak a nem térképezett forrásadatoknál, mint pl.
kutak helye
- okozhatja a légifelvételek téves interpretálása
- gyakran jelentkeznek, ha az alaptérkép nem megbízható
- egy nem régi minnesotai kísérletnél a közlekedési minisztérium
egy híd helyét az USGS közlekedési adataiból vette át, ami azt eredményezte, hogy
hidak sem az utak alatt, sem a vizek fölött nem voltak, bár azok nyilvánvalóan a
folyók fölött vezetnek
- amíg ezeket a fenti módon össze nem hasonlították, feltehető
volt, hogy mindkét adatsor helyileg elfogadható
- a GIS fedvény-kezelő képessége felfedheti a korábban rejtett
hibákat
Határok
- a talajtípusok határai a valóságban sávok, átmeneti zónák, de
ezek a térképen 0.5 mm-nél vékonyabb vonalakkal vannak jelezve
- a tavak széles területen fluktuálnak, mégis állandó, éles
határral jelöljük őket
Osztályozási hibák
- gyakori, mikor a táblázatos adatokat térképi formára
változtatjuk
- az egyszerű gépelési hiba addig amíg grafikusan meg nem jelenik,
láthatatlan marad
- ártéri talajok jelennek meg a hegytetőkön
- a hibás interpretáció miatt legelő jelenik meg a mocsár helyén
- komplexebb osztályozási hibák származhatnak az eredeti
adatfelvételt szolgáló mintavételi stratégiáknak köszönhetően
- az erdők osztályozása általában néhány, véletlenszerűen
kiválasztott fa alapján történik, amelyekkel nagy területeket írnak le
- lehet, hogy van információ, amely dokumentálja a mintavételi
technika hibáját, bár ilyen információt ritkán tartalmaz a GIS adatbázis
Adatfelvételi hibák
- manuális adatbevitel más jellegű hibákat idézhet elő
- a szem-kéz koordinációja adatbevivőnként és azon belül is
időről időre változhat
- az adatbevitel fárasztó munka - nehéz ugyanazt a minőséget
hosszabb időtávon fenntartani
Pontossági szabványok
- sok cég állított fel a földrajzi adatokra vonatkozóan
pontossági szabványt
- ezek leggyakrabban az objektum helyének pontosságára vonatkoznak
és nem a tulajdonságok pontosságával kapcsolatosak
- a helyzeti pontosság szabványait már többnyire a forrásanyag
méretaránya eldönti
- a természeti adatokra az 1:25.000 méretarány adta pontosság a
szokásos cél
- ennél a méretaránynál 0.5 mm vonalvastagság = 12 m-rel a
felszínen
- az USGS domborzati információi digitális formában jelenleg
1:100.000-es méretarányban érhetők el (Magyarországon is forgalomban van 1:50.000,
1:100.000 és 1:1.000.000 ma digitális térkép)
- itt 0.5 mm vonalvastagság = a valóság 50 m-ével
- a nagyobb pontosság jobb forrásanyagot igényel
- a pluszköltségeket indokolja-e a vizsgálat tárgya?
- a pontossági szabványok meghatározásánál figyelemmel kell lenni
mind az információ értékére, mind az adatgyűjtés költségére
IRODALOM
Berry, B.J.L. and A.M. Baker, 1968. "Geographic
sampling". In B.J.L. Berry and D.F. Marble, editors, Spatial Analysis. Prentice Hall,
Englewood Cliffs NJ, 91-100. A classic paper on sampling geographical distributions.
Hopkins, Lewis D., 1977, "Methods for generating land suitability
maps: A comparative evaluation," AIP Journal October 1977:386-400. An
excellent discussion of the different measurement scales is given in an appendix.
Sinton, D., 1978. "The inherent structure of information as a
constraint to analysis: mapped thematic data as a case study", Harvard Papers on
Geographic Information Systems, Vol. 7, G. Dutton (ed.), Addison Wesley, Reading, MA.
A classic paper on the relationships between the database and reality.
ELLENŐRZŐ KÉRDÉSEK
1. Vegyünk egy mintatérképet, amely néhány ritkán
előforduló jelenséget ábrázol és fejtsük ki, melyek azok a tényezők, amelyek a
mintavételi folyamatra hatnak. Jó példa lehet a viharkárok térképe, vagy a ritka
növények lajstroma.
2. Topográfiai térképet használva elemezzük azokat a módokat,
amelyekkel a térkép tartalma és kivitelezése hat a felhasználó
valóságszemléletére.
3. Tekintsük át a pontossággal kapcsolatos információkat, amelyek
a különböző méretarányú és típusú térképekről rendelkezésünkre állnak
illetve az adatbázisokról ha megtudhatók.
4. A globális helymeghatározási rendszer (GPS) hamarosan közel
méter pontosságban tudja megadni helyzetünket, nem több mint 1 perc alatt, amelyhez
mindössze egy kb. 1 kg-os hordozható vevő szükséges. Ez lényegesen pontosabb, mint
az USA-ban használatos legjobb (1:24.000 ma) általános alaptérkép. Fejtsük ki milyen
hatású lehet ez a rendszer a térképkészítőkre és felhasználókra.
|