45. Fejezet - TÉRBELI ADATBÁZISOK PONTOSSÁGA
Szerkesztette: Nicolas R. Chrisman, University of Washington és
Matt McGranaghan, University of Hawaii
Magyar változat: Detrekői Ákos, Budapesti Műszaki Egyetem
A. BEVEZETÉS
B. DEFINÍCIÓK
Pontosság
Élesség
Az adatminőség összetevői
C. HELYZETI PONTOSSÁG
Hogyan vizsgáljuk a helyzeti pontosságot?
D. AZ ATTRIBÚTUMOK TARTALMI PONTOSSÁGA
Hogyan vizsgáljuk az attribútumok pontosságát?
E. LOGIKAI KONZISZTENCIA (KÖVETKEZETESSÉG)
F. TELJESSÉG
G. EREDET
H. HIBA AZ ADATBÁZIS LÉTREHOZÁSÁBAN
A helymeghatározás hibái
Attribútum tartalmi hiba
Szerkesztési hiba
Műveleti hiba
I. ADATMINŐSÉGI JEGYZŐKÖNYV
USGS
Brit Katonai Térképészet
US Nemzeti Szabvány
IRODALOM
ELLENŐRZŐ KÉRDÉSEK
MEGJEGYZÉSEK
A vonatkozó magyar fogalmak egy része megtalálható Detrekői "Kiegyenlítő számítások" c. könyvében, Tankönyvkiadó, 1991.
45. Fejezet - TÉRBELI ADATBÁZISOK PONTOSSÁGA
Szerkesztette: Nicolas R. Chrisman, University of Washington és
Matt McGranaghan, University of Hawaii
Magyar változat: Detrekői Ákos, Budapesti Műszaki Egyetem
A. BEVEZETÉS
Az előadás a következő technikai kérdéseket vizsgálja:
- georeferencia, azaz a helyzet megadás,
- adatstruktúra - hogyan lehet a térbeli adatok digitális reprezentációját létrehozni,
- algoritmusok - milyen műveletekkel lehet az előbbi digitális reprezentációból hasznos eredményeket előállítani
A GIS-szel összefüggő technikai kérdések közül talán a pontosság a legfontosabb
- megállapításokat tartalmaz az adatok minőségére, hibáira, bizonytalanságaira, méret-arányára, felbontására és élességére, ezen keresztül befolyásolja azok felhasználásának, interpretálásának módját
Minden térbeli adat bizonyos mértékig hibával terhelt, ezt nem figyelembevéve az adatokat általában túlzott élességgel adják meg a számítógépben
A következő kérdésekre kell választ találni:
- mennyire jól tükrözik a digitális rendszerek a valós világot?
- menyire jól számíthatók az algoritmusokkal a termékek valódi értékei?
B. DEFINÍCIÓK
Pontosság
- a számított vagy becsült értékek és a valódi vagy hibátlannak tekintett érték kapcsolatának szorosságát illetve eltérését mutatja. A magyar szakirodalomban a pontosságot egyrészt a valódi és a mért érték különbségével, a hibával, másrészt a hiba jellemzésére szolgáló szórással, vagy középhibával jellemzik
- a térbeli adatok általában a valós világ generalizációjának eredményei, ezért gyakran nehéz a valódi értéket azonosítani; ennek következtében általában bizonyos értékeket hibátlannak tételeznek fel
- például valamely, a digitális adatbázisban található szintvonal pontosságának mérésekor azt a térképen található rajzolt szintvonallal hasonlítják össze, holott ez utóbbi nincs megjelölve a Föld felszínén
- az adatbázisok pontossága bizonyos esetekben csak nehezen hozható az adatbázisból levezetett termékek pontosságával kapcsolatba;
- például egy, a digitális magassági modellből levezetett dőlés, kitettség vagy vízválasztó pontossága nehezen hozható összefüggésbe a digitális magassági modellben tárolt magasságok pontosságával
Élesség
- értékét a feltüntetett, illetve a szignifikáns számjegyek mennyisége jellemzi
- az élesség nem azonos a pontossággal, a feltüntetett számjegyek nagy száma nem feltétlenül tükrözi az adatok tényleges pontosságát,
- a GIS-ek általában az adatokat tényleges pontosságukat meghaladó élességgel veszik figyelembe
- mivel minden térbeli adat korlátozott pontosságú, bizonyos fokig pontatlan, igen fontosak a következő kérdések:
- hogyan mérjük a pontosságot?
- hogyan vegyük figyelembe a hibák terjedésének hatását a GIS műveletekkor?
- hogyan biztosítsuk, hogy a felhasználó ne tekintse a ténylegesnél pontosabbnak az adatokat?
Az adatminőség összetevői
- az Amerikai Egyesült Államokban koordinált erőfeszítéssel kifejlesztették a digitális kartográfiai adatokra vonatkozó szabványt
- ez a szabvány modellként szolgál a digitális adatok pontosságának a leírására;
- hasonló jellegű szabványokat vezetnek be más országokban is;
- magyar szabvány kidolgozását többen kezdeményezték
- az említett szabvány az adatminőség különböző összetevőit sorolja fel:
- helyzeti pontosság,
- attribútum tartalmi pontosság,
- logikai konzisztencia következetesség,
- teljesség,
- eredet
- a felsorolt összetevőket a következőkben egyenként vizsgáljuk
C. HELYZETI PONTOSSÁG
- a helyzeti pontosságot a tényleges helyzet és a helyzetre vonatkozó információk, általában koordináták szorosságával, eltérésével adják meg
- a térképek pontosságát hagyományosan egy 0,5 mm vonal vastagságával jellemzik
- ennek 1:24.000 méretarányban 12 m 1:250.000 méretarányban 125 m felel meg
- valamely adatbázisban szereplő tipikus UTM koordinátapár a következő:
Keleti 579 124,349 m
Északi 5 194 732,247 m
- Magyarországon az EOV illetve a Gauss-Krüger koordináták a legelterjedtebbek
- ha az adatbázist 1:24.000 méretarányú térképlapok digitalizálásával állítják elő, az egyes koordináták utolsó négy jegye m, dm, cm, mm hibával terhelt
Hogyan vizsgáljuk a helyzeti pontosságot?
- valamely független nagyobb pontosságú forrás felhasználásával
- a területről létező nagyobb méretarányú térkép,
- GPS mérések eredménye,
- eredeti geodéziai mérések eredménye;
- az adatok belső egyértelműsége felhasználásával
- nem bezárt poligonok, vonalak tulfutó vagy hiányos csatlakozása pontatlanságot jeleznek,
- a zárás hiánya, illetve a csatlakozási eltérések felhasználhatók a helyzeti pontosság mérésére,
- a különböző adatok hibaforrásainak ismeretében számítással, például
- 1 mm a forrás térkép anyagban,
- 0,5 mm a térkép digitalizálás előkészítésében,
- 0,2 mm a digitalizálásban,
- ha a hibaforrások függetlenek a teljes pontosságot az összetevők négyzetösszegéből vont négyzetgyökkel becsülhetjük:
( 12 + 0,52 + 0,22 )½ = 1,14
D. AZ ATTRIBÚTUMOK TARTALMI PONTOSSÁGA
- az attribútum értékek és a valódi értékek szorosságával, eltérésével jellemzik
- a helyzeti adatoktól eltérően az attribútum adatok az idővel változhatnak
- az egyes attribútum adatok pontosságát az adatok jellegének megfelelően különböző módszerekkel kell vizsgálni
- a folytonosan változó attribútumok felületek esetén például DTM vagy TIN
- a pontosság, mint mérési hiba adható meg
- például a magasság pontossága 1 m
- különböző kategóriákhoz tartozó attribútumok, mint például az osztályba sorolt poligonok esetén:
- megfelelőek, elégségesek, eléggé részletesek és jól definiáltak-e a kategóriák?
- durva hibák -mint például B osztályhoz tartozó poligon A osztályba sorolása- előfordulnak-e?
- itt előfordulhat egyszerű, de valószínűtlen eset -például golfpályát bevásárlóközpont osztályba sorolnak;
- valószínűbb eset, hogy a poligon maga heterogén
- például növényzet 70%-a A, 30%-a B kategóriájú;
- eddiginél rosszabb eset, hogy az A és B kategóriák nem egyértelműen definiáltak, így az osztálybasorolás nem egyértelmű
- példa a különböző talajfajták osztálybasorolása;
- előfordul, hogy a poligon közepe jobban az A kategóriába, széle jobban a B kategóriába sorolható
Hogyan vizsgáljuk az attribútum tartalmi pontosságot?
- állítsuk elő a téves osztálybasorolások mátrixát a következő módon:
- vegyünk fel bizonyos számú véletlenszerűen elosztott pontot,
- határozzuk meg a felvett pontokhoz tartozó osztályt az adatbázisban,
- ezután a helyszínen is határozzuk meg az osztályt,
- töltsük ki a következő mátrixot:
Osztály Osztály a helyszínen
az adatbázisban
A B C D
A . . . .
B . . . .
C . . . .
D . . . .
- ideális esetben valamennyi pont a mátrix főátlójára illeszkedne - ez azt jelentené, hogy a helyszínen megfigyelt és az adatbázisban szereplő osztály azonos;
- azonosítási hiba jelentkezik, ha valamely pont helyszínen megfigyelt és az adatbázisban szereplő osztálya különböző
- a B osztályhoz tartozó hibásan azonosított pontok számát a B oszlop A,C,D sorában szereplő értékek összege adja; azaz ezek azok a pontok, amelyek a helyszínen a B osztályhoz tartoznak, de az adatbázisban más osztálynál szerepelnek,
- az előbbi összeg csökkenti a főátlóban a B osztálynál szereplő értéket;
- azonosítási hiba jelentkezik akkor is, ha valamely, az adatbázisban szereplő osztály a helyszínen nem létezik
- például az A osztályhoz tartozó hibás azonosítások számát az A sor B,C,D oszlopához tartozó értékei adják meg, ezek azok a pontok, amelyeket az adatbázisban tévesen az A osztályhoz soroltak
- az előbbi összeg csökkenti a főátló értékét
Hogyan foglaljuk össze a mátrixot?
A helyesen osztályozott esetek százalékaránya korrekt jellemző, ezért gyakran használják
- ez a százalék a mátrix főátlójában szereplő értékekre vonatkozik,
- a főátlóban várható eltérő értékek száma megbecsülhető
- a főátlóban várható eltérő értékek száma a Cohen-féle kappa index felhasználásával becsülhető
- az egyes főátlóban szereplő elemekhez tartozó várható eltérések számát a megfelelő sorok és oszlopok összege szorzatának és az összes előforduló esetnek a hányadosa adja. Ez a q érték
45.1. ábra - kappa index számítása
- így
k = (d - q) / (N - q)
- ahol d a főátlóban szereplő elemek száma, q a főátlóban várható eltérő értékek száma, N az összes esetek száma
- a kappa index értéke hibátlan osztálybasorolás esetén 1, viszont a vártnál nem jobb pontosság esetén 0
- hasonlítsunk össze két térképet, az egyiken kevés nagy, a másikon sok kisebb poligon szerepel
- könnyebb-e nagy kappa értéket kapni az első esetben?
- ha igen, mi a magyarázata az eltérésnek?
- a térkép területén várható az attribútumok pontosságának változása, ezért nemcsak egy összesítő statisztika előállítása szükséges, hanem indokolt a téves osztálybasorolás térbeli változásának vizsgálata is
- az adatminőség az adatbázis egészét, nem pedig az egyes objektumok koordinátáit és attribútumait jellemzi
E. LOGIKAI KONZISZTENCIA (KÖVETKEZETESSÉG)
- az adatstruktúra belső konzisztenciájára vonatkozik, különösen alkalmazható a topológiai konzisztenciára;
- konzisztens-e az adatbázis a definiciókkal?
- ha léteznek poligonok, zártak-e?
- minden poligonhoz egy cím tartozik-e?
- léteznek-e élekre nem illeszkedő csomópontok?
- előfordul-e élek metszése csomópontok nélkül?
F. TELJESSÉG
- annak fokát tükrözi, mennyire fejezik ki az adatok a lehetséges tételek összeségét
- minden elképzelhető objektumot magába foglal-e az adatbázis?
- befolyásolják-e az adatbázist a kiválasztás szabályai, a generalizálás, a méretarány?
G. EREDET
- szükséges egy kimutatás az adatforrásokról és az adatok létrehozásakor végzett műveletekről.
- hogyan és milyen dokumentumokról történt a digitalizálás?
- mikor történt az adatgyűjtés?
- mely szervezet végezte az adatgyűjtést?
- milyen lépésekből tevődött össze az adatfeldolgozás?
- számítási eredmények élessége
- az eredet is gyakran hasznos mutatója a pontosságnak
H. HIBA AZ ADATBÁZIS LÉTREHOZÁSÁBAN
- az adatbázis létrehozásának minden lépését hibák terhelhetik
- melyek ezek a lépések, milyen hibafajták fordulhatnak elő?
A helymeghatározás hibái
Geodéziai hálózatok és a GPS
- a helymeghatározás legpontosabb alapjait a geodéziai hálózatok szolgáltatják, a hálózatok nagy pontossággal meghatározott koordinátájú alappontokból tevődnek össze;
- bizonyos esetekben nehézséget jelent egy adatállománynak valamely alapponthoz történő kapcsolása
- a globális helymeghatározó rendszerek GPS az alappont hálózatok bővítésének hatékony eszközei
Légifényképek és űrfelvételek
- a legtöbb helyzeti adatot légifényképek felhasználásával állítják elő
- a pontosság nagymértékben függ az illesztőpontok jó meghatározásától
- az űrfelvételekből származó távérzékelt adatok nagy pontosságú helymeghatározásra a pixelek mérete miatt nem alkalmasak
Szöveges leírások
- bizonyos szöveges adatok alkalmasak helyzetleírásra
- régi felmérések fákon elhelyezett jelekhez kapcsolódnak,
- a határokat a vízválasztók vagy a folyómedrek sodorvonalai adják meg
- a szöveges leírások csak gyenge helyzeti pontosságot biztosítanak
Digitalizálás
- a digitalizálás rajzok vonalainak x-y koordinátapárokba történő átkódolására alkalmas eljárás
- a 7. és 13. Fejezet tartalmazza a digitalizálás alapjait
- a koordináták felbontása a digitalizálás módszerétől függ:
- pontonkénti eljárás
- a digitalizálást végző személy geomorfológiai vonalak, vagy igazgatási határok jellemző pontjait kiválasztja és azokat kódolja;
- az eljárás kellő intelligenciát és szakismeretet tételez fel;
- vonalkövető eljárás
- a digitalizáló eszköz út- vagy időintervallumok alapján automatikusan regisztrál;
- általában indokolatlanul sűrűn veszi fel a pontokat;
- a vonalkövető eljárást általában kétféle hiba terheli:
- az izmok görcsösödéséből származó személyi hiba, amely a vonalak középvonalának követésekor lép fel
- ez a hiba az operátor kezének vonalat követő mozgásának következménye,
- három típusát különböztetik meg: csúcsosodás, kígyózás, hurok;
- ezek a hibák automatikusan, viszonylag könnyen eltávolíthatók;
- szoftvereket fejlesztettek a kétszer regisztrált koordináták és egyéb személyi hibák kiküszöbölésére;
- hasonló jellegű probléma jelentkezik a regisztráló billentyű kétszeri megnyomása miatt a pontonkénti regisztráláskor;
- pszichológiai eredetű személyi hibák a vonalkövetéskor
- az operátornak nehézséget okoz a vonal és a szálkereszt egyidejű figyelése;
- az átlós irányú vonalaknál oldalra csúszást eredményez;
- a túlzott mértékű generalizálás is hibát okozhat;
- a felsoroltak automatikus kiküszöbölése nem könnyű;
- a fentiek ellenére maga a digitalizálás nem tartozik a helyzeti hibák legfontosabb okai közé
- az operátor viszonylag könnyen követhet egy vonalat, annak vastagságával azonos pontossággal;
- a tipikus hiba értékek 0,5 mm körüliek;
- a digitalizálás pontossága ellenőrzésének szokásos módja az eredeti és a digitalizálás alapján kirajzolt vonalak összevetése és annak vizsgálata, hogy kellő világítás esetén az eltérés észlelhető-e
- a regisztrálás és az alappontok hibái is kihatnak az adatállományra
- hibákat okozhat az eredeti alapanyag torzulása is
- a levegő páratartalmának változása miatt a papír 3% alakváltozást szenvedhet
Koordináta-transzformáció
- a koordináta-transzformáció szintén lehet hibaforrás; egyrészt akkor, ha a digitalizált anyag vetületi rendszere ismeretlen, másrészt akkor, ha az eredeti vízszintes mérések pontatlanok voltak
Attribútumhibák
- az attribútumokat általában terepi adatgyűjtés és interpretáció kombinációjával állítják elő
- az interpretáció során alkalmazott kategóriák terepi ellenőrzése nem könnyű feladat
- például az erdőgazdálkodásban szokásos változatos vagy régi telepítés kategóriák megítélése meglehetősen szubjektív
- légifényképek interpretációjából vagy űrfelvételek feldolgozásából származó adatok nagy hibaszázalékkal rendelkezhetnek
- szociális adatok hibáinak legjelentősebb forrása az adatfelvétel
- például népszámlálási adatok bizonyos területeken bizonyos szociális csoportoknál 1O % hibát is tartalmazhatnak
Szerkesztési hibák
- a térképek szerkesztésének szokásos folyamatában a következő műveletek okoznak hibákat:
- generalizálás,
- egyesítés,
- vonalsimítás,
- tárgyak elkülönítése
- például a vasutvonalat eltolják, hogy ne fedje az oszágutat
- a most felsoroltak ugyanakkor az adatok értelmezhetőségét és használhatóságát szolgálják
Műveleti hibák
- az adatokkal végzett műveletek is hibákat okozhatnak
- logikai hibák,
- generalizálás és az interpretáció problémái,
- matematikai hibák,
- pontosságvesztés a nem megfelelő számítási eljárás miatt,
- vektoradatok raszterizálása
- például a vonal valódi helye valahol a cellán belül van,
- szomszédos cellák tartalmazzák ugyanazon határt
I. ADATMINŐSÉGI JEGYZŐKÖNYV
- miután igen sok, egymástól különböző hibaforrás létezik, feltehetően nem lehetséges a hibákat egymástól függetlenül minden műveleti lépésnél meghatározni - a hibák aritmetikai összegzésének stratégiája valószínűleg nem valósítható meg
USGS
- előírás a pontok 10%-ának ellenőrzése, az eltérés nem haladhatja meg a 0,33 inch értéket a megfelelő méretarányban, 1:20.000-nél nagyobb méretarányoknál;
- felmerülő kérdések: Hol és hogyan vegyük fel a 10%-ot?
- például feltehetően rossz választás valamennyi pontot ugyanazon a határvonalon egymás közelében kijelölni
Brit Katonai Térképészet
- el kell végezni egy pontosságellenőrzést ismételt felméréssel
- valamely felmérés hitelesítéséhez nagy számu pont (150-500) alapján a következő értékeket kell kiszámítani
- négyzetes eltérés
e = [(S
xi2):n]½
ahol xi az eltérés az egyes pontokban
- szabályos hiba
s = (S
xi):n
- középhiba
se =(e2-s2)½
- ha a hiba jelentős, akkor a felmérést gondosan átvizsgálják
- a szakirodalomban [Merchant (1987)] példa található az ellenőrzés elvégzésére
US Nemzeti Szabvány
- a Költségvetési Hivatal Nemzeti Térképpontossági Szabványa, 1947
- nem teljes;
- a Digitális Kartográfiai Adat Szabvány Nemzeti Bizottságának jelenlegi szabvány fejlesztése
- elnök Hal Moellering;
- javaslat szabványok kidolgozására:
- kartográfiai objektumok definiálása,
- adatformátumok cseréje,
- ADATMINŐSÉG dokumentálása;
- időpontok:
1982 január NCDCDS megalakítása,
1985 január belső szabvány javaslat,
1988 január Szabvány tervezet
1988 terepi kipróbálás
45.1. melléklet - Interim proposed standard for Digital Cartographic Data Quality
IRODALOM
Bureau of the Budget, 1947. "National Map Accuracy Standards, Washington DC, GPO", reprinted in
M.M.Thompson, 1979, "Maps for America", USGS, Reston VA, p 104.
Burrough, P.A., 1986. "Principles of Geographical Information Systems for Land Resources Assessment",
Clarendon Press, Oxford See pp. 103-135.
Chrisman, N.R., 1987. "The accuracy of map overlays: a reassesment", Landscape and Urban Planning
14:427-439.
DCDSTF, 1988. "The Proposed Standard for Digital Cartographic Data," The American Cartographer
15(1):entire issue.
Federal Geodetic Control Committee, 1974. "Classification, Standards of Accuracy, and General
Specifications of Geodetic Control Surveys", Washington DC, GPO, 1980-0-333-276 (also NOAA--S/T 81-29).
Giovachino, D., 1993. "How to Determine the accuracy of Your Graphic Digitizer", Geoinfo Systems,
march p. 50-53.
Harley, J. B., 1975. "Ordnance Survey Maps: A Descriptive Manual", Ordnance Survey, Southampton, England.
MacDougall, E.B., 1975. "The accuracy of map overlays" Landscape Planning 2:23-30.
Merchant, D.C., 1987. "Spatial accuracy specification for large scale topographic maps," Photogrammetric
Engineering and Remote Sensing 53:958-61. Reports a recent effort by ASPRS to revise the US National Map Accuracy Standard.
National Committee for Digital Cartographic Data Standards, Moellering, H., ed, 1985. "Digital Cartographic
Data Standards: An Interim Proposed Standard", Report #6.
ELLENŐRZŐ KÉRDÉSEK
1. Fejtse ki mi a különbség a pontosság és az élesség között, mutassa be, hogyan alkalmazhatók ezek a fogalmak a GIS- ben!
2. A térképészeti kézikönyvekben a pontosság és az élesség hasonlóak, a GIS műveletekben viszont az élesség lényegesen meghaladja a pontosságot. VITA
3. Tervezze meg valamely vállalatnál az ott folyó digitalizálási tevékenység pontossági ellenőrzését! Hogyan és mely vonalakon mérné a pontosságot?
4. Mit jelent az adatok eredete? Miért fontos ez a fogalom a térbeli adatbázisok pontosságának megértéséhez?
|