43. FEJEZET - ADATBÁZIS KONCEPCIÓK I. RÉSZ (GIS,térinformatika,térkép,geodézia)


   
 
 

43. FEJEZET - ADATBÁZIS KONCEPCIÓK I. RÉSZ

 
Tartalom
<<< Előző fejezet               Következő fejezet >>>
 

43. Fejezet - ADATBÁZIS KONCEPCIÓK I. RÉSZ

Szerkesztette: Gerald White, California State University, Sacramento

Magyar változat: Divényi Pál, Földmérési és Távérzékelési Intézet, Budapest

 

A. BEVEZETÉS

Az adatbáziskezelő rendszerek használatának két útja a térinformatikában

A térinformatika, mint adatbázis-probléma

B. ADATBÁZISRENDSZEREK KONCEPCIÓI

Definíció

Az adatbázisos megközelítés előnyei

Az adatbázis áttekinthetősége

C. ADATBÁZISKEZELŐ RENDSZEREK (DBMS)

Komponensek

Az adatbázisrendszerek típusai

D. HIERARCHIKUS MODELL

A tulajdonságok összefoglalása

Előnyök és hátrányok

E. HÁLÓZATI MODELL

Korlátozások

Összefoglalás

F. RELÁCIÓS MODELL

Terminológia

A relációk példái

Kulcsok (azonosítók)

Normalizáció

Előnyök és hátrányok

IRODALOM

ELLENŐRZŐ KÉRDÉSEK

 

 

43. Fejezet - ADATBÁZIS KONCEPCIÓK I. RÉSZ

Szerkesztette: Gerald White, California State University, Sacramento

Magyar változat: Divényi Pál, Földmérési és Távérzékelési Intézet, Budapest

 

A. BEVEZETÉS

- a korai térinformatikai kísérletek szinte a semmiből indultak, nagyon korlátozott eszközöket (mint operációs rendszerek, fordítók, stb.) használva

- később a térinformatika már meglévő adatbáziskezelő rendszerek köré épült (DBMS);

- a DBMS megvásárlása vagy bérlése a szoftverköltségek leglényegesebb tényezője

- a DBMS sok funkciót kezel, amelyeket különben programozni kell a térinformatikai rendszerekben

- bármely DBMS előfeltételeket tesz a betöltött adatokról

- a DBMS hatékony használatához az adatokat ezekhez az előfeltételekhez kell igazítani

- bizonyos fajtájú DBMS-ek alkalmasabbak GIS célokra, mint mások, mivel az előfeltételeik jobban illeszkednek a térbeli adatokhoz

Az adatbázis kezelő rendszerek használatának két útja a térinformatikában

1. Teljeskörű DBMS-megoldás

- minden adat a DBMS útján érhető el, így a DBMS-tervező előfeltételeihez kell alkalmazkodni

2. Vegyes DBMS-megoldás

- bizonyos adat a DBMS útján érhető el (rendszerint attribútum-táblázatok és relációk), mivel ezekhez az adatmodell jól illeszkedik

- bizonyos adat (rendszerint lokális) közvetlenül elérhető, mivel ezekhez az adatmodell nem jól illeszkedik

A térinformatika, mint adatbázis-probléma

- bizonyos alkalmazási területek, mint pl. a közművek

- nagy menyiségű adattal foglalkoznak

- gyakran rendelkeznek már DBMS-megoldással, mielőtt a térinformatikára sor kerülne

- a térinformatika földrajzi elérést és lekérdezést biztosít létező módszereknek

- az ilyen rendszerek gyors választ igényelnek korlátozott számú lekérdezésre és kisebb analízisekre

- az ilyen területekre gyakran mondják, hogy a GIS "adatbázis probléma" és nem algoritmus-, analízis-, vagy input-, output- probléma

 

B. ADATBÁZISRENDSZEREK KONCEPCIÓI

Definíció

- az adatbázis nem-redundáns adatok gyűjteménye, amelyet különböző alkalmazások közösen használnak

- kiemelkedő a többszörös alkalmazás fontossága

- a térbeli adatbázis az állami hivatalok általános erőforrása

- a fizikai tárolás elkülönül az alkalmazói programtól (program/adat függetlenség)

- a felhasználónak, vagy a programozónak, vagy az alkalmazott fejlesztőnek nem szükséges olyan részletek ismerete, mint az, hogy az adatok "hogyan vannak tárolva"

- az ilyen részletek "átlátszóak a felhasználó számára"

- az adatok változtathatók anélkül, hogy azok a rendszer más tényezőire hatnának

- pl. adatcsoportok formátumcseréje (valósról integerre, aritmetikiai műveletek)

- pl. file szerkezet változtatása (belső átrendezés, vagy az elérési mód cseréje)

- pl. a perifériák relokációja (pl. optikairól mágnestárolásra, szalagról lemezre, stb.)

Az adatbázisos megközelítés előnyei

- az adatok "redundanciájának" csökkentése

- az osztott adatbázisokban inkább, mint a független adatbázisokban

- a tárolt információkban az inkonzisztencia csökkenése pl. ugyanazon vevő különböző címei a különböző osztályokon

- az adatintegritás és -minőség megtartása

- az adat öndokumentált vagy önleíró, (az adat interpretációjához szükséges metaadat tárolva van az adatbázisban)

- az inkonzisztenciák elkerülése, (az adatok előírt modelleket, szabályokat és szabványokat követnek)

- csökkent szoftverfejlesztési költség, (sok alapműveleti feladatot is ellát az adatbázis kezelő szoftver - DBMS)

- biztonsági korlátozások, (az adatbáziskezelő több adatvédelmi eszközzel rendelkezik az elérés, felülírás, stb, vonatkozásában)

Az adatbázis áttekinthetősége

43.1. ábra - az adatbázis áttekinthetősége

- az adatbázis különböző áttekinthetőséget mutat a felhasználó vagy programozó számára

- ezen kapcsolatokat kezeli és építi fel az adatbázis adminisztrátor (DBA)

- a belső adatmegjelenítés (belső áttekinthetőség) normálisan nem látható a felhasználó, az alkalmazói programozó számára

- a koncepcionális áttekinthetőség alapján kezeli a DBA az adatbázist

- a DBMS az adatbázis koncepcionális áttekinthetőségét, az alkalmazástól függően, többszörös relációban közvetíti a programozó és a felhasználó részére

- ezeket külső áttekinthetőségnek vagy sémáknak hívjuk

43.2. ábra - vízügyi adatbázis

 

C. ADATBÁZISKEZELŐ RENDSZEREK (DBMS)

Komponensek

Adattípusok

- tartalmazzák a következőket:

- integer (csak egész számok)

- valós (decimális) számok

- karakter (alfanumerikus numerikus)

- idő (dátum)

- a modern rendszerek már képeket is, mint adattípusokat tartalmaznak pl. a tűzoltóság adatbázisa igényli az épületrészek, folyosók képi megjelenítését is, ill. azok tárolását a cím mellett

- pl. a TIGÁZ (GeoView fejlesztés) a gázhálózat elemei, nyomásszabályozó képe, műszaki rajza egyaránt

Standard műveletek

- pl. rendezés (sort), törlés (delet), szerkesztés (edit)

 

Adatdefiníciós nyelv (DDL)

- nyelv, amely leírja az adatbázis tartalmát

- pl. attribútumnevek, adattípusok, metaadatok

Adatkezelés és lekérdező nyelv

- nyelv, amely parancsok kiadására szolgál az adatbevitel, szerkesztés, elemzés, kirajzolás, megjelenítés elvégzéséhez

- bizonyos szabványosítási fokot ért el az SQL (standard query language)

Programozási eszközök

- a közvetlen parancs- és lekérdezőnyelv mellett az adatbázis elérhető az alkalmazói programok útján, pl. szubrutinok segítségével

Fileszerkezet

- belső struktúra, amely az adatokat szervezi

Az adatbázisrendszerek típusai

- az adatbázis különböző típusmodelljei:

- tabuláris ("flat file") - az adatok táblázatban

- hierarchikus

- hálózati

- relációs

- a hierarchikus, hálózati és relációs modell is táblázatos adatokkal kívánja ugyanazt a problémát megoldani

- képtelen egynél több objektumtípussal, vagy az objektumok közötti kapcsolatokkal foglalkozni

- pl. az adatbázis kezeli a repülőjáratok, személyzet, repülőgép és utasok adatait - ez négy rekord típus különböző attribútumokkal és a köztük lévő kapcsolatokkal (pl. helyfoglalás az utasok és a járat között)

- az adatbázis-fejlesztés a korai 50-es évekre tekint vissza, nagyrészt az IBM fejlesztésének köszönhetően

- a legtöbb adatbázis-fejlesztés az állami, katonai, üzleti, oktatási élet területén született - összetett szervezetek összetett adatokkal és információ szükséglettel

- az idők során az a trend nyilvánult meg, hogy a felhasználó és a fizikai adattárolás közti elválasztás megnőtt, ezáltal növelve az "átláthatóságot"

 

D. HIERARCHIKUS MODELL

- a 60-as évek elején az IBM egyre nagyobb üzletet látott az adatok hierarchikus formába való szervezésében

- már egynél több típusú rekord szerepel, hiszen az üzleti élet megkívánja a többtípusú rekord hierarchikus szervezését;

- pl. a vállalat különböző részlegei különböző attribútumokat vonnak be, mint pl. vezető, személyzet, cím, stb.

- mindegyik részleg további osztályozást végez, amelybe bevonja a terméket, tulajdonságait, stb.

- mindegyik részleg további raktárral rendelkezik, ahol szintén minden adat tárolódik: készlet, ár, tulajdonság, stb.

- bizonyos földrajzi, azaz geometriai adattípus jól illeszkedik a hierarchikus adatszervezéshez, pl.

- népszámlálási adat államhoz, városhoz, körzethez, stb.

- az adatbázis különböző rekordtípusokat tartalmaz, azok attribútumait és a hierarchikus kapcsolatokat

- az attribútumokat a különböző rekordszintekhez az adatbázis-szerkezetben rögzített kulcs rendeli

A tulajdonságok összefoglalása

- rekordtípusok állománya, ahol a rekordtípus elkülönülhet klasszifikáció szerint (főosztály, osztály, alosztály, stb.)

- kapcsolatok állománya, amely a rekordtípusokat egy adat-struktúradiagramban (fa) köti össze

- általában két rekordtípust egy kapcsolat köt össze, ezért nem szükséges nevet adni a kapcsolatnak

- minden rekordhoz társul egy szülőrekord, amely a fastruktúrában a következő szint,

- pl. minden megye csak egy államhoz tartozik

- a rekordok között ugyanazon a szinten nem lehet közlekedni

Előnyök és hátrányok

- az adat fastruktúrájú legyen

- a fastruktúra természetes megközelítés a földrajzi jellegű adat számára

- az adat könnyen elérhető a kulcsattribútum utján, de nehézkes más attribútum számára

- az üzleti életben egyszerű az adott típusú rekord megtalálása (osztály, részleg vagy szállító)

- földrajzi esetben egyszerű megtalálni a rekordot a szint megadása alapján (város, körzet/, de eltérő attribúmok számára már nem olyan egyszerű a kapcsolat

- pl. megtalálni azt a rekordot /város, körzet/, amely az "5000 vagy kevesebb népességhez", mint attribútumhoz tartozik

- a fastruktúra rugalmatlan

- új kapcsolatokat a rekordok között már nem tud létrehozni, ha a fastruktúra egyszer már megteremtődött

- pl. a földrajzos esetben új kapcsolatokat már nem lehet megadni

- nem lehet a fán oldalirányú vagy átlós kapcsolatokat megadni, csak függőlegesen

- a földrajzi esetekben az egyetlen kapcsolat, amelyet könnyű kódolni a "tartozik valamihez" vagy" tartalmazza"

- a hierarchikus modelleken alapuló DBMS-eket gyakran használják térbeli adatok tárolására, csak nem túl szerencsés választás a GIS alapjául

 

E. HÁLÓZATI MODELL

- az 1960-as évek közepén fejlesztették ki először a hálós modellt a CODASYL projekt részeként, amely a COBOL (1966) nyelvet igényelte, maga a hálózati modell 1971-ben fejlődött ki végleges formában

- az adatbázis rendszerek más aspektusai is ekkor alakultak ki, mint pl. adatbázis adminisztrátor, adatvédelem, nyomkövetés

- a hálózati modell lényege, hogy az adatstruktúra elkülönűl az adat fizikai tárolásától és így szükségtelenné válik a duplikáció, és az ezzel kapcsolatos hibalehetőség, s csökkent a költség

- a hálózati modell használja az adat definíciós nyelv és az adatkezelő nyelv koncepcióját

- a hálózati modell az m:n kapcsolat és viszonylat elvét használja (adatláncolás);

- a tulajdonos rekord több tagrekordot tartalmazhat

- a tagrekordokhoz különböző tulajdonosok tartozhatnak

- a hierarchikus modell csak 1:n lehet

- nézzünk egy hálószati adatmodellű adatbázist

- kórházi adatbázist, amely három rekordtípust ismer:

- beteg: neve, címe, felvétel időpontja, stb.

- orvos: neve, szakterülete, stb.

- kórterem: ágyszám, beosztott ápolónő stb.

- kapcsolat szükséges pl. betegtől az orvos és kórterem felé, az orvos-rekord több beteg-rekorddal rendelkezhet, a beteg-rekordhoz tartozhat az orvos és kórterem is

- DBMS hálózati módszereket ismer a kapcsolatok újradefiniálásához, pl. a beteget új kórteremhez rendeli

Korlátozások

- ugyanazon típusú rekordok közti kapcsolat nem megengedett

- míg a rekord különböző típusú egyéb rekordhoz tartozhat, de azon belül csak egyhez (így a beteg csak egy orvoshoz, egy kórteremhez tartozhat)

Összefoglalás

- a komplex térbeli adatok kezelésében a hálózati modell nagyobb rugalmasságot biztosít, mint a hierarchikus modell

- a térinformatikában mégsem terjedt el nagyon, mivel a relációs modell még nagyobb rugalmasságot tud biztosítani

 

F. RELÁCIÓS MODELL

- a legnépszerűbb DBMS-modell a térinformatikai rendszerekben

- INFO az ARC/INFO -ban

- EMPRESS a SYSTEM 9-ben

- különböző GIS használ ORACLE-t (pl. GreenLine)

- különböző PC-s alapú GIS használ DBASE III-at

- a rekordok közti kapcsolatok megközelítése rugalmas, így az objektumok közti térbeli kapcsolatok modellezésére kiváló

- a relációs modellt először az IBM kutatója, Mr. Codd ajánlotta 197O-ben

- a modell inkább koncepció, mint adatstruktúra

- a relációs modelleknél a belső architektúra igen különbözik az egyes relációs un. RDBMS-t illetően

Terminológia

- minden rekordhoz az attribútumok különböző állománya tartozhat

- a lehetséges attribútum-értéket külön érdemes definiálni

- az adott típusú rekordok táblázatot vagy relációt alkotnak, s eszerint minden sor egy rekord, vagy minden oszlop egy attribútum

- jegyezzük meg, hogy a "reláció" rekordok táblázata, nem pedig a rekordok közti kapcsolat

- a reláció foka az attribútum száma a táblázatban

- 1 attribútum egyszeres reláció

- 2 attribútum kétszeres reláció

- n attribútum n-szeres reláció

Példák relációkra

- egyszeres: tanfolyam (tárgy)

- kétszeres: személyek (név, cím)

tulajdonos (név, házcím)

- háromszoros: házak (cím, ár, méret)

Kulcsok (azonosítók)

- a reláció kulcsa egy olyan attribútum-alállomány, amely a következő tulajdonságokkal rendelkezik:

- egységes azonosító

- az azonosító egységes a relációs táblázat sorára

- nincs redundancia

- nincs olyan attribútum a kulcsban, amely elhagyható a kulcs egyediségének elrontása nélkül

- pl. a telefonszám egységes azonosító a telefonkönyv adatbázisában

- a normál (hagyományos) telefonkönyvben az azonosító a családnév, majd keresztnév, és lakcím

- pl. ha a lakcímet elhagyjuk, akkor sok Kovács János marad)

- a reláció első, un. primer-attribútuma, amely legalább egy kulcsban szerepel

- minden egyéb attribútum nem primerjellegű

Normalizáció

- a fogalom a legegyszerűbb struktúra megtalálására vonatkozik egy adott adatállományra vonatkozóan

- az attribútumok közti függőségre irányul

- elkerüli az általános információvesztést, ha újabb rekordot viszünk az adatbázisba, vagy régebbit törölünk

43.3 ábra - normalizáció

- az első relációt érinti (a primer-attribútum aláhúzva)

- nincs normalizálva, mivel a PRICE (ár) egyedileg van azonosítva STYLE-lal (jelleggel)

- problémák az új rekord behozatalánál és a régi törlésénél

- a kapcsolat elveszik a farm és az 50.000 között, ha az utolsó farm rekordot töröljük

- az új kapcsolatot (háromszoros ár 75.000) be kell szúrni oda, ahol az első háromszoros rekord előfordul

- nézzük a második kapcsolatot

- itt két kapcsolat van egy helyett

- egy az építésztől a jelleghez

- másik a stílusok ára

- sokféle normalizációt definiálhatunk - ez a példa harmad normál formát (3NF) példáz, amely megszünteti a nem elsődleges attribútumok közötti függőséget

- bár a normalizáció egy következetes és logikus szerkezetet ad, az ára a megnövekedett tárolási igényben jelentkezik

- ezért néhány GIS adatbázis adminisztrátor elkerüli a teljes normalizációt

- a relációs kapcsolat ellentéte a normalizációnak, ahol a HOME2 és a COST a HOME1 formába van összevonva

Előnyök és hátrányok

- a legrugalmasabb adatbázismodell

- nincs nyilvánvaló kapcsolata a kivitelezésnek a rendszerrel - a modell felhasználó szempontú, nem belső szervezésűek az adatok

- a formális matematikai elmélet igazi érvényesülési színtere

- a legtöbb RDBMS adatkezelési nyelv a felhasználótól megköveteli a relációk tartalmának ismeretét és közös attribútum alapján elérhető az egyik reláció és a másik reláció is

 

Példa: adott két reláció

- tulajdon (cím, érték, állam-azonosító)

- állam (állam-azonosító, név, adókulcs)

- a " Milyen adók vannak x tulajdonra?" kérdésre válaszolva

- előhívja a tulajdon-rekordot

- az állam-azonosító összekapcsolja a tulajdon és az állam-rekordot

- számítja az adott, a tulajdon-reláció mellett lévő adószázalékot, az állam-relációval való összekapcsolás után

 

IRODALOM

Date, G.J., 1987. "An Introduction to Database Systems", Addison-Wesley, Reading, MA.

Howe, D.R., 1983. "Data Analysis for Data Base Design", Arnold, London

Kent, W., 1983. "A simple guide to five normal forms in relational database theory," Communications of the

Association for Computing Machinery 26:120.

Tsichritzis, D.C. and F.H. Lochovsky, 1977. "Database Management Systems", Academic Press, New York

van Roessel, J.W., 1987. "Design of a spatial data structure using the relational normal forms,"

International Journal of Geographical Information Systems 1:33-50.

 

ELLENŐRZŐ KÉRDÉSEK

1. Hasonlítsa össze a négy adatbázismodellt (egyszerű fájl, hierarchikus, hálózati és relációs modellek). A relációs modell milyen különleges tulajdonsága okozza népszerűségét?

2. A poligon rétegezést térbelileg analógnak nevezik a relációs egyesítéssel. Egyetért ezzel?

3. Foglalja össze azon érveket, amelyek ellenzik a térbeli adatbázis egyszerű fájlokként /flat file/ való szervezését.

4. Mit gondol, miért a reláció fogalmát választották az attribútumok táblájára a relációs adatmodellben?

 
Tartalom
<<< Előző fejezet               Következő fejezet >>>
 



 
 


©GIS Figyelő