43. Fejezet - ADATBÁZIS KONCEPCIÓK I. RÉSZ
Szerkesztette: Gerald White, California State University, Sacramento
Magyar változat: Divényi Pál, Földmérési és Távérzékelési Intézet, Budapest
A. BEVEZETÉS
Az adatbáziskezelő rendszerek használatának két útja a térinformatikában
A térinformatika, mint adatbázis-probléma
B. ADATBÁZISRENDSZEREK KONCEPCIÓI
Definíció
Az adatbázisos megközelítés előnyei
Az adatbázis áttekinthetősége
C. ADATBÁZISKEZELŐ RENDSZEREK (DBMS)
Komponensek
Az adatbázisrendszerek típusai
D. HIERARCHIKUS MODELL
A tulajdonságok összefoglalása
Előnyök és hátrányok
E. HÁLÓZATI MODELL
Korlátozások
Összefoglalás
F. RELÁCIÓS MODELL
Terminológia
A relációk példái
Kulcsok (azonosítók)
Normalizáció
Előnyök és hátrányok
IRODALOM
ELLENŐRZŐ KÉRDÉSEK
43. Fejezet - ADATBÁZIS KONCEPCIÓK I. RÉSZ
Szerkesztette: Gerald White, California State University, Sacramento
Magyar változat: Divényi Pál, Földmérési és Távérzékelési Intézet, Budapest
A. BEVEZETÉS
- a korai térinformatikai kísérletek szinte a semmiből indultak, nagyon korlátozott eszközöket (mint operációs rendszerek, fordítók, stb.) használva
- később a térinformatika már meglévő adatbáziskezelő rendszerek köré épült (DBMS);
- a DBMS megvásárlása vagy bérlése a szoftverköltségek leglényegesebb tényezője
- a DBMS sok funkciót kezel, amelyeket különben programozni kell a térinformatikai rendszerekben
- bármely DBMS előfeltételeket tesz a betöltött adatokról
- a DBMS hatékony használatához az adatokat ezekhez az előfeltételekhez kell igazítani
- bizonyos fajtájú DBMS-ek alkalmasabbak GIS célokra, mint mások, mivel az előfeltételeik jobban illeszkednek a térbeli adatokhoz
Az adatbázis kezelő rendszerek használatának két útja a térinformatikában
1. Teljeskörű DBMS-megoldás
- minden adat a DBMS útján érhető el, így a DBMS-tervező előfeltételeihez kell alkalmazkodni
2. Vegyes DBMS-megoldás
- bizonyos adat a DBMS útján érhető el (rendszerint attribútum-táblázatok és relációk), mivel ezekhez az adatmodell jól illeszkedik
- bizonyos adat (rendszerint lokális) közvetlenül elérhető, mivel ezekhez az adatmodell nem jól illeszkedik
A térinformatika, mint adatbázis-probléma
- bizonyos alkalmazási területek, mint pl. a közművek
- nagy menyiségű adattal foglalkoznak
- gyakran rendelkeznek már DBMS-megoldással, mielőtt a térinformatikára sor kerülne
- a térinformatika földrajzi elérést és lekérdezést biztosít létező módszereknek
- az ilyen rendszerek gyors választ igényelnek korlátozott számú lekérdezésre és kisebb analízisekre
- az ilyen területekre gyakran mondják, hogy a GIS "adatbázis probléma" és nem algoritmus-, analízis-, vagy input-, output- probléma
B. ADATBÁZISRENDSZEREK KONCEPCIÓI
Definíció
- az adatbázis nem-redundáns adatok gyűjteménye, amelyet különböző alkalmazások közösen használnak
- kiemelkedő a többszörös alkalmazás fontossága
- a térbeli adatbázis az állami hivatalok általános erőforrása
- a fizikai tárolás elkülönül az alkalmazói programtól (program/adat függetlenség)
- a felhasználónak, vagy a programozónak, vagy az alkalmazott fejlesztőnek nem szükséges olyan részletek ismerete, mint az, hogy az adatok "hogyan vannak tárolva"
- az ilyen részletek "átlátszóak a felhasználó számára"
- az adatok változtathatók anélkül, hogy azok a rendszer más tényezőire hatnának
- pl. adatcsoportok formátumcseréje (valósról integerre, aritmetikiai műveletek)
- pl. file szerkezet változtatása (belső átrendezés, vagy az elérési mód cseréje)
- pl. a perifériák relokációja (pl. optikairól mágnestárolásra, szalagról lemezre, stb.)
Az adatbázisos megközelítés előnyei
- az adatok "redundanciájának" csökkentése
- az osztott adatbázisokban inkább, mint a független adatbázisokban
- a tárolt információkban az inkonzisztencia csökkenése pl. ugyanazon vevő különböző címei a különböző osztályokon
- az adatintegritás és -minőség megtartása
- az adat öndokumentált vagy önleíró, (az adat interpretációjához szükséges metaadat tárolva van az adatbázisban)
- az inkonzisztenciák elkerülése, (az adatok előírt modelleket, szabályokat és szabványokat követnek)
- csökkent szoftverfejlesztési költség, (sok alapműveleti feladatot is ellát az adatbázis kezelő szoftver - DBMS)
- biztonsági korlátozások, (az adatbáziskezelő több adatvédelmi eszközzel rendelkezik az elérés, felülírás, stb, vonatkozásában)
Az adatbázis áttekinthetősége
43.1. ábra - az adatbázis áttekinthetősége
- az adatbázis különböző áttekinthetőséget mutat a felhasználó vagy programozó számára
- ezen kapcsolatokat kezeli és építi fel az adatbázis adminisztrátor (DBA)
- a belső adatmegjelenítés (belső áttekinthetőség) normálisan nem látható a felhasználó, az alkalmazói programozó számára
- a koncepcionális áttekinthetőség alapján kezeli a DBA az adatbázist
- a DBMS az adatbázis koncepcionális áttekinthetőségét, az alkalmazástól függően, többszörös relációban közvetíti a programozó és a felhasználó részére
- ezeket külső áttekinthetőségnek vagy sémáknak hívjuk
43.2. ábra - vízügyi adatbázis
C. ADATBÁZISKEZELŐ RENDSZEREK (DBMS)
Komponensek
Adattípusok
- tartalmazzák a következőket:
- integer (csak egész számok)
- valós (decimális) számok
- karakter (alfanumerikus numerikus)
- idő (dátum)
- a modern rendszerek már képeket is, mint adattípusokat tartalmaznak pl. a tűzoltóság adatbázisa igényli az épületrészek, folyosók képi megjelenítését is, ill. azok tárolását a cím mellett
- pl. a TIGÁZ (GeoView fejlesztés) a gázhálózat elemei, nyomásszabályozó képe, műszaki rajza egyaránt
Standard műveletek
- pl. rendezés (sort), törlés (delet), szerkesztés (edit)
Adatdefiníciós nyelv (DDL)
- nyelv, amely leírja az adatbázis tartalmát
- pl. attribútumnevek, adattípusok, metaadatok
Adatkezelés és lekérdező nyelv
- nyelv, amely parancsok kiadására szolgál az adatbevitel, szerkesztés, elemzés, kirajzolás, megjelenítés elvégzéséhez
- bizonyos szabványosítási fokot ért el az SQL (standard query language)
Programozási eszközök
- a közvetlen parancs- és lekérdezőnyelv mellett az adatbázis elérhető az alkalmazói programok útján, pl. szubrutinok segítségével
Fileszerkezet
- belső struktúra, amely az adatokat szervezi
Az adatbázisrendszerek típusai
- az adatbázis különböző típusmodelljei:
- tabuláris ("flat file") - az adatok táblázatban
- hierarchikus
- hálózati
- relációs
- a hierarchikus, hálózati és relációs modell is táblázatos adatokkal kívánja ugyanazt a problémát megoldani
- képtelen egynél több objektumtípussal, vagy az objektumok közötti kapcsolatokkal foglalkozni
- pl. az adatbázis kezeli a repülőjáratok, személyzet, repülőgép és utasok adatait - ez négy rekord típus különböző attribútumokkal és a köztük lévő kapcsolatokkal (pl. helyfoglalás az utasok és a járat között)
- az adatbázis-fejlesztés a korai 50-es évekre tekint vissza, nagyrészt az IBM fejlesztésének köszönhetően
- a legtöbb adatbázis-fejlesztés az állami, katonai, üzleti, oktatási élet területén született - összetett szervezetek összetett adatokkal és információ szükséglettel
- az idők során az a trend nyilvánult meg, hogy a felhasználó és a fizikai adattárolás közti elválasztás megnőtt, ezáltal növelve az "átláthatóságot"
D. HIERARCHIKUS MODELL
- a 60-as évek elején az IBM egyre nagyobb üzletet látott az adatok hierarchikus formába való szervezésében
- már egynél több típusú rekord szerepel, hiszen az üzleti élet megkívánja a többtípusú rekord hierarchikus szervezését;
- pl. a vállalat különböző részlegei különböző attribútumokat vonnak be, mint pl. vezető, személyzet, cím, stb.
- mindegyik részleg további osztályozást végez, amelybe bevonja a terméket, tulajdonságait, stb.
- mindegyik részleg további raktárral rendelkezik, ahol szintén minden adat tárolódik: készlet, ár, tulajdonság, stb.
- bizonyos földrajzi, azaz geometriai adattípus jól illeszkedik a hierarchikus adatszervezéshez, pl.
- népszámlálási adat államhoz, városhoz, körzethez, stb.
- az adatbázis különböző rekordtípusokat tartalmaz, azok attribútumait és a hierarchikus kapcsolatokat
- az attribútumokat a különböző rekordszintekhez az adatbázis-szerkezetben rögzített kulcs rendeli
A tulajdonságok összefoglalása
- rekordtípusok állománya, ahol a rekordtípus elkülönülhet klasszifikáció szerint (főosztály, osztály, alosztály, stb.)
- kapcsolatok állománya, amely a rekordtípusokat egy adat-struktúradiagramban (fa) köti össze
- általában két rekordtípust egy kapcsolat köt össze, ezért nem szükséges nevet adni a kapcsolatnak
- minden rekordhoz társul egy szülőrekord, amely a fastruktúrában a következő szint,
- pl. minden megye csak egy államhoz tartozik
- a rekordok között ugyanazon a szinten nem lehet közlekedni
Előnyök és hátrányok
- az adat fastruktúrájú legyen
- a fastruktúra természetes megközelítés a földrajzi jellegű adat számára
- az adat könnyen elérhető a kulcsattribútum utján, de nehézkes más attribútum számára
- az üzleti életben egyszerű az adott típusú rekord megtalálása (osztály, részleg vagy szállító)
- földrajzi esetben egyszerű megtalálni a rekordot a szint megadása alapján (város, körzet/, de eltérő attribúmok számára már nem olyan egyszerű a kapcsolat
- pl. megtalálni azt a rekordot /város, körzet/, amely az "5000 vagy kevesebb népességhez", mint attribútumhoz tartozik
- a fastruktúra rugalmatlan
- új kapcsolatokat a rekordok között már nem tud létrehozni, ha a fastruktúra egyszer már megteremtődött
- pl. a földrajzos esetben új kapcsolatokat már nem lehet megadni
- nem lehet a fán oldalirányú vagy átlós kapcsolatokat megadni, csak függőlegesen
- a földrajzi esetekben az egyetlen kapcsolat, amelyet könnyű kódolni a "tartozik valamihez" vagy" tartalmazza"
- a hierarchikus modelleken alapuló DBMS-eket gyakran használják térbeli adatok tárolására, csak nem túl szerencsés választás a GIS alapjául
E. HÁLÓZATI MODELL
- az 1960-as évek közepén fejlesztették ki először a hálós modellt a CODASYL projekt részeként, amely a COBOL (1966) nyelvet igényelte, maga a hálózati modell 1971-ben fejlődött ki végleges formában
- az adatbázis rendszerek más aspektusai is ekkor alakultak ki, mint pl. adatbázis adminisztrátor, adatvédelem, nyomkövetés
- a hálózati modell lényege, hogy az adatstruktúra elkülönűl az adat fizikai tárolásától és így szükségtelenné válik a duplikáció, és az ezzel kapcsolatos hibalehetőség, s csökkent a költség
- a hálózati modell használja az adat definíciós nyelv és az adatkezelő nyelv koncepcióját
- a hálózati modell az m:n kapcsolat és viszonylat elvét használja (adatláncolás);
- a tulajdonos rekord több tagrekordot tartalmazhat
- a tagrekordokhoz különböző tulajdonosok tartozhatnak
- a hierarchikus modell csak 1:n lehet
- nézzünk egy hálószati adatmodellű adatbázist
- kórházi adatbázist, amely három rekordtípust ismer:
- beteg: neve, címe, felvétel időpontja, stb.
- orvos: neve, szakterülete, stb.
- kórterem: ágyszám, beosztott ápolónő stb.
- kapcsolat szükséges pl. betegtől az orvos és kórterem felé, az orvos-rekord több beteg-rekorddal rendelkezhet, a beteg-rekordhoz tartozhat az orvos és kórterem is
- DBMS hálózati módszereket ismer a kapcsolatok újradefiniálásához, pl. a beteget új kórteremhez rendeli
Korlátozások
- ugyanazon típusú rekordok közti kapcsolat nem megengedett
- míg a rekord különböző típusú egyéb rekordhoz tartozhat, de azon belül csak egyhez (így a beteg csak egy orvoshoz, egy kórteremhez tartozhat)
Összefoglalás
- a komplex térbeli adatok kezelésében a hálózati modell nagyobb rugalmasságot biztosít, mint a hierarchikus modell
- a térinformatikában mégsem terjedt el nagyon, mivel a relációs modell még nagyobb rugalmasságot tud biztosítani
F. RELÁCIÓS MODELL
- a legnépszerűbb DBMS-modell a térinformatikai rendszerekben
- INFO az ARC/INFO -ban
- EMPRESS a SYSTEM 9-ben
- különböző GIS használ ORACLE-t (pl. GreenLine)
- különböző PC-s alapú GIS használ DBASE III-at
- a rekordok közti kapcsolatok megközelítése rugalmas, így az objektumok közti térbeli kapcsolatok modellezésére kiváló
- a relációs modellt először az IBM kutatója, Mr. Codd ajánlotta 197O-ben
- a modell inkább koncepció, mint adatstruktúra
- a relációs modelleknél a belső architektúra igen különbözik az egyes relációs un. RDBMS-t illetően
Terminológia
- minden rekordhoz az attribútumok különböző állománya tartozhat
- a lehetséges attribútum-értéket külön érdemes definiálni
- az adott típusú rekordok táblázatot vagy relációt alkotnak, s eszerint minden sor egy rekord, vagy minden oszlop egy attribútum
- jegyezzük meg, hogy a "reláció" rekordok táblázata, nem pedig a rekordok közti kapcsolat
- a reláció foka az attribútum száma a táblázatban
- 1 attribútum egyszeres reláció
- 2 attribútum kétszeres reláció
- n attribútum n-szeres reláció
Példák relációkra
- egyszeres: tanfolyam (tárgy)
- kétszeres: személyek (név, cím)
tulajdonos (név, házcím)
- háromszoros: házak (cím, ár, méret)
Kulcsok (azonosítók)
- a reláció kulcsa egy olyan attribútum-alállomány, amely a következő tulajdonságokkal rendelkezik:
- egységes azonosító
- az azonosító egységes a relációs táblázat sorára
- nincs redundancia
- nincs olyan attribútum a kulcsban, amely elhagyható a kulcs egyediségének elrontása nélkül
- pl. a telefonszám egységes azonosító a telefonkönyv adatbázisában
- a normál (hagyományos) telefonkönyvben az azonosító a családnév, majd keresztnév, és lakcím
- pl. ha a lakcímet elhagyjuk, akkor sok Kovács János marad)
- a reláció első, un. primer-attribútuma, amely legalább egy kulcsban szerepel
- minden egyéb attribútum nem primerjellegű
Normalizáció
- a fogalom a legegyszerűbb struktúra megtalálására vonatkozik egy adott adatállományra vonatkozóan
- az attribútumok közti függőségre irányul
- elkerüli az általános információvesztést, ha újabb rekordot viszünk az adatbázisba, vagy régebbit törölünk
43.3 ábra - normalizáció
- az első relációt érinti (a primer-attribútum aláhúzva)
- nincs normalizálva, mivel a PRICE (ár) egyedileg van azonosítva STYLE-lal (jelleggel)
- problémák az új rekord behozatalánál és a régi törlésénél
- a kapcsolat elveszik a farm és az 50.000 között, ha az utolsó farm rekordot töröljük
- az új kapcsolatot (háromszoros ár 75.000) be kell szúrni oda, ahol az első háromszoros rekord előfordul
- nézzük a második kapcsolatot
- itt két kapcsolat van egy helyett
- egy az építésztől a jelleghez
- másik a stílusok ára
- sokféle normalizációt definiálhatunk - ez a példa harmad normál formát (3NF) példáz, amely megszünteti a nem elsődleges attribútumok közötti függőséget
- bár a normalizáció egy következetes és logikus szerkezetet ad, az ára a megnövekedett tárolási igényben jelentkezik
- ezért néhány GIS adatbázis adminisztrátor elkerüli a teljes normalizációt
- a relációs kapcsolat ellentéte a normalizációnak, ahol a HOME2 és a COST a HOME1 formába van összevonva
Előnyök és hátrányok
- a legrugalmasabb adatbázismodell
- nincs nyilvánvaló kapcsolata a kivitelezésnek a rendszerrel - a modell felhasználó szempontú, nem belső szervezésűek az adatok
- a formális matematikai elmélet igazi érvényesülési színtere
- a legtöbb RDBMS adatkezelési nyelv a felhasználótól megköveteli a relációk tartalmának ismeretét és közös attribútum alapján elérhető az egyik reláció és a másik reláció is
Példa: adott két reláció
- tulajdon (cím, érték, állam-azonosító)
- állam (állam-azonosító, név, adókulcs)
- a " Milyen adók vannak x tulajdonra?" kérdésre válaszolva
- előhívja a tulajdon-rekordot
- az állam-azonosító összekapcsolja a tulajdon és az állam-rekordot
- számítja az adott, a tulajdon-reláció mellett lévő adószázalékot, az állam-relációval való összekapcsolás után
IRODALOM
Date, G.J., 1987. "An Introduction to Database Systems", Addison-Wesley, Reading, MA.
Howe, D.R., 1983. "Data Analysis for Data Base Design", Arnold, London
Kent, W., 1983. "A simple guide to five normal forms in relational database theory," Communications of the
Association for Computing Machinery 26:120.
Tsichritzis, D.C. and F.H. Lochovsky, 1977. "Database Management Systems", Academic Press, New York
van Roessel, J.W., 1987. "Design of a spatial data structure using the relational normal forms,"
International Journal of Geographical Information Systems 1:33-50.
ELLENŐRZŐ KÉRDÉSEK
1. Hasonlítsa össze a négy adatbázismodellt (egyszerű fájl, hierarchikus, hálózati és relációs modellek). A relációs modell milyen különleges tulajdonsága okozza népszerűségét?
2. A poligon rétegezést térbelileg analógnak nevezik a relációs egyesítéssel. Egyetért ezzel?
3. Foglalja össze azon érveket, amelyek ellenzik a térbeli adatbázis egyszerű fájlokként /flat file/ való szervezését.
4. Mit gondol, miért a reláció fogalmát választották az attribútumok táblájára a relációs adatmodellben?
|