modelarea datelor este procesul de documentare a unui design complex de sistem software ca o diagramă ușor de înțeles, folosind text și simboluri pentru a reprezenta modul în care datele trebuie să curgă. Diagrama poate fi utilizată pentru a asigura utilizarea eficientă a datelor, ca model pentru construirea de software nou sau pentru reproiectarea unei aplicații vechi.
modelarea datelor este o abilitate importantă pentru oamenii de știință de date sau pentru alții implicați în analiza datelor. În mod tradițional, modelele de date au fost construite în timpul fazelor de analiză și proiectare a unui proiect pentru a se asigura că cerințele pentru o nouă aplicație sunt pe deplin înțelese. Modelele de date pot fi, de asemenea, invocate mai târziu în ciclul de viață al datelor pentru a raționaliza desenele de date care au fost inițial create de programatori pe o bază ad-hoc.
abordările de modelare a datelor
modelarea datelor poate fi un proces inițial minuțios și, ca atare, este uneori văzută ca fiind în contradicție cu metodologiile de dezvoltare rapidă. Pe măsură ce programarea agilă a intrat într-o utilizare mai largă pentru a accelera proiectele de dezvoltare, metodele de modelare a datelor sunt adaptate în unele cazuri. De obicei, un model de date poate fi gândit ca o diagramă care ilustrează relațiile dintre date. Acesta permite părților interesate să identifice erorile și să facă modificări înainte ca orice cod de programare să fie scris. Alternativ, modelele pot fi introduse ca parte a eforturilor de inginerie inversă care extrag Modele din sistemele existente, așa cum se vede cu datele NoSQL.
modelatorii de date folosesc adesea mai multe modele pentru a vizualiza aceleași date și pentru a se asigura că toate procesele, entitățile, relațiile și fluxurile de date au fost identificate. Ei inițiază noi proiecte prin colectarea de cerințe de la părțile interesate de afaceri. Etapele de modelare a datelor se descompun aproximativ în crearea de modele de date logice care arată atribute specifice, entități și relații între entități și modelul de date fizice.
modelul de date logice servește ca bază pentru crearea unui model de date fizice, care este specific aplicației și bazei de date care urmează să fie implementate. Un model de date poate deveni baza pentru construirea unei scheme de date mai detaliate.
modelarea ierarhică a datelor
modelarea datelor ca disciplină a început să apară în anii 1960, însoțind creșterea în utilizarea sisteme de gestionare a bazelor de date (dbmses). Modelarea datelor a permis organizațiilor să aducă consecvență, repetabilitate și dezvoltare bine ordonată procesării datelor. Utilizatorii finali de aplicații și programatorii au putut utiliza modelul de date ca referință în comunicațiile cu designerii de date.
modele de date ierarhice care matrice de date în treelike, unu-la-mai multe aranjamente marcat aceste eforturi timpurii și înlocuite sisteme bazate pe fișiere în multe cazuri de Utilizare populare. Sistemul de Management al informațiilor IBM (IMS) este un exemplu principal al abordării ierarhice, care a găsit o utilizare largă în afaceri, în special în sectorul bancar. Deși modelele de date ierarhice au fost în mare parte înlocuite-începând cu anii 1980-de modele de date relaționale, metoda ierarhică este comună încă în XML (Extensible Markup Language) și sisteme de informații geografice (GISes) astăzi. Modelele de date de rețea au apărut, de asemenea, în primele zile ale DBMSes ca mijloc de a oferi proiectanților de date o viziune conceptuală largă asupra sistemelor lor. Un astfel de exemplu este conferința privind limbajele sistemelor de date (CODASYL), care s-a format la sfârșitul anilor 1950 pentru a ghida dezvoltarea unui limbaj de programare standard care ar putea fi utilizat pe diferite tipuri de computere.
modelarea relațională a datelor
în timp ce a redus complexitatea programului față de sistemele bazate pe fișiere, modelul ierarhic a necesitat încă o înțelegere detaliată a stocării fizice specifice a datelor utilizate. Propus ca alternativă la modelul de date ierarhice, modelul de date relaționale nu necesită dezvoltatorilor să definească căile de date. Modelarea datelor relaționale a fost descrisă pentru prima dată într-o lucrare tehnică din 1970 de către cercetătorul IBM E. F. Codd. Modelul relațional al Codd a stabilit scena pentru utilizarea în industrie a bazelor de date relaționale în care segmentele de date sunt unite în mod explicit prin utilizarea tabelelor, în comparație cu modelul ierarhic în care datele sunt îmbinate implicit. La scurt timp după înființare, modelul de date relaționale a fost cuplat cu limbajul de interogare structurat (SQL) și a început să câștige un punct de sprijin din ce în ce mai mare în calculul întreprinderii ca mijloc eficient de procesare a datelor.
modelul relației entității
modelarea datelor relaționale a făcut un alt pas înainte începând cu mijlocul anilor 1970, pe măsură ce utilizarea modelelor relației entității (ER) a devenit mai răspândită. Strâns integrate cu modelele de date relaționale, modelele ER folosesc diagrame pentru a descrie grafic elementele dintr-o bază de date și pentru a ușura înțelegerea modelelor subiacente.
cu modelarea relațională, tipurile de date sunt determinate și rareori modificate în timp. Entitățile cuprind atribute; de exemplu, atributele entității unui angajat ar putea include numele, prenumele, anii angajați și așa mai departe. Relațiile sunt mapate vizual, oferind un mijloc gata de a comunica obiectivele de proiectare a datelor diferiților participanți la dezvoltarea și întreținerea datelor. De-a lungul timpului, instrumentele de modelare, inclusiv ER/Studio Idera, Erwin Data Modeler și SAP PowerDesigner, au câștigat o largă utilizare în rândul arhitecților de date pentru proiectarea sistemelor.
pe măsură ce programarea orientată pe obiecte a câștigat teren în anii 1990, modelarea orientată pe obiecte a câștigat tracțiune ca o altă modalitate de proiectare a sistemelor. În timp ce poartă o oarecare asemănare cu metodele ER, abordările orientate pe obiecte diferă prin faptul că se concentrează pe abstracții de obiecte ale entităților din lumea reală. Obiectele sunt grupate în ierarhii de clasă, iar obiectele din astfel de ierarhii de clasă pot moșteni atribute și metode din clasele părinte. Datorită acestei trăsături de moștenire, modelele de date orientate pe obiecte au unele avantaje față de modelarea ER, în ceea ce privește asigurarea integrității datelor și susținerea relațiilor de date mai complexe. De asemenea, în anii 1990 au apărut modele de date orientate în mod specific către nevoile de depozitare a datelor. Exemple notabile sunt modelele dimensionale ale schemei fulg de zăpadă și ale schemei stelare.
modele de date grafice
o ramură a modelării ierarhice și a datelor de rețea este modelul graficului de proprietăți, care, împreună cu bazele de date grafice, a găsit o utilizare sporită pentru descrierea relațiilor complexe din seturile de date, în special în aplicațiile de social media, recomandare și detectare a fraudelor.
folosind modelul de date Grafic, proiectanții descriu sistemul lor ca un grafic conectat de noduri și relații, la fel cum ar putea face cu ER sau modelarea datelor obiect. Modelele de date grafice pot fi utilizate pentru analiza textului, creând modele care descoperă relațiile dintre punctele de date din documente.