Profilarea datelor

Cum să iei pulsul datelor tale?

Profilarea datelor este de obicei una dintre primele sarcini efectuate pe un proiect de calitate a datelor. Acest lucru este valabil mai ales când datele sunt puse la dispoziție înainte de documentarea cerințelor de afaceri, iar experții în materie sunt disponibili pentru a discuta despre utilizare, relevanță, standarde și valori pentru măsurarea și îmbunătățirea calității datelor. Toate acestea sunt necesare pentru a progresa de la profilarea datelor dvs. la efectuarea unei evaluări complete a calității datelor. Totuși, acestea nu sunt scuze acceptabile pentru întârzierea profilării datelor.

În primul rând reprezentarea consistentă a absenței datelor este un standard uzual de evaluare a calității datelor.

În ce contexte este importantă profilarea datelor?

  • în procesul de înițializare a unui proiect de BI – identificarea unor probleme din ”fașă” duce la economisirea de timp de conectare a soluției de BI
  • la auditarea unor deployment-uri de BI anterioare
  • la auditarea calității datelor

Una dintre caracteristicile fundamentale ale unui instrument de profilare a datelor este capacitatea de a genera rezumate statistice și distribuții de frecvență pentru valorile și formatele unice găsite în câmpurile surselor de date.

Profilarea datelor este adesea realizată în timpul unei evaluări a calității datelor și implică mult mai mult decât revizuirea rezultatelor generate de un instrument de profilare a datelor, iar o evaluare a calității datelor implică, evident, mult mai mult decât doar un profil de date.

Profilarea datelor vă poate ajuta să efectuați analize esențiale. Iată câteva dintre ele:

  • Verificarea datelor se potrivește cu metadatele care o descriu
  • Identificarea valorilor lipsă
  • Identificarea valorilor potențiale implicite
  • Identificarea valorilor potențiale nevalide  
  • Verificarea formatelor de date pentru neconcordanțe
  • Pregătirea de întrebări semnificative pentru a fi adresate experților în domeniu

Profilarea datelor vă poate ajuta, de asemenea, în multe dintre celelalte aspecte ale integrității domeniului, structurale și relaționale, precum și determinarea dependențelor funcționale, identificarea stocării redundante și a altor considerente importante privind arhitectura de date.

Metrici de profilare a datelor

Instrumentele de profilare a datelor  oferă mai mulți metrici în evaluarea seturilor de date, pentru fiecare coloană de date in parte, pentrua rezuma caracteristicile conținutului acestor coloane.
Cele mai importante sunt prezentate mai jos:

Nulurile– cuantifică numărul de înregistrări cu o valoare nulă

Absența datelor poate fi reprezentată în mai multe moduri diferite, NULURILE fiind cel mai frecvent pentru coloanele bazelor de date relaționale. În unele situații particulare, în numărarea nulurilor pot intra și valorile care conțin doar spații (pentru câmpurile  cu stringuri)  sau  toate zero-urile, pentru câmpuri numerice. Reprezentarea constantă și consistentă a  absenței datelor este un standard comun de evaluare a calității datelor.

 Lipsurile – cuantifică numărul de înregistrări cu o valoare care lipsește (adică absența datelor ne-NULE, de exemplu, spațiile de caractere)
Actual (realitatea) – cuantifică numărul real de înregistrări cu valori, identificand inregistrarile populate , in comparație cu cele nule, (lipsă).
Completitudinea – procentul calculat ca Actual divizat la numărul total de înregistrări.
Cardinalitate – cuantifică numărul de valori reale distincte.

Cardinalitatea poate juca un rol major în a decide dacă doriți sau nu să fie afișate valori sau formate, deoarece este mult mai ușor să revizuiți toate valorile atunci când nu există foarte multe. În mod alternativ, revizuirea câmpurilor cu cardinalitate ridicată poate fi limitată și la cele mai frecvente valori apărute.

Unicitatea – procent calculat ca și Cardinalitate, divizat la numărul total de înregistrări  
Distinctivitate – procent calculat la Cardinalitate împărțit la Actual  

Distinctivitatea poate fi utilă în evaluarea potențialului înregistrărilor duplicat. De exemplu, un câmp de identificare fiscală poate fi mai puțin de 100% complet (adică nu fiecare înregistrare are una) și, prin urmare, de asemenea, mai puțin de 100% unic (adică nu poate fi considerată o potențială cheie primară unică, deoarece nu poate fi utilizată în mod unic pentru a identifica fiecare înregistrare). În cazul în care câmpul de identificare fiscală este, de asemenea, mai mic de 100% (adică unele valori reale distincte apar pe mai multe înregistrări), atunci aceasta ar putea indica prezența potențialelor înregistrări duplicate.

Completitudinea și unicitatea sunt deosebit de utile în evaluarea câmpurilor cheie potențiale și în special a unei chei primare unice, care ar trebui să fie atât 100% completă, cât și 100% unică. Câmpurile obligatorii care nu sunt cheie pot fi adesea 100% complete, dar o cardinalitate scăzută ar putea indica prezența valorilor implicite potențiale.

Instrumentele de profilare a datelor pot genera, alături de metricile mai sus menționate, multe alte statistici de sumarizare utile pentru fiecare câmp, inclusiv: valorile minime/ maxime, dimensiunile câmpurilor minime/ maxime, precum și numărul de tipuri de date (bazate pe analiza directă a valorilor, nu a metadatelor).

Utilizarea histogramelor pentru reprezentarea distribuției de frecvență a formatelor unice găsite într-un câmp este și extrem de utilă, (uneori mai utilă decât identificarea explicită a valorilor unice).  Iată câteva exemple de utilizare:

  • Câmpuri cu o cardinalitate scăzută (adică indicând valori potențiale implicite)
  • Câmpuri cu o cardinalitate relativ scăzută (de exemplu, codul de gen și codul de sursă)
  • Câmpuri cu un număr realtiv mic de valori valide (de exemplu, abreviere de stat și cod de țară)
  • Câmpuri care se așteaptă să conțină un singur tip de date și/ sau lungime (de exemplu, cheie interogativă integrantă sau cod adițional ZIP + 4)
  • Câmpuri cu un număr limitat de formate valabile (de exemplu, numărul de telefon și data nașterii)
  • Câmpuri cu valori de formă liberă (free-form) și cardinalitate ridicată  (de exemplu, numele clientului și adresa poștală)

Unele câmpuri pot fi, de asemenea, analizate alternativ folosind valori parțiale (de exemplu, anul nașterii extras de la data nașterii) sau o combinație de valori și formate (de exemplu, numerele de cont, care se așteaptă să aibă un prefix alfa valid, urmate de toate numerele).

Câmpurile cu formă liberă (free-form) (de exemplu, numele personal) sunt adesea mai ușor de analizat ca formate construite prin analizarea și clasificarea valorilor individuale în câmp (de exemplu, formulă de adresare, prenume, nume, titlu).

Înțelegerea datelor dvs. este esențială pentru utilizarea eficientă și pentru îmbunătățirea calității acestora. Pentru a atinge aceste obiective, pur și simplu nu există un substitut pentru analiza datelor.

Un instrument de profilare a datelor vă poate ajuta automatizând o parte din lucrările dificile necesare pentru a începe această analiză. Cu toate acestea, este important să rețineți că analiza în sine nu poate fi automatizată până la capăt – va trebui să revizuiți rezumatul statistic și distribuțiile de frecvență generate de instrumentul de profilare a datelor și, mai important, să traduceți analiza în rapoarte și întrebări semnificative pentru a le împărtăși cu restul de echipei din proiect. Profilarea de date bine realizată este un proces extrem de interactiv și iterativ.

Profilarea datelor este un factor de succes, esențial în procesele de implementare a soluțiilor de BI și în absența unor unelte eficiente de profilare a datelor, poate consuma mult timp.

În cazul în care procesul de profilare a datelor este omis, foarte probabil  informațiile din rapoarte construite pe aceste date pot avea hibe semnificative, care pot sta la baza unor viitoare decizii greșite, scenariu cu siguranță de evitat.

Plecând de la aceste nevoi și cerințe, QQinfo a construit un set de unelte care să preia grosul efortului de profilare a datelor – QQdata.profiler™. Veți descoperi în QQdata.profiler™ o unealtă pregătită pentru a scana datele și a extrage o profilare completă, complexă și relevantă pe seturi de date uriașe, lăsând în grija factorului uman doar ultimul pas al analizei de profilare.

Dacă sunteți interesați de mai multe informații legate de profilarea datelor, nu ezitați să ne contactați!

Pentru soluții specifice și specializate de la QQinfo, vă rugăm accesați pagina: QQsolutions.

Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, vă recomandăm QQblog-ul !