Data Lineage

Ce este Data Lineage, de ce este necesar și care sunt cele mai bune practici

În acest articol vă oferim definiții și recomandări practice pentru a vă ajuta să înțelegeți și să implementați un data lineage modern.

Ce este Data Lineage?

Data lineage se referă la procesul de înțelegere și vizualizare a fluxurilor de date, de la sursă până la locația actuală, și la urmărirea oricăror modificări efectuate asupra datelor pe parcursul călătoriei lor. Acest lucru îți permite să știi de unde provine orice element specific de date, când și unde s-a separat sau s-a combinat cu alte date și ce transformări au fost aplicate câmpului, de la introducerea inițială până la aplicația finală.

Cum funcționează Data Lineage

Un instrument modern de data lineage îți oferă vizibilitate instantanee asupra sursei și traseului datelor tale. Poți vedea cum exemplul de data lineage de mai jos îți oferă încredere în datele tale și te ajută să urmărești orice eroare până la cauza rădăcină.

Data lineage creează un cadru de mapare a datelor prin colectarea și gestionarea metadatelor din fiecare etapă și stocarea acestora într-un depozit de metadate care poate fi utilizat pentru analiza lineage-ului. (Metadatele sunt definite ca „date care descriu alte seturi de date”.) Pentru fiecare proces aplicat datelor pe parcursul traseului lor, metadatele sunt actualizate, așa cum se arată în diagrama simplificată de data lineage de mai jos.

Beneficiile Data Lineage

Organizația ta este probabil inundată de seturi mari și complexe de date provenite din multiple surse — sisteme financiare, analiză web, platforme publicitare, sisteme CRM, automatizări de marketing, date de la parteneri și, posibil, chiar surse în timp real și IoT. Astfel, a ști de unde provin datele tale și a avea certitudinea că te poți baza pe ele poate fi o provocare majoră.

Principalele beneficii ale unui proces solid de data lineage sunt că acesta îți permite să realizezi următoarele:

  • Descoperirea, urmărirea și corectarea anomaliilor din procesele de date.
  • Migrarea sistemelor cu încredere.
  • Reducerea costurilor pentru dezvoltarea de noi aplicații IT și întreținerea acestora.
  • Combinarea noilor seturi de date cu seturile existente, folosind o infrastructură de date agilă.
  • Îndeplinirea obiectivelor de guvernanță a datelor și reducerea costurilor pentru conformitatea cu reglementările.
  • Creșterea încrederii și a dependenței de date în întreaga organizație.
  • Îmbunătățirea analizei datelor și, implicit, a performanței afacerii.

Data lineage oferă, de asemenea, „BI explicabil” („explainable BI”), care este unul dintre primele 10 tendințe în BI și date din acest an.

Funcționalități ale Instrumentelor de Data Lineage

Instrumentele moderne de data lineage ar trebui să facă toate datele tale transparente, de încredere și pregătite pentru analiză.

Mai jos sunt principalele capabilități ale celor mai bune instrumente de data lineage.

Vizualizare. Ar trebui să poți vizualiza cu ușurință cum călătoresc datele pe întreg traseul lor, de la sursa datelor până la aplicația finală utilizată de utilizator.
Catalog de date. Cele mai bune instrumente permit căutarea și explorarea tuturor datelor tale cu ajutorul unui catalog de date integrat.
Repoarte. Permite ca datele tale să fie structurate conform ghidurilor prin rapoarte formale.
Documentație automată. Instrumentul ar trebui să genereze automat documentația sistemului, colectând toate comentariile nodurilor, metadatele, tabelele, câmpurile, fișierele asociate și declarațiile din baze de date pentru aplicația aleasă într-un singur document.
Instalare simplă. Instrumentele moderne de data lineage sunt de tip „read-only” și nu interferează cu datele companiei tale la instalare.
Personalizare și conectare. Ar trebui să poți personaliza cu ușurință mediul pentru a se potrivi nevoilor afacerii și datelor tale. În plus, poți conecta cu ușurință instrumentul de lineage la uneltele tale de vizualizare, depozitele de date și serviciile cloud.

Tipuri principale de Data Lineage

Iată principalele tehnici utilizate pentru realizarea data lineage:

  • Backward data lineage înseamnă analizarea datelor pornind de la utilizarea lor finală și urmărirea acestora înapoi până la sursă.
  • Forward data lineage începe de la sursă și urmărește datele până la utilizarea lor finală.
  • End-to-end data lineage este combinația celor două, analizând întreaga soluție, de la sursa datelor până la utilizarea lor finală.

Sursă articol: Qlik blog.

Pentru informații despre Qlik™, clic aici: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, clic aici: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, clic aici: QQblog !