Produse de date Qlik pentru analiză – Seturile de date

În acest articol, ne-am propus să vă prezentăm o demonstrație despre crearea unui produs de date.
Totuși, înainte de a începe, trebuie să înțelegem ce este un set de date (dataset), deoarece produsele de date vor utiliza seturi de date.

Ce este un set de date (dataset)?

Un set de date este mai mult decât o simplă conexiune la o sursă de date; este un activ de date gestionat și reutilizabil, care transformă conexiunile de date brute în date de încredere, guvernate și partajabile.
În mod tradițional, în Qlik, datele existau în interiorul aplicațiilor individuale sau în fișiere QVD stocate pe un sistem de fișiere, ceea ce ducea adesea la duplicare și, uneori, la eforturi repetate. Însă, cu ajutorul seturilor de date, pregătim datele o singură dată și le reutilizăm în mai multe aplicații, îmbunătățind consistența și eficiența.
Seturile de date introduc un nivel suplimentar de guvernanță și transparență prin funcționalități precum Qlik Trust Score (Scorul de încredere), Data Lineage (Fluxul de date), Data Profiling (Profilarea datelor), Metadate, Data Quality (Calitatea datelor) și Data Validation (Validarea datelor), care îi ajută pe utilizatori să înțeleagă mai bine și să aibă încredere în datele cu care lucrează.
Aceste seturi de date devin fundația pentru alte capabilități, cum ar fi Table Recipe sau Data Flow, și servesc, de asemenea, ca elemente de bază pentru produsele de date, permițând ca datele curatoriate și guvernate să fie partajate în întreaga organizație.

De ce este important?
  • Elimină duplicarea – Pregătești datele o singură dată, le reutilizezi peste tot.
  • Îmbunătățește încrederea – Calitate, trasabilitate (lineage) și validare integrate.
  • Permite scalarea – Un strat de date centralizat pentru toate aplicațiile și echipele.
Capabilități cheie
  • Trust Score și Calitatea datelor
  • Lineage și Profilarea datelor
  • Metadate și Documentație
  • Guvernanță și Control de audit
  • Partajare securizată prin intermediul Spațiilor (Spaces)
Cum se utilizează
  • Reutilizate în mai multe aplicații
  • Table Recipe, Dataflow și Predict
  • Formează fundația Produselor de Date (Data Products)

În cele din urmă, acest lucru reflectă o schimbare mai amplă de la un model centrat pe aplicație la o arhitectură centrată pe date, unde datele sunt gestionate centralizat, reutilizabile și scalabile, ajutând organizațiile să își organizeze, să guverneze și să își utilizeze cu încredere datele pentru analiză.

Imagine de ansamblu

Seturile de date mută Qlik de la o arhitectură centrată pe aplicație → la una centrată pe date, servind ca elemente de bază pentru analize de încredere și viitoare straturi semantice.

Concluzie

Organizează Guvernează Reutilizează Scalează

Pentru o scurtă prezentare video, vă rugăm să urmăriți videoclipul de mai jos.

Crearea și explorarea seturilor de date în Qlik Cloud

Acum că avem o înțelegere de bază a conceptelor, să trecem la demonstrația practică: crearea unui set de date și explorarea capabilităților și componentelor acestuia.

Accesarea noilor funcționalități

Ca o scurtă recapitulare, punctele de acces pentru Data Products (Produsele de date), Data Marketplace și Data Quality (Calitatea datelor) sunt acum accesibile direct în Qlik Cloud Analytics, prin intermediul Activity Center. Anterior, acestea erau disponibile doar în Qlik Talend Cloud Data Integration.

În cele ce urmează, vom parcurge împreună pașii necesari pentru crearea unui set de date (Dataset), iar la finalul articolului veți găsi și o demonstrație video completă pentru a vedea procesul în acțiune

Pasul 1: Navigarea în Catalog

Mai întâi accesăm Catalog Activity Center unde am configurat un spațiu numit Data Product Demo Space. Acesta este un spațiu partajat (shared space) care momentan nu conține niciun obiect.

Accesați butonul Create new (Creează un set de date nou) și apoi selectați Dataset (Set de date).

Pasul 2: Alegerea conexiunii

Când selectați Dataset (Set de date), vi se prezintă o listă de conexiuni predefinite.

De aici, aveți mai multe opțiuni:

  1. Încărcarea unui fișier local: Faceți clic pe Upload data file pentru a-l adăuga ca parte a unui se de date; acesta va fi stocat în mediul de stocare a datelor (data store) al  Qlik Cloud Analytics;
  2. Crearea unei conexiuni noi: Faceți clic pe Create new.

Notă importantă: Dacă creați o conexiune nouă aici, vi se vor afișa doar acele conexiuni care suportă conceptul de set de date (dataset).

Acest lucru diferă de procesul de creare a unei aplicații; atunci când accesați conexiunile de date pentru o aplicație, aveți la dispoziție mult mai multe conexiuni din care puteți alege.

Motivul este că, atunci când sunt create seturi de date, acestea trebuie să susțină stabilitatea și structura datelor pe care le accesează. Nu toate conexiunile oferă acest lucru — de exemplu, fluxurile de tip REST API.

Pasul 3: Selectarea surselor de date

Pentru această demonstrație, vom alege conexiunea Dropbox. Vom accesa un fișier din cloud și vom naviga prin structura de foldere.

În foldere, veți găsi mai multe fișiere QVD files.

Aceste fișiere QVD reprezintă date utilizate într-o aplicație de analiză a onorării comenzilor (order fulfillment). Puteți vedea această relație inclusiv prin intermediul fluxului de date (data lineage). Pentru a păstra exemplul simplu, vom selecta tabelul Line Items (Articole) și Dimension  Type (tabelul de dimensiune Type). Faceți clic pe Next.

Confirmă crearea, alocă seturile de date în Data Product Demo Space și creează-le.

Pasul 4: Pregătite pentru utilizare

Acum, aceste seturi de date sunt catalogate și gata de folosire. Ele pot fi utilizate imediat în cadrul unei aplicații.

To demonstrate the concept: if you go to Application, create a new one (e.g., „Application 123”), and click Create.
Pentru a demonstra conceptul: mergeți la secțiunea Application, creați una nouă (de exemplu, „Application 123”) și faceți clic pe Create.

Odată ce aplicația a fost creată, aveți opțiunea de a alege fișierele tradiționale și alte surse, sau puteți selecta din Data Catalog. Alegerea din catalog vă permite să selectați un set de date (dataset) existent sau un produs de date (data product).

Pasul 5: Prezentarea generală și profilarea setului de date

Revenind la catalog și la seturile noastre de date, următoarea etapă constă în selectarea unui set de date și explorarea opțiunilor disponibile. Ne vom uita peste Type Dimension, deoarece conține doar două câmpuri. Din această vizualizare, puteți adăuga imediat o descriere sau documentație.
Veți observa o serie de tab-uri. Aveți posibilitatea de a utiliza funcția Compute meaning — sistemul va efectua o scanare și o profilare a datelor. Acesta este, de regulă, primul pas necesar dacă datele nu au fost încă accesate prin intermediul unei aplicații.

Faceți clic pe Compute. Această acțiune utilizează o dimensiune implicită de eșantionare (sampling) de 1.000 de rânduri, însă puteți modifica această dimensiune dacă este necesar.

Odată ce profilul a fost reîmprospătat, puteți vizualiza datele analizate.

Puteți modifica aceste setări sau puteți selecta un procent din setul de date. În funcție de numărul de rânduri din datele dumneavoastră, procesul ar putea dura semnificativ mai mult.

Pasul 6: Scorurile de calitate și metadatele

Acum avem un scor inițial de încredere (Qlik Trust Score) și putem vedea indicatorii de calitate a datelor (Data Quality metrics), deși nu am aplicat încă reguli de validare.

Prezentarea generală a setului de date (Dataset Overview) oferă, de asemenea, metadate suplimentare:

  • Informații despre sursă: Originea datelor și locurile în care setul de date este utilizat în prezent.
  • Statistici de utilizare: Cine mai vizualizează aceste date și când a fost efectuat ultimul profil.
  • Proprietate (Ownership): Detalii despre locație, proprietar și creator.
  • Informații tehnice: Identificatori unici globali (GUID-uri) care ar putea fi necesari pentru depanare și asistență.

Pentru o demonstrație video, vă rugăm să urmăriți videoclipul de mai jos.

Sursă articol: qlik.com 

Pentru informații despre Qlik™, clic aici: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, clic aici: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, clic aici: QQblog !