Curățarea datelor în Qlik Sense™

Conținutul paginii

V-ați trezit vreodată blocat cu o grămadă dezordonată de date care pare mai degrabă un labirint decât o cale spre o perspectivă curată?

În acest articol, vă invităm în ”lumea” curățării datelor în Qlik Sense™ pentru a vă ajuta să descoperiți potențialul analitic care se ascunde în spatele datelor dumneavoastră.

Importanța curățării datelor

Imaginează-ți-vă că faceți un tort. Ați măsura ingredientele cu ochiul liber? Probabil că nu, cu excepția cazului în care vă doriți un tort dezastru. La fel cum o cană de făină măsurată greșit vă poate strica întreaga rețetă, o mică eroare de date vă poate da peste cap întreaga analiză. De aceea, înainte de a vă aruncați în partea distractivă – analiza datelor – trebuie să vă asigurați că ingredientul cheie (datele) este cât mai curat și mai precis posibil.

De ce curățarea datelor este mai mult decât o simplă corvoadă

Nu este vorba doar de a face ordine, ci și de controlul calității. Etapele omise sau erorile trecute cu vederea pot duce la rezultate inexacte care ar putea să vă informeze greșit deciziile de business.

Acuratețea datelor

Acuratețea analizelor dvs. depinde în mare măsură de calitatea datelor. Curățarea datelor vă ajută să eliminați erorile și inconsecvențele, asigurându-vă că informațiile pe care le obțineți sunt de încredere și că pot fi utilizate. Instrumente precum tabelele de mapare sau funcții precum SubField pot fi de neprețuit în această etapă.

Coerența datelor

Formatele de date sau convențiile de denumire incoerente pot reprezenta un adevărat obstacol. Qlik Sense™ oferă caracteristici precum funcția SubField și tabelele de mapare pentru a vă ajuta să standardizați datele pentru o raportare și o vizualizare coerente.

Integrarea datelor

Atunci când integrați date din diferite surse, alinierea este crucială. Qlik Sense™ oferă numeroase funcții care ajută la alinierea acestor seturi de date disparate într-o formă coerentă și unificată.

Vizualizare și performanță îmbunătățite

Datele curate nu fac doar ca vizualizările dvs. să fie mai semnificative, ci îmbunătățesc și performanța aplicațiilor Qlik™. Așteptați-vă la o recuperare mai rapidă a datelor și la o analiză mai eficientă atunci când datele dvs. sunt în bună stare.

Tehnici de curățare a datelor în Qlik Sense™

Eliminarea duplicatelor

Înregistrările duplicate vă pot denatura analiza și raportarea. Qlik™ oferă funcții încorporate, cum ar fi Keep (Păstrare) la încărcarea tabelelor sau cuvântul cheie DISTINCT în scriptul dvs. pentru a încărca numai rânduri unice.

Valori lipsă

Puteți aborda valorile lipsă prin eliminarea înregistrărilor sau prin completarea lacunelor pe baza unor criterii specifice. Funcții precum IsNull, IsNullCount și NullAsValue sunt foarte utile.

Formatarea datelor

Utilizând numeroasele funcții de șiruri de caractere disponibile în Qlik Sense™, puteți standardiza valorile datelor într-un format coerent. De exemplu, funcțiile Upper, Lower, Date și Num pot fi utilizate pentru a unifica textul sau datele.

Manipularea datelor

Uneori, datele pe care le importați în Qlik Sense™ nu corespund exact nevoilor dumneavoastră. Qlik™ vă oferă modalități de a remodela datele în consecință.

De exemplu, valorile inconsecvente ale câmpurilor pot apărea adesea atunci când extrageți date din mai multe tabele, iar această inconsecvență poate perturba conexiunile dintre seturile de date. O soluție eficientă în acest sens este utilizarea tabelelor de mapare.

Tabele de mapare

Aceste tipuri de tabele se comportă diferit față de alte tabele în sensul că sunt stocate într-o zonă separată a memoriei și sunt utilizate strict ca tabele de corespondență atunci când scriptul este rulat, fiind apoi abandonate automat.

Să aruncăm o privire asupra modului în care se poate face acest lucru și asupra diferitelor instrucțiuni și funcții care pot fi utilizate:

MAPING prefix

Această funcție este utilizată pentru a crea un tabel de corespondență.
De exemplu:

Rețineți că un tabel de corespondență trebuie să aibă două coloane, prima conținând valorile de comparație, iar cea de-a doua conține valorile de corespondență dorite.

ApplyMap()

Funcția ApplyMap este utilizată pentru a înlocui datele dintr-un câmp pe baza unui tabel de corespondență creat anterior.

Primul parametru din ApplyMap este numele tabelului de mapare între ghilimele. Al doilea parametru este câmpul care conține datele care trebuie mapate.

Puteți adăuga un al treilea parametru la funcția ApplyMap care servește ca parametru implicit pentru a gestiona cazurile în care valoarea nu se potrivește cu una din tabelul de corespondență.

De exemplu:
ApplyMap(‘CountryMap’, Country, ‘Rest of the world’) As Country

după mapare:

MapSubstring()

Funcția MapSubstring este utilizată pentru a mapa părți ale unui câmp, putând fi utilizată ca o alternativă la funcțiile Replace() sau PurgeChar().

De exemplu, haideți să curățăm aceste valori ale numerelor de telefon de caracterele nedorite:

după curățare:

MAP … USING

Instrucțiunea Map…Using funcționează diferit față de funcția ApplyMap(), deoarece ApplyMap realizează maparea de fiecare dată când este întâlnit numele câmpului, în timp ce Map…Using realizează maparea atunci când valorile sunt stocate sub numele câmpului în tabelul intern.

De exemplu, în următorul script de încărcare, Mapping va fi aplicat câmpului Country din Data1, însă nu va fi aplicat câmpului Country2 din tabelul Data2.
Acest lucru se datorează faptului că instrucțiunea Map… USING se aplică numai câmpului numit Country. Dar în Data2, câmpul este stocat ca Country2 în tabelul intern.

Funcții utile pentru curățarea datelor

SubField()

Se utilizează pentru a extrage subșiruri dintr-un câmp de șiruri de caractere care constă din două sau mai multe părți separate de un delimitator.

Argumentele pe care le primește sunt Text (șirul original), un delimitator (caracterul din textul de intrare care împarte șirul în părți) și field_no care este fie 1 pentru a returna prima subșir (stânga), fie 2 pentru a returna a doua subșir (dreapta)).
SubField(text, delimiter, field_no)

De exemplu:

Len()

Returnează lungimea șirului de intrare.

Left()

Returnează un șir de primele caractere (stânga) ale șirului de intrare, unde numărul de caractere este determinat de al doilea parametru.
Left(text, count)

Right()

Asemănător cu Left, returnează un șir cu ultimele caractere (cele mai din dreapta) din șirul de intrare. Al doilea parametru determină numărul de caractere care trebuie returnate.

Index()

Funcția index caută un șir de caractere și returnează poziția inițială a celei de-a n-a apariții a unei subșiruri furnizate.

De exemplu:
Index(‘qwerty’, ‘ty’)  va returna 5
Index(‘qwertywy’, ‘w’, 2) va returna a doua apariție a lui ‘w’, adică: 7

Exemplu 1:
Utilizarea unei combinații a funcțiilor de mai sus pentru a curăța un câmp. Să luăm un câmp mai complex și să încercăm să extragem numele și prenumele.

după curățare:

Exemplu 2:
Curățarea HTML într-un câmp

după curățare:

Pentru informații despre Qlik™, vă rugăm să vizitați pagina: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, vă rugăm accesați pagina: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, vă recomandăm QQblog-ul !