Fluxuri de lucru de transformare a datelor fără cod de la Qlik™ Talend Cloud

Fluxuri de lucru de transformare fără cod pentru canalele dvs. de date

Transformările și manipulările de date sunt de obicei domeniul experților în SQL, Python sau alte limbaje de programare. Deoarece transformările de date erau codificate manual în trecut, dezvoltarea lor era o întreprindere consumatoare de resurse. În plus, odată ce transformările erau implementate, acestea trebuiau actualizate și întreținute pe măsură ce cerințele de afaceri se modificau și noi surse de date erau adăugate sau modificate. 
Unul dintre obiectivele soluțiilor de integrare a datelor este de a sprijini utilizatorii în încercarea lor de a gestiona și transforma datele prin eliminarea barierelor din calea acestui proces.

Cum ar fi dacă ați putea să vă automatizați și să vă construiți fluxurile de transformare fără codare manuală, utilizând o interfață vizuală?

Fluxurile de transformare de la Qlik™ Talend Cloud ajută la aducerea capabilităților avansate de transformare pentru utilizatorii de toate nivelurile.  Fluxul de transformare se bazează pe o interfață grafică fără cod pentru a ghida utilizatorul în transformarea datelor.

Interfața necesită doar cunoașterea datelor și a rezultatului transformării dorite. Pe măsură ce utilizatorul construiește fluxurile de transformare, sistemul generează codul SQL, optimizat pentru platforma țintă, și afișează rezultatele pentru verificare pe parcurs.

Cheia abordării „fără cod” a fluxurilor de transformare este conceptul de procesoare configurabile.  Aceste procesoare funcționează ca blocuri de construcție care preiau date brute de la un tabel sursă sau de la un procesor precedent ca intrare și efectuează o operațiune pentru a transforma și a produce date ca ieșire.

O gamă largă de procesoare sunt disponibile ca parte a Qlik™ Talend Cloud, inclusiv procesoare pentru agregare, curățare, filtrare, îmbinare și multe altele (a se vedea mai jos). În prezent, toate procesoarele execută folosind o paradigmă ELT push-down. Adică procesoarele generează instrucțiuni SQL compatibile cu platforma de baze de date sau depozitul de date țintă pentru proiect, apoi execută aceste instrucțiuni utilizând calculul și datele prezente pe platforma Cloud țintă – cum ar fi Snowflake, Databricks sau altele.

Noțiuni introductive despre fluxurile de transformare

Dacă utilizați deja canalele de date Qlik™ Talend Cloud, puteți crea fluxuri de transformare în interiorul obiectelor de transformare ale proiectelor de integrare a datelor.

Să ne uităm la câteva exemple de fluxuri de transformare în contextul datelor clienților.  În primul rând, vom filtra și împărți datele clienților din SAP în funcție de zona geografică. Apoi le vom combina cu date din alte sisteme pentru a ajunge la o listă consolidată a clienților.

Exemplu de filtrare și divizare
Etapele de filtrare și divizare a datelor clienților în funcție de locație sunt următoarele:

1. Pe o sarcină de transformare existentă, selectați masterul clientului (KNA1) și fluxul de transformare.

2. Completați detaliile, numele transformării și setul implicit de date de ieșire și, opțional, setările de materializare. Materializarea va stoca rezultatele fluxului de transformare ca date într-un tabel fizic din baza de date țintă. Dacă nu se materializează fluxul de transformare, rezultatele transformării vor fi stocate ca o vizualizare care este redată la cerere de obiectele din fluxul de date din aval. Pentru ca sarcina de transformare să gestioneze încărcările incrementale utilizând procesorul de filtrare incrementală, materializarea trebuie să fie setată la ON.

3. Transformarea noastră implicită apare ca în imaginea de mai jos.

Atunci când creați un flux de transformare, interfața utilizator Qlik™ Talend Cloud va afișa implicit setul (seturile) de date de intrare selectat(e) în etapa anterioară și setul de date de ieșire. Setul de date de ieșire va avea numele transformării, dar numele setului de date de ieșire poate fi schimbat de către dezvoltatorul fluxului de transformare.

Sfat rapid: Un sfat pentru a începe construirea unui flux de transformare este selectarea setului de date de intrare și activarea previzualizării datelor. Aceasta va afișa câmpurile și datele disponibile pentru a fi utilizate în fluxul de transformare. Observați că câmpul LAND1 are țara clientului.

4. Transformarea noastră implicită apare ca în imaginea de mai jos.

5. Apoi configurăm filtrul pentru a limita datele clienților la clienții din SUA și facem clic pe Save (Salvare). Odată cu selectarea transformării filtrului Split customers (Clienți divizați), vedem cum previzualizarea datelor din partea de jos a ecranului se actualizează la rândurile care corespund filtrului.

6. În continuare, vom configura o ieșire pentru înregistrările care nu corespund. Ținta care nu se potrivește va conține toți clienții care nu sunt clienți din SUA.

7. În final, definiți o cheie pentru ambele seturi de date. Cheile pot fi definite în metadatele fiecărui obiect făcând clic pe edit și alegând coloanele. Puteți verifica dacă setul de date este conform cu cheile definite făcând clic pe butonul Validate Data (Validare date).

8. Nu uitați să faceți clic pe Save (Salvare) pentru a ieși și a vă aplica modificările.

9. Fluxul de transformare finalizat arată astfel.

Combinarea datelor din mai multe surse

Pornind de la transformarea anterioară, vom combina acum datele filtrate ale clienților SAP cu un set diferit de clienți dintr-un sistem bazat pe Oracle.

1. Similar cu pasul de mai sus, selectați cele două seturi de date pentru a le combina într-un flux de transformare. Cu Qlik™ Talend Cloud, este ușor să introduceți și să combinați noi seturi de date. Puteți ingera date în mod automat și continuu, fără programarea sarcinilor sau scripturi, doar prin glisarea și fixarea surselor.

2. Pagina este acum desenată cu cele două seturi de date de intrare și cu setul de date de ieșire.

3. Putem apoi inspecta ambele seturi de date despre clienți făcând clic pe ele și revizuind panoul de previzualizare.

4. Observați că informațiile de contact ale clienților par ușor combinabile, adresele și numerele de telefon având un format similar.  Numele clienților sunt diferite, sursa Oracle având câmpuri separate pentru nume și prenume, iar SAP având un singur câmp pentru nume.  Pentru acest exemplu, vom standardiza pe un singur câmp și vom utiliza un procesor de concatenare pe sursa Oracle.

5. Vom utiliza apoi un procesor Select columns (Selectare coloane) pentru a selecta și ordona coloanele ambelor seturi de date în vederea pregătirii unirii.

6. Vom utiliza apoi procesorul de uniuni pentru a combina seturile de date.

7. Apoi adăugați o coloană UUID la setul de date combinat pentru a o folosi drept cheie.

8. Vom configura apoi ieșirea cu această cheie.

9. Fluxul nostru de transformare este acum complet.

Concluzie

Fluxurile de transformare din Qlik™ Talend Cloud permit utilizatorilor care nu dispun de niveluri extinse de competențe în programarea datelor (SQL, Python etc.) să își transforme ușor și eficient datele pentru analiză. Interfața grafică nivelează terenul de joc pentru implementare prin abstractizarea cunoștințelor și a proiectării datelor de construcțiile sintactice ale limbajului și prin prezentarea acestora ca procesoare configurabile.

Nuanțele aparent complexe, cum ar fi procesarea modificărilor incrementale de către fluxul de transformare sau adăugarea de filtre pentru a reduce setul de date prelucrate, pot fi gestionate automat de produs. Este suficient să activați opțiunea de încărcare incrementală și să includeți procesorul filtru incremental. Dar atenție, încărcarea incrementală este disponibilă numai dacă setul de date a fost materializat.

Faptul că transformările de date sunt mai accesibile îmbunătățește comunicarea cerințelor, ceea ce poate scurta timpii de creare a conductelor de date și face ca conductele să fie mai ușor de actualizat atunci când cerințele evoluează.

Fluxurile de transformare se află în centrul capacităților de transformare ale Qlik™ Talend Cloud și sunt disponibile pentru utilizare astăzi.

Pentru informații despre Qlik™, clic aici: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, clic aici: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, clic aici: QQblog !