Potențialul depozitelor de date Lakehouse Iceberg cu Qlik Talend Cloud Pipelines și Snowflake

Pe măsură ce organizațiile continuă să își extindă operațiunile de date, arhitecturile moderne, cum ar fi cele de tipul lakehouse deschise bazate pe Iceberg, apar ca soluție de bază pentru flexibilitate, performanță și eficiență a costurilor. Pentru a sprijini această evoluție, Qlik Talend Cloud Pipelines introduce două noi capabilități menite să simplifice și să îmbunătățească procesul de construire a arhitecturilor de date de tip lakehouse deschise cu Snowflake: Lake landing pentru Snowflake și suport pentru tabelele Iceberg gestionate de Snowflake.

În prezent, Qlik Talend Cloud (QTC) oferă o soluție end-to-end de nivel enterprise, care oferă utilizatorilor Snowflake un timp rapid pentru a obține informații și agilitate. Soluția Qlik pentru utilizatorii Snowflake automatizează ingestia, proiectarea, implementarea și actualizările depozitelor de date și anarhitecturilor de date de tip lakehouse, reducând la minimum procesele manuale de proiectare, predispuse la erori, de modelare a datelor, codificare ETL și scripting.

Ca urmare, clienții își pot accelera inițiativele de analiză și inteligență artificială, pot obține o mai mare agilitate și pot reduce riscurile – toate acestea în timp ce beneficiază pe deplin de elasticitatea instantanee și de avantajele de cost ale platformei de date cloud Snowflake.

Acum, pe măsură ce organizațiile continuă să își extindă operațiunile de date, arhitecturile moderne, cum ar fi cele de tip lakehouse deschise bazate pe Iceberg, apar ca soluție de bază pentru flexibilitate, performanță și eficiență a costurilor. Pentru a sprijini această evoluție, Qlik Talend Cloud Pipelines introduce două noi capabilități puternice concepute pentru a simplifica și îmbunătăți procesul de creare a arhitecturilor de tip lakehouse deschise cu Snowflake: Lake landing pentru Snowflake și suport pentru tabelele Iceberg gestionate de Snowflake.

Ingestia Lake-Landing pentru Snowflake Pipelines
O provocare cheie pentru clienți în gestionarea datelor în cloud este echilibrarea ingestiei rapide de date cu optimizarea resurselor de calcul în Snowflake. Noua funcție de ingestie lake-landing de la Qlik Talend Cloud pentru Snowflake abordează această problemă, permițând utilizatorilor să își aterizeze datele mai întâi într-un magazin de obiecte cloud, înainte de a le consuma în Snowflake.  Astfel, clienții pot replica datele din diverse surse într-un spațiu de stocare în cloud la alegere (Amazon S3, Azure Data Lake Storage sau Google Cloud Storage) cu latență redusă și fidelitate ridicată, în loc să ingereze datele direct în stratul de stocare al Snowflake. Ingestia în stocarea în cloud este gestionată integral de Qlik și nu necesită utilizarea calculatorului Snowflake.

În plus, Qlik Talend Cloud vă permite să configurați frecvența la care Snowflake va prelua datele din stocarea în cloud: În timp ce puteți replica modificările datelor sursă în timp real către un depozit de obiecte cloud, sarcina de stocare Snowflake poate citi și aplica aceste modificări într-un ritm mai lent (ar putea fi, de exemplu, o dată la o oră sau o dată la 12 ore).

Pentru cazurile de utilizare a ingestiei în care replicarea cu latență redusă în Snowflake nu este o cerință, acest lucru reduce cerințele de timp de funcționare a depozitului Snowflake și, în cele din urmă, optimizează costurile.

Asistență pentru tabelele Iceberg gestionate de Snowflake
În plus față de ingestia prin lake-landing, Qlik Talend Cloud Pipelines acceptă acum tabelele Iceberg gestionate de Snowflake. Această nouă caracteristică permite sarcinilor Qlik Talend Cloud Pipeline (Stocare, Transformare și Data Mart) să preia și să stocheze date direct în tabele Iceberg utilizând stocarea externă în cloud (S3, ADLS sau GCS). Aceste tabele Iceberg stocate extern sunt gestionate integral de Snowflake, ceea ce înseamnă că beneficiază de optimizările de performanță Snowflake și de întreținerea ciclului de viață al tabelelor. În plus, această nouă caracteristică este complet integrată cu Open Iceberg Catalog al Snowflake (bazat pe Apache Polaris) pentru a asigura interoperabilitatea deplină cu orice motor de interogare compatibil cu Iceberg.

Aceste două capabilități descrise mai sus pot fi utilizate independent sau în combinație, oferind o mai mare flexibilitate în modul în care datele sunt introduse, stocate și interogate.

Exemplu de implementare
Mai jos este prezentată o diagramă care arată o implementare simplă a ambelor capabilități împreună.

Diagramă care arată implementarea lake-landing pentru Snowflake și suportul pentru tabelele Iceberg gestionate de Snowflake

Acesta dispune de un flux de date construit pe Qlik Talend Cloud, compus din 3 sarcini succesive (lake-landing, stocare și transformare) care se ocupă de:
     1. Replicarea modificărilor de date de la o sursă MySQL la un magazin de obiecte S3.
     2. La un program definit, aplicarea modificărilor pe un strat de bronz bazat pe Snowflake. Stratul de bronz materializat ca tabele Iceberg care sunt gestionate de Snowflake și stocate pe S3.
     3. Crearea unei structuri de tabele curățate, standard, ca și tabele Iceberg. În exemplul nostru, acesta este stratul de consum de date care poate fi consumat atât în Snowflake, cât și în orice tehnologie compatibilă cu Iceberg, datorită unei sincronizări cu Snowflake Open Catalog.

Mai jos este un videoclip care arată cum să utilizați fluxurile de date în Qlik Talend Cloud pentru a aduce cu ușurință datele într-un magazin de obiecte Cloud și pentru a ingera date în tabelele Iceberg gestionate de Snowflake.

De ce este important
Cu aceste noi capabilități, Qlik Talend Cloud permite echipelor de date să construiască arhitectură de tip lakehouse deschise bazate pe Iceberg cu Snowflake într-un mod mai eficient, scalabil și rentabil. Fie că optimizează pentru ingestia cu latență redusă sau asigură interoperabilitatea fără probleme, aceste îmbunătățiri aduc avantaje semnificative arhitecturilor moderne de date.

Unele dintre beneficiile cheie ale acestor îmbunătățiri includ:
     1. Interoperabilitate îmbunătățită: Utilizați tabelele Iceberg gestionate de Snowflake pentru formate de date deschise care se integrează cu mai multe motoare de analiză.
     2. Eficiență de calcul optimizată: Reduceți consumul de calcul prin decuplarea ingestiei și a consumului de stocare.
     3. Gestionarea datelor scalabilă și rentabilă: Simplificați fluxurile de lucru ale datelor cu strategii flexibile de ingestie și stocare.

Pentru informații despre Qlik™, clic aici: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, clic aici: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, clic aici: QQblog !