Explorarea potențialului Apache Iceberg, viitorul data lake-urilor

De ce Apache Iceberg ar trebui să fie singura sursă de adevăr a organizației dvs.?
Apache Iceberg  revoluționează arhitectura data lake-urilor prin oferirea unui format modern și deschis de tip „open-table”, care separă stocarea de procesare, permițând o adevărată democratizare a datelor. Folosind Iceberg ca soluție principală pentru data lake sau lakehouse, elimini dependența de un furnizor specific și obții control total asupra datelor tale, asigurând astfel o gestionare eficientă din punct de vedere al costurilor, scalabilă și flexibilă.

Arhitectura Medallion: Structurarea data lake-ului dumneavoastră de date
Un data lakehouse este o arhitectură modernă pentru date care îmbină flexibilitatea și scalabilitatea data lake-urilor cu performanța și guvernanța oferite de depozitele de date (data warehouses), oferind tot ce e mai bun din ambele lumi într-o singură platformă unificată. Data lakehouse-ul combină agilitatea modelului schema-on-read cu performanța conformă cu standardele ACID, permițând o arhitectură unificată care susține atât analiza datelor, cât și învățarea automată la scară largă.

Adoptarea arhitecturii Medallion în cadrul unui data lake sau lakehouse alimentat de Apache Iceberg permite organizațiilor să gestioneze eficient datele pe măsură ce acestea trec prin diferite niveluri de rafinare:

1. Stratul Bronze (date brute)
     1. Toate datele provenite din diverse sisteme și surse sunt mai întâi preluate în lacul de date Iceberg.
     2. Acționează ca sursă unică de adevăr pentru datele brute.
     3. Elimină necesitatea de a trimite mai întâi datele brute către un data warehouse, economisind astfel costuri ridicate de procesare.

2. Stratul Silver (date rafinate)
     1. Datele sunt curățate, transformate, normalizate, denormalizate, aplatizate și agregate.
     2. Acționează ca un strat pregătit pentru procese analitice ulterioare.

3. Stratul Gold (date pregătite pentru business)    
     1.
Seturi de date rafinate suplimentar, adaptate pentru analiștii de business și pentru cazuri analitice specifice.
     2. Permite interogarea directă din instrumente BI, modele de învățare automată și aplicații de date.

Prin structurarea datelor în aceste straturi, în cadrul Apache Iceberg, organizațiile evită mișcările inutile de date, reduc ETL/ complexitatea proceselor ELT și obțin economii semnificative de costuri.

Democratizarea reală a datelor: Interogare direct din Iceberg
Unul dintre principalele avantaje ale Apache Iceberg este că analiștii de business și sistemele din aval pot interoga direct tabelele Bronze, Silver sau Gold din data lake/ lake house, valorificând datele stocate în depozitele de obiecte Cloud. Nu este nevoie să mutați datele în depozite separate controlate de furnizori (de exemplu, Snowflake, Redshift) înainte de analiză.

Acest lucru asigură:

  • Stocare în format deschis: Păstrați proprietatea deplină asupra datelor dvs. fără blocajul furnizorului.
  • Integrare perfectă: Interogarea tabelelor Iceberg folosind motoare precum Trino, Spark, Dremio, Snowflake, Databricks sau altele…
  • Scalabilitate și eficiență a costurilor: Procesați datele la economia lacului în locul costurilor de calcul costisitoare ale depozitului.
  • Produse de date la sursă: Construiți produse de date reutilizabile direct din tabelele Iceberg.

Cazuri de utilizare suplimentare pentru Apache Iceberg
Dincolo de transformarea datelor structurate, Apache Iceberg oferă alte câteva cazuri de utilizare convingătoare:

  • Fluxuri de lucru pentru Machine Learning și AI
    • Sprijină proiectarea scalabilă și eficientă a caracteristicilor.
    • Permite modelelor ML să se antreneze pe cele mai recente seturi de date fără deplasarea inutilă a datelor.
  • Procesare și transmitere de date în timp real
    • Se integrează cu Apache Flink, Spark Streaming și Kafka.
    • Facilitează analizele în timp real, menținând în același timp conformitatea ACID.
  • Versiunea datelor și călătoria în timp
    • Permite interogarea versiunilor anterioare ale seturilor de date pentru audituri și reproductibilitate.
    • Îmbunătățește capacitățile de depanare și revenire.
  • Arhitecturi de date multi-cloud și hibride
    • Acces consecvent la date prin intermediul furnizorilor de cloud: Apache Iceberg operează pe formate de tabele deschise stocate în stocarea obiectelor (S3, ADLS, GCS), permițând accesul transparent în AWS, Azure și Google Cloud.
    • Calcul și stocare decuplate: Taskurile de lucru pot rula folosind Apache Spark, Trino, Presto, Flink și alte motoare de interogare fără a fi restricționate la serviciile de analiză ale unui singur furnizor sau al unui singur provider de cloud.
    • Analiza datelor între clouduri: Formatul deschis al tabelei Iceberg permite organizațiilor să stocheze date într-un cloud (de exemplu, AWS S3) și să le proceseze într-altul (de exemplu, folosind Google BigQuery sau Azure Synapse).
    • Evitarea dependenței de un furnizor: Spre deosebire de depozitele nativ cloud care leagă datele de ecosistemele lor, Iceberg permite o abordare deschisă și portabilă a managementului datelor.
  • Conformitate reglementară și guvernanță
    • Permite interogări de călătorie în timp, permițând organizațiilor să interogheze instantanee istorice ale datelor pentru audituri și verificări de conformitate.
    • Se integrează cu Lake Formation și alte cataloage pentru a impune controlul accesului detaliat.
    • Facilitează conformitatea cu GDPR, HIPAA și alte politici de guvernanță a datelor.

Tranziția de la depozitele tradiționale de date la Apache Iceberg Lake houses
Multe organizații trimit în prezent toate datele lor către depozite de cloud, cum ar fi Snowflake sau Redshift, unde au loc transformările și rafinările datelor. Deși trecerea completă la o arhitectură centrată pe Iceberg nu este întotdeauna imediată, tranziția poate fi realizată strategic în etape:

  • Pentru proiectele noi de date: Începeți prin a încărca datele direct în stocarea de obiecte cu Iceberg, în loc să le trimiteți în depozite.
  • Minimizarea amprentei depozitului:
    • În loc să trimiteți toate datele, inclusiv datele brute (Bronze) și cele rafinate (Silver) către depozit, prioritizați utilizarea depozitului de date pentru a procesa stratul Gold.
    • Mențineți procesarea prealabilă în data lake/ lakehouse pentru a beneficia de stocarea și procesarea cost-eficiente ale Iceberg.
    • Dacă este necesar un acces ocazional la datele Bronze/ Silver, utilizați integrarea catalogului depozitului pentru a interoga tabelele Iceberg direct.
  • Pentru lake-urile bazate pe Hive: Dacă utilizați Hive ca data lake existent, începeți să migrați noile seturi de date către Iceberg.
    • Tranziționați treptat tabelele existente Hive către Iceberg cu un impact minim asupra downstream.
    • Pe parcursul timpului, modificați fluxurile de date pentru a opri trimiterea datelor către sistemele downstream și lăsați-le să interogheze direct Iceberg.

Prin implementarea strategică a acestor schimbări, organizațiile pot deconecta progresiv stocarea și procesarea datelor de arhitecturile controlate de furnizori, reducând costurile și îmbunătățind accesibilitatea datelor.

Vizualizarea tranziției către un data lake bazat pe Iceberg
Pentru a ajuta la ilustrarea evoluției arhitecturilor moderne de date, am conturat trei modele cheie care reprezintă diferite etape în călătoria de la depozitele tradiționale de date către un data lake mai flexibil și scalabil, bazat pe Iceberg. Aceste vizualizări evidențiază cum circulă datele de la ingerare la consum în fiecare model și cum organizațiile pot face o tranziție strategică către o arhitectură hibridă sau complet nativă Iceberg.

Arhitectura tradițională centrată pe depozit
Surse de date → Snowflake/ Redshift → Transformare → Consum de business

Arhitectura Medallion Apache Iceberg
Surse de date → Iceberg Lake (Bronze) → Transformare (Silver) → Date de business (Gold) → Interogare din Iceberg

Abordare hibridă optimizată (strategia de tranziție)
Surse de date → Iceberg Lake (Bronze/Silver) → Gold (trimis către Snowflake/ Redshift dacă este necesar) → Interogare Bronze/ Silver din Iceberg

Viitorul: Apache Iceberg ca standard implicit
Organizațiile care vizează scalabilitate pe termen lung, eficiență costuri și controlul datelor ar putea considera tot mai mult Apache Iceberg ca arhitectura implicită pentru toate noile proiecte de date. Iceberg permite adevăratul control al datelor, flexibilitatea formatului deschis și deconectarea de ecosistemele controlate de furnizori, asigurând că organizațiile sunt pregătite pentru viitorul datelor.

Cu tendința în creștere a Produselor de Date, Iceberg joacă un rol crucial în construirea de produse de date de înaltă calitate și reutilizabile direct din lake, fără duplicare inutilă sau dependență de furnizori.

Prin adoptarea Iceberg, businessul poate valorifica întregul potențial al data lake-urilor, optimizând costurile și asigurând un viitor deschis și scalabil pentru arhitectura lor de date.

Sursă articol https://community.qlik.com.

Pentru informații despre Qlik™, clic aici: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, clic aici: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, clic aici: QQblog !