Data Lakehouse

Acest articol oferă o perspectivă cuprinzătoare asupra Lakehouse-urilor, a componentelor sale esențiale, a arhitecturii la nivel înalt și a aspectelor cheie pentru construirea propriului Data Lakehouse deschis.

Ce este un Data Lakehouse?

Un Data Lakehouse este o arhitectură de gestionare a datelor care combină capabilitățile cheie ale Data Lake-urilor și Data Warehouse-urilor într-o platformă unificată. Aceasta aduce beneficiile unui Data Lake, precum stocarea la cost redus și accesul extins la date, și beneficiile unui Data Warehouse, cum ar fi structura datelor, performanța și funcțiile de administrare. Lakehouse-urile sunt tot mai des construite utilizând date deschise și formate de tabel deschise, precum Apache Iceberg, Hudi și Delta Tables, pentru a oferi flexibilitate și interoperabilitate.

Ce este Apache Iceberg?

Apache Iceberg este un format de tabel deschis, conceput pentru a gestiona Data Lakehouse-uri la scară largă și pentru a permite analize de înaltă performanță pe formate de date deschise. Permite ca fișierele să fie tratate ca entități logice de tip tabel, ceea ce îl face potrivit pentru arhitecturi lakehouse.
Cu Iceberg, utilizatorii pot stoca date în cloud object stores și le pot procesa sau interoga folosind mai multe motoare diferite, oferind flexibilitate și interoperabilitate între platforme.
Iceberg permite funcții cheie precum respectarea principiilor ACID, partiționare dinamică, time travel și evoluția schemei (schema evolution), asigurând performanță ridicată și integritate a datelor.
În plus, Apache Iceberg susține o comunitate solidă open-source, ceea ce îl face o soluție fiabilă, versatilă și deschisă pentru nevoile moderne de gestionare a datelor.

Mai multe articole despre Apache Iceberg aici:

Introducere în Iceberg Lakehouses

Pentru o prezentare despre Iceberg Lakehouse, vizonați materialul video de aici: https://videos.qlik.com/watch/1RTmeTkbJAUaq8wjokKne1.

Caracteristici și beneficii ale Data Lakehouse

Platforma de date Lakehouse asigură faptul că analiștii de date și inginerii AI pot utiliza cele mai recente și mai largi seturi de date pentru business intelligence, analiză, Generative AI și machine learning. În plus, faptul că există un singur sistem de gestionare simplifică infrastructura de date a companiei și permite analiștilor și oamenilor de știință în domeniul datelor să lucreze mai eficient. 

Comparație între Data Lakehouse, Data Warehouse și Data Lake

În mod tradițional, am avut două opțiuni principale pentru un depozit de date mari: Data Lake sau Data Warehouse. Pentru a sprijini analiza, AI, data science și machine learning, cel mai probabil a fost necesar să menții simultan ambele opțiuni și să conectezi sistemele între ele. Acest lucru duce adesea la duplicarea datelor, probleme de securitate și costuri suplimentare de infrastructură. Data Lakehouse-urile pot ajuta la depășirea acestor probleme.

Arhitectura Data Lakehouse

Un Data Lakehouse este de obicei alcătuit din șase straturi cheie, așa cum se arată mai jos: stratul de ingestie, stratul de stocare, stratul de date fizice, stratul de metadate, stratul de guvernanță/cataloage și stratul de interogare/procesare.

Componentele unei arhitecturi Lakehouse

Secțiunea de mai jos detaliază fiecare dintre aceste straturi pentru a înțelege mai bine arhitectura Lakehouse. 

Stratul de ingestie: Oferă capabilități pentru a prelua date din diverse surse în Lakehouse, inclusiv pipeline-uri de date batch și în timp real folosind change data capture (CDC) sau streaming. Ar trebui să permită ingestia și încărcarea facilă a unor volume mari de date în timp real în Lakehouse, cu doar câteva clicuri.
Stratul de stocare: Stochează toate tipurile de date (structurate, semi-structurate, nestructurate) într-o platformă unificată, folosind adesea cloud object stores precum AWS S3, Azure Blob Storage sau Google Cloud Storage. Datele pot fi stocate în formate brute, transformate sau curățate, pregătite pentru utilizare în business, cu transformările și curățările necesare.
Stratul de date fizice: Formatele de fișiere deschise definesc modul în care un Lakehouse scrie și citește datele. Acestea se concentrează pe stocarea și comprimarea eficientă a datelor și influențează semnificativ viteza și performanța. Ele definesc modul în care octeții care reprezintă înregistrările și coloanele sunt organizați și codificați pe disc sau într-un sistem de fișiere distribuit, precum Amazon S3. Unele dintre formatele de fișiere deschise cele mai utilizate pentru Lakehouse includ Apache Parquet, Apache Avro și ORC.
Stratul de formate de tabele / metadate: Factorul diferențiator între un Data Lake și un Lakehouse este un format de tabel sau un strat de metadate al tabelului. Acesta oferă un strat de abstractizare deasupra stratului de date fizice pentru a facilita organizarea, interogarea și actualizarea datelor. Formatele comune de tabele deschise includ Apache Iceberg, Apache Hudi și Delta Tables, care stochează informații despre obiectele care fac parte dintr-un tabel și permit motoarelor SQL să vadă o colecție de fișiere ca un tabel cu rânduri și coloane ce pot fi interogate și actualizate tranzacțional.
Stratul de catalog: Un catalog se referă la un registru central în cadrul Lakehouse care urmărește și gestionează metadatele tabelelor subiacente. Practic, acționează ca sursa de adevăr pentru localizarea stării curente a unui tabel, incluzând schema, partițiile și locațiile datelor, permițând diferitelor motoare de calcul să acceseze și să manipuleze tabelele Lakehouse în mod consistent. Exemple includ AWS Glue Catalog, Snowflake Open Catalog, Polaris, Unity Catalog, Hive Catalog, Project Nessie și REST Catalogs.
Stratul de interogare / procesare: Oferă puterea de procesare necesară pentru a analiza și interoga datele stocate în stratul de stocare. Poate utiliza motoare de procesare distribuită precum Apache Spark, Presto sau Hive sau alte motoare de date în cloud pentru a gestiona eficient volume mari de date. Acest strat permite utilizatorilor să acceseze și să analizeze datele din Lakehouse folosind diverse instrumente și aplicații, cum ar fi motoarele de interogare, dashboard-uri BI, platforme de data science și clienți SQL.

Sursă articol: www.qlik.com.

Pentru informații despre Qlik™, clic aici: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, clic aici: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, clic aici: QQblog !