Simplificarea fluxurilor de date GenAI cu Qlik™ Talend Cloud

Inteligența artificială generativă (GenAI) și aplicațiile conexe au explodat pe scena tehnologiei în ultimii doi ani.  Deși tehnologia este foarte promițătoare, construirea de fluxuri de date care să valorifice datele structurate și nestructurate ale clienților reprezintă o activitate de integrare dificilă și solicitantă.

Capabilitățile de date pregătite pentru inteligență artificială Qlik™ Talend Cloud (QTC) permit clienților să simplifice și să accelereze munca necesară pentru ca datele lor să circule către aplicațiile GenAI bazate pe Recuperarea Îmbunătățită a Generării (RAG) pentru Modelele Extinse de Limbaj (LLM). 

În articol vă vom prezenta această nouă capacitate interesantă pentru a simplifica utilizarea datelor dvs. cu aplicații GenAI.

Context – GenAI, LLM, RAG, Magazine de Vectori
Înainte de a analiza modul în care capacitățile de date pregătite pentru inteligență artificială ale QTC ajută, prin intermediul automatizării, ca datele enterprise să fie puse la dispoziția aplicațiilor GenAI bazate pe RAG, să prezentăm tehnologiile implicate și complexitățile întâlnite atunci când se creează aplicații GenAI de la zero.

RAG este o metodă de implementare a aplicațiilor GenAI care bazează LLM pe contextul datelor pe care LLM trebuie să le utilizeze atunci când răspunde la o interogare. Acesta este utilizat împreună cu LLM atât pentru a evita necesitatea de a antrena un LLM pe date specifice clientului, cât și pentru a limita domeniul de aplicare al datelor pe care LLM le va utiliza pentru a răspunde la întrebările care îi sunt adresate. Deși interfețele de chat bazate pe LLM, cum ar fi ChatGPT, sunt elementul cel mai ușor de recunoscut al unei aplicații GenAI, există mai multe tehnologii și procese precursoare care trebuie selectate și integrate, de obicei prin metode complexe bazate pe cod.

Anatomia unei soluții bazate pe RAG
O soluție GenAI tipică bazată pe RAG conține următoarele componente și fluxuri de proces.

Pentru a răspunde unei interogări din partea utilizatorului, a aplicației RAG sau a robotului de chat cu privire la datele enterprise, datele enterprise trebuie încărcate într-un depozit vectorial cu încorporările LLM corespunzătoare. O încorporare LLM se referă la o reprezentare vectorială a textului (cum ar fi un cuvânt, o propoziție sau un document) generată de un LLM precum GPT, BERT sau alte modele avansate. Scopul încorporărilor este de a capta semnificația semantică a textului într-un mod care să permită modelului să efectueze mai eficient diverse sarcini, cum ar fi căutarea de similarități, clasificarea sau generarea de limbaje. O încorporare este un vector numeric înalt-dimensional care reprezintă o bucată de date (cum ar fi cuvinte sau propoziții) astfel încât bucățile de date similare din punct de vedere semantic să fie mai apropiate în spațiul vectorial. Acest lucru permite modelelor să proceseze și să compare eficient bucăți de text.

Acest vector este apoi transmis către LLM împreună cu textul interogării utilizatorului pentru ca LLM să îl utilizeze ca context în raport cu care îmbinările generate din textul interogării utilizatorului să genereze răspunsul către utilizator.

Componentele tehnologice ale soluției bazate pe RAG
Pentru ca acest proces să funcționeze, trebuie luate în prealabil mai multe decizii și integrări tehnologice.

  1. Sistemele sursă de date care găzduiesc în prezent datele enterprise necesare pentru a răspunde la întrebări. De obicei, ar exista mai multe baze de date și aplicații ale căror date trebuie integrate pentru a obține răspunsuri coerente. Acestea includ date text nestructurate în documente și baze de cunoștințe.
  2. Platforma pe care vor fi integrate toate aceste date. Platforme foarte populare bazate pe cloud, de exemplu Snowflake și Databricks.
  3. Baza de date vectorială în care să fie stocate încorporările de date enterprise. Platformele cloud (Snowflake Cortex, Databricks Mosaic) furnizează de obicei propria lor bază de date Vector, iar soluțiile punctuale precum ElasticSearch, Pinecone, OpenSearch etc. sunt, de asemenea, alegeri populare.
  4. LLM de utilizat pentru a genera încorporările de date enterprise și pentru completări și chat. Există opțiuni ample și pentru acest lucru, atât prin intermediul platformelor hiperscaler AI (Azure OpenAI, Amazon Bedrock), platforme de date cloud (Snowflake Cortex, Databricks Mosaic) și furnizori independenți (OpenAI, Anthropic).

Toate acestea, împreună, descriu următoarea imagine a integrării necesare.

O implementare a acestei soluții necesită eforturi mari de scripting/ codificare și cunoștințe de specialitate.  După cum vom vedea în continuare, Qlik™ Talend Cloud automatizează cea mai mare parte a integrării și necesită doar configurarea și selectarea tehnologiei care urmează să fie utilizată

Qlik™ Talend Cloud – fluxuri pregătite pentru AI
Qlik™ Talend Cloud (QTC) a fost creat special pentru a simplifica și accelera implementarea fluxurilor de integrare a datelor GenAI bazate pe RAG, utilizând o abordare cu cod redus sau fără cod.  În continuare vom acoperi în detaliu fiecare dintre caracteristici și modul în care acestea valorifică automatizarea pentru a permite această capacitate.

Conectivitatea sursei de date
QTC oferă conectivitate fără cod la sute de surse de date, inclusiv sisteme enterprise, mainframes, SAP, baze de date și aplicații SaaS. Acesta oferă o captură de date modificate (CDC) eficientă, fără amprentă și cu impact minim, bazată pe jurnal în timp aproape real sau API incremental pentru a trimite datele și modificările o singură dată, fără a fi nevoie să reîncărcați aceleași date la nesfârșit, de la sursă la țintă. Interfața intuitivă permite o implementare ușoară a acestui proces de conectivitate și mișcare, după cum se arată mai jos.

Pregătirea/ transformarea datelor
Odată ce datele se află în platforma cloud țintă, următorul pas este să le pregătim pentru vectorizare. Acest lucru presupune crearea unor seturi de date derivate cu câmpurile corespunzătoare și cu îmbinarea și filtrarea înregistrărilor, care furnizează bucățile de date relevante pentru LLM. QTC oferă experiență în proiectarea transformărilor multimodale, variind de la fluxuri de transformare fără cod la crearea de interogări asistate de GenAI cu cod pro.

Modelarea datelor
Odată ce seturile de date necesare au fost generate, definim metadatele de relaționare între seturile de date. Acest lucru permite ca etapa ulterioară de date pregătite pentru inteligență artificială să recunoască potențialele blocuri de construcție pentru documentul care urmează să fie pregătit și stocat în BD vectorială.

Date pregătite pentru AI și integrare Vector DB/ LLM
NOTĂ: Această caracteristică este în prezent în previzualizare privată în vederea pregătirii pentru disponibilitatea generală (GA) în primul trimestru al anului 2025.

Datele care urmează să fie vectorizate trebuie să treacă printr-un proces de parsare, fragmentare, încorporare și indexare. Datele structurate (din tabele și coloane) trebuie să fie convertite în format de document înainte de acești pași. QTC strălucește în acest domeniu cu o interfață intuitivă pentru determinarea elementelor care trebuie incluse în document.

1. Într-o etapă de transformare, selectăm opțiunea de a crea date pregătite pentru AI

2. Specificarea locului de stocare a vectorilor

Putem stoca vectori fie în:

     a. Baza de date a vectorilor externi

     b. Platforma proiectului de date. Acest lucru depinde de platforma pentru proiectul din care face parte această sarcină. Fie Snowflake Cortex sau Databricks Mosaic.
     c. Baza de cunoștințe Qlik Answers™. Pentru informații despre această opțiune, consultați această pagină.

3. Specificați conexiunea LLM. Această conexiune și modelele specificate vor fi utilizate atât pentru a crea încorporările pentru stocarea datelor documentului în Vector DB, cât și pentru a alimenta completările interfeței de chat disponibile implementatorului pentru a testa LLM. Opțiunile de aici depind de alegerea anterioară a Vector DB.

     a. Utilizarea LLM extern

     b. Utilizarea platformei de proiecte de date LLM. Consultați următoarele pentru mai multe informații despre Databricks Mosaic sau Snowflake Cortex
     c. În ambele cazuri, trebuie specificat un model valid de încorporare și completare

4. Crearea de documente pregătite pentru AI. În această etapă valorificăm seturile de date și relațiile definite în sarcina de transformare pentru a crea documentele care urmează să fie vectorizate. Începem cu un set de date părinte, în extrema dreaptă a diagramei modelului, și selectăm elementele copilului care vor face parte din document.

5. Am terminat! Următorul pas este să pregătiți și să executați sarcina și să testați datele și LLM cu funcția chat cu datele dvs.

Notă: Această interfață este destinată implementatorului de date pregătite pentru AI pentru a testa integrarea datelor și a componentelor de procesare (LLM, Vector DB etc.). Nu este destinată să fie o interfață de chat pentru utilizatorul final.

Fluxul finalizat ar arăta ca în imaginea de mai jos

Concluzie – Accelerarea călătoriei dumneavoastră GenAI
GenAI oferă capacități noi și interesante de a interacționa cu datele. Crearea fluxului de lucru care combină toate sursele de date, procesarea și tehnologiile implică de obicei un efort considerabil. QTC accelerează implementările GenAI la nivel de întreprindere și permite un timp de realizare a valorii mai rapid, cu un efort și un cost mai mici decât altfel.

Fie că se utilizează ingestia automată de date din surse structurate sau nestructurate, transformarea în seturi de date necesare, crearea unei înregistrări vectoriale cu încorporări LLM adecvate sau testarea răspunsurilor la chat, QTC reduce bariera de intrare și adopție pentru a oferi soluții GenAI bazate pe RAG pe datele dvs. 

Taskurile pregătite pentru AI sunt în prezent în previzualizare privată în Qlik™ Talend Cloud

Pentru informații despre Qlik™, clic aici: qlik.com.
Pentru soluții specifice și specializate de la QQinfo, clic aici: QQsolutions.
Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, clic aici: QQblog !