De ce ar trebui ca mediul de afaceri să cunoască importanța calității datelor?

Calitatea datelor, consolidarea încrederii în date și identificarea prejudecăților sunt esențiale pentru ca organizațiile să poată lua cu încredere decizii bazate pe datele pe care le colectează.

Companiile pot obține beneficii importante de pe urma datelor, dar înțelegerea importanței calității datelor, a încrederii și a evitării prejudecăților le permite să ia decizii și să creeze profit.

La un nivel fundamental, încrederea în date este atunci când o întreprindere are încredere că datele pe care le utilizează sunt exacte, utilizabile, complete și relevante pentru scopurile propuse. La un nivel mai larg, încrederea în date are de-a face cu contextul, etica și prejudecățile.

Definiția restrânsă privește modul în care datele sunt utilizate în organizații pentru a-și îndeplini misiunea, această definiție restrânsă a încrederii în date este adesea susținută de instrumente care evaluează calitatea acestor date sau monitorizează automat datele în funcție de parametrii cheie. Odată ce bifați toate căsuțele, organizația poate avea mai multă încredere în date. Trebuie să analizați nu doar specificul calității datelor, ci și pentru cine sunt datele și cine este implicat în procesul de proiectare a sistemelor, de evaluare a sistemelor, de utilizare a datelor.

Dar această definiție a încrederii în date este limitată, deoarece datele fac parte dintr-un context mai larg. Companiile ar trebui să ia în considerare și alți factori atunci când evaluează încrederea în date, dincolo de cei operaționali de bază.

Imaginea mai largă este mai greu de cuantificat și operaționalizat, dar uitarea sau ignorarea ei poate duce la prejudecăți și eșecuri, a adăugat el.

Costul datelor eronate

Rezultatul final al organizațiilor reflectă importanța calității datelor. Calitatea slabă a datelor costă organizațiile, în medie, 13 milioane de dolari pe an, potrivit unui raport Gartner din iulie 2021. Nu este vorba doar de efectul imediat asupra veniturilor care este în joc. Calitatea slabă a datelor crește complexitatea ecosistemelor de date și duce la un proces decizional deficitar.

Există o regulă empirică numită regula „1-10-100” a datelor, care datează din 1992; aceasta spune că un dolar cheltuit pentru verificarea datelor la început se traduce printr-un cost de 10 dolari pentru corectarea datelor proaste și un cost de 100 de dolari pentru afacere dacă acestea nu sunt reparate.

Potrivit unui sondaj realizat de Corinium Intelligence în iunie 2021, 82% dintre directorii de date de rang înalt au declarat că preocupările legate de calitatea datelor reprezintă o barieră în calea proiectelor de integrare a datelor, iar 80% consideră dificilă îmbogățirea consecventă a datelor cu un context adecvat la scară largă.

”O greșeală pe care o fac companiile este să presupună că datele sunt bune și sigure doar pentru că se potrivesc cu ceea ce compania dorește să urmărească sau să măsoare..”
Servaas Verbiest
Director de strategie în domeniul produselor, Sungard Availability Services

Încrederea începe cu procesul de colectare. O greșeală pe care o fac companiile este să presupună că datele sunt bune și sigure doar pentru că se potrivesc cu ceea ce compania dorește să urmărească sau să măsoare. Este vorba de a înțelege cine a furnizat datele, de unde provin, de ce au fost colectate și cum au fost colectate. Diversificarea ajută și ea. O singură sursă de adevăr este un singur punct de eșec. Aceasta este o sarcină mare, dar este esențială pentru a preveni ca prejudecata sau adoptarea să fie influențată de preferințele unui individ față de prejudecata datelor cerute de organizație.

De asemenea, este important să urmăriți lanțul de custodie al datelor după ce le colectați pentru a vă asigura că acestea nu sunt alterate ulterior. În plus, datele se pot schimba în timp, astfel încât procesele de control al calității trebuie să fie continue.

De exemplu, un CEO al unei companiei de colaborare a datelor, a construit odată un algoritm pentru a prezice rezultatele în materie de sănătate. O variabilă critică era sexul, codificat ca 1 pentru bărbat și 2 pentru femeie. Datele proveneau de la o companie de asistență medicală. Apoi a sosit un nou lot de date care folosea 1, 2, 4 și 9.

Motivul? Oamenii puteau acum să selecteze „nonbinar” sau „preferă să nu spună”. Schema a fost codificată pentru unu și doi, ceea ce înseamnă că predicțiile algoritmului ar fi dat rezultate eronate, indicând că o persoană cu codul 9 era de nouă ori mai feminină – cu riscurile de sănătate asociate, de asemenea, înmulțite.

Modelul ar fi făcut predicții despre riscul de îmbolnăvire și de spitalizare care nu ar fi avut absolut niciun sens. Din fericire, compania a avut teste pentru a detecta problema și a actualiza algoritmii pentru noile date.

În biblioteca noastră open-source, acestea se numesc contracte de date sau puncte de control. Pe măsură ce noile date intră, se ridică o alertă care spune că sistemul se aștepta doar la unu și doi, ceea ce ne avertizează că ceva s-a schimbat fundamental în date.

Identificarea datelor tendențioase

Este prea simplist să spunem că unele date conțin prejudecăți și altele nu.

Nu există depozite de date imparțiale. În realitate, este un spectru.

Cea mai bună abordate este de a identifica părtinirea și apoi de a lucra pentru a o corecta.

Există multe tehnici care pot fi utilizate pentru a atenua această părtinire. Multe dintre aceste tehnici sunt simple ajustări ale eșantionării și reprezentării, dar în practică este important să ne amintim că datele nu pot deveni imparțiale într-un vid.

Este posibil ca întreprinderile să fie nevoite să caute noi surse de date în afara celor tradiționale sau să stabilească rezultate diferențiate pentru clasele protejate.

Nu este suficient să spunem pur și simplu: „eliminați părtinirea din date”, trebuie să analizăm în mod explicit rezultatele diferențiate pentru clasele protejate și poate chiar să căutăm noi surse de date în afara celor care au fost luate în considerare în mod tradițional.

Alte tehnici pe care companiile le pot utiliza pentru a reduce prejudecățile includ separarea persoanelor care construiesc modelele de comitetul de corectitudine. Companiile se pot asigura, de asemenea, că dezvoltatorii nu pot vedea atributele sensibile, astfel încât să nu utilizeze accidental aceste date în modelele lor. Ca și în cazul verificărilor calității datelor, verificările privind prejudecățile trebuie să fie, de asemenea, continue.

5 pași cheie pentru a optimiza operațiunile de date
Conform unui studiu IDC sponsorizat de Informatica în decembrie 2021, organizațiile care își optimizează operațiunile de date au luat următoarele măsuri:
1.  Recunoașteți problema, înțelegeți ce îmbunătățiri sunt necesare și angajați-vă să vă îmbunătățiți continuu
2.  Reducerea datelor tehnice prin standardizarea funcțiilor de gestionare a datelor și adoptarea unei arhitecturi complete de date de tip enterprise
3.  Permiteți accesul de sine stătător la date
4.  Operaționalizați inteligența artificială pentru a automatiza funcțiile, a crește inovația și a genera valoare de afaceri
5.  Migrarea datelor în cloud
Cum să construim încrederea în date

Una dintre cele mai mari tendințe din acest an în ceea ce privește datele este trecerea la ”țesăturile” de date (Data fabrics). Această abordare ajută la desființarea silozurilor de date și utilizează analize avansate pentru a optimiza procesul de integrare a datelor și pentru a crea o vedere unică și conformă a datelor.

Data fabrics poate reduce eforturile de gestionare a datelor cu până la 70%. Gartner recomandă utilizarea unor tehnologii precum inteligența artificială pentru a reduce erorile umane și a diminua costurile.

Șaptezeci și nouă la sută dintre organizații au mai mult de 100 de surse de date – iar 30% au mai mult de 1.000, potrivit unui sondaj IDC din decembrie 2021 al directorilor de date la nivel global. Între timp, majoritatea organizațiilor nu și-au standardizat funcția de calitate a datelor și aproape două treimi nu au standardizat guvernanța și confidențialitatea datelor.

Organizațiile care își optimizează datele văd numeroase beneficii. Eficiența operațională a fost cu 117% mai mare, retenția clienților a fost cu 44% mai mare, profiturile au fost cu 36% mai mari, iar timpul de lansare pe piață a fost cu 33% mai rapid, potrivit sondajului IDC.

Sursă articol: www.techtarget.com/searchdatamanagement.

Pentru soluții specifice și specializate de la QQinfo, vă rugăm accesați pagina: QQsolutions.

Pentru a fi în contact cu ultimele noutăți în domeniu, soluții inedite explicate, dar și cu perspectivele noastre personale în ceea ce privește lumea managementului, a datelor și a analiticelor, vă recomandăm QQblog-ul !