Skip to main content

I.
Introducere în noțiunea de „Big Data”

Astfel cum am constatat pe tot cuprinsul cursului, datele joacă un rol esențial în societatea noastră și ne permit să înțelegem lumea din jurul nostru. În ultimele decenii, explozia internetului și a serviciilor Web 2.0, precum și a dispozitivelor mobile și a senzorilor, a condus la crearea de seturi enorme de date.

Combinația dintre un „torent ascendent” de date generate și disponibilitatea tehnologiilor de calcul la cerere (precum „cloud computing”) au avut drept consecință dezvoltarea conceptului de „Big Data” referitor la datele care depășesc capacitatea de prelucrare a sistemelor de baze de date convenționale.

Definiții privind „Big Data”

„Big Data” se definește în mod obișnuit drept „volume mari de date produse foarte rapid de către un număr mare de surse diverse”.

Definițiile privind „Big Data” sunt subiective în termeni de cât de mare ar trebui să fie un set de date pentru a fi considerat „Big Data”. Nu există nicio referire la numărul de bytes, care este modalitatea prin care măsurăm, de obicei, datele (de exemplu, gigabytes). Deoarece tehnologia progresează rapid, și din ce în ce mai multe dispozitive se conectează la internet, crește, de asemenea, cantitatea de date care se creează.

Dimensiunea seturilor de date care se califică drept „Big Data” ar putea crește în timp. De asemenea, ceea ce este „Big” (mare) pentru o organizație, un sector sau o țară poate fi mic pentru o alta, gândiți-vă la Apple prin comparație cu o întreprindere mică, sau la Portugalia prin comparație cu China.

Pictograme de date care apar în urma pașilor pe sol
Pictograme de date care apar în urma pașilor pe sol

Amprenta dumneavoastră digitală

Aproape orice acțiune întreprindem astăzi lasă o urmă digitală. Generăm date ori de câte ori ne transportăm telefoanele inteligente echipate cu senzori, ori de câte ori căutăm ceva online, ori de câte ori comunicăm cu familia sau cu prietenii cu ajutorul platformelor de comunicare socială sau al aplicațiilor de „chat” și ori de câte ori facem cumpărături. Lăsăm amprente digitale odată cu orice acțiune digitală, și uneori chiar fără să conștientizăm sau în mod involuntar.

V-ați întrebat vreodată cum de întreprinderi ca Amazon, Spotify sau Netflix știu ce „v-ar mai plăcea și...”? Motoarele de recomandări sunt o aplicație obișnuită a „Big Data”. Amazon, Netflix și Spotify utilizează algoritmi bazați pe „Big Data” pentru a face recomandări specifice bazate pe preferințele dumneavoastră și pe comportamentul dumneavoastră istoric. Siri și Alexa se bazează pe „Big Data” pentru a răspunde la o varietate de întrebări pe care le pot pune utilizatorii. Google poate în prezent să facă recomandări bazate pe „Big Data” de pe dispozitivul unui utilizator. Însă cum influențează aceste recomandări modul în care vă petreceți timpul, ce produse cumpărați, ce opinii citiți? De ce investesc aceste întreprinderi mari atât de mulți bani în ele? Doar vă cunosc, sau vă și influențează? Deși sistemele de recomandare constituie până la o treime din tot traficul de pe multe site-uri populare, nu știm ce putere au acestea să ne influențeze deciziile.

„Big Data” combină date structurate, semi-structurate și nestructurate din care se pot extrage informații și care se pot utiliza cu învățarea automată, analiza predictivă și cu orice alte aplicații avansate de analiză. Datele structurate sunt date care pot fi aranjate în șiruri sau coloane, sau baze de date relaționale; iar datele nestructurate sunt date care nu sunt organizate într-un mod predefinit, de exemplu, Tweets, posturi pe bloguri, imagini, numere și chiar date video.

Organizațiile folosesc sisteme specifice pentru stocarea și procesarea „Big Data”, ceea ce se numește arhitectură de management a datelor.

Caracteristicile „Big Data”

Caracterizarea cea mai acceptată în general a „Big Data” îi urmează pe cei trei „V”, la care a ajuns Doug Laney în 2001: volumul mare de date care se generează, varietatea extinsă a tipurilor de date stocate și prelucrate în sistemele de tip „Big Data” și viteza cu care se generează, colectează și prelucrează datele. S-au adăugat și veridicitatea, valoarea și variabilitatea pentru a îmbogăți descrierea „Big Data”.

  • Volum înseamnă cantitatea de date care se generează/colectează în fiecare moment în lumea noastră extrem de digitizată, și care este măsurat în bytes (terabytes, exabytes, zettabytes). După cum vă puteți imagina, există multe provocări ca urmare a volumelor enorme de date, cum ar fi stocarea, distribuția și procesarea. Provocările înseamnă cost, scalabilitate și performanță. Volumul mai este influențat și de creșterea surselor de date (mai mulți oameni în online), rezoluții mai mari (senzori) și infrastructură scalabilă.

  • Viteza se referă la viteza cu care se generează datele, non-stop, cu streaming în timp real sau aproape și care sunt procesate cu ajutorul tehnologiilor locale sau bazate pe „cloud”.

  • Varietatea este diversitatea datelor. Se pun la dispoziție date în forme diferite, precum text, imagini, tweets sau date geospațiale. De asemenea, datele provin din surse diferite, precum computerele, oamenii, procesele organizaționale (atât interne, cât și externe). Factorii sunt tehnologiile mobile, platformele de comunicare socială, tehnologiile la purtător, geotehnologiile, video și mulți, mulți alții. Printre atribute se includ gradul de structură și complexitate.

  • Veridicitatea se referă la conformitatea cu faptele și precizia. Veridicitatea se mai referă, de asemenea, la calitatea și originea datelor. Printre atribute se includ consecvența, exhaustivitatea, integritatea și ambiguitatea. Factorii includ costul și necesitatea trasabilității. Date fiind volumul ridicat, viteza și varietatea datelor create, trebuie să ne pune întrebarea: informațiile sunt reale sau false?

Există mai mulți „V” emergenți, dar noi nu vom mai menționa decât încă unul, valoare. Acesta se referă la capacitatea noastră și la necesitatea de a transforma datele în valoare. Valoare nu înseamnă doar profit. Poate fi conexă securității și siguranței (precum informațiile seismice), poate fi medicală (dispozitivele la purtător care pot identifica semnele unui atac de inimă) sau poate avea avantaje sociale, precum satisfacția angajatului sau satisfacția personală. „Big Data” are o mare valoare intrinsecă ce poate prelua multe forme.

Literele „V” nu fac doar să caracterizeze „Big Data”, mai simbolizează și provocările acestui concept: volume enorme de date, disponibile în formate diferite, în mare parte nestructurate, cu calitate care variază, care necesită procesare rapidă pentru luarea de decizii foarte oportune.

De ce și cum se analizează „Big Data”?

Se consideră că 80 % dintre date nu sunt structurate. Cum obținem cunoștințe fiabile și precise? Datele trebuie filtrate, clasificate, analizate și vizualizate.

Analiza „Big Data” este procesul tehnologic de examinare a „Big Data” (volum ridicat, viteză ridicată și/sau seturi de date de o varietate ridicată) pentru a dezvălui informații - tipare ascunse, corelări, tendințe ale pieței sau/și preferințe ale clienților - care ajută organizațiile, guvernele sau instituțiile să examineze seturi de date și să obțină cunoștințe pentru a lua decizii în cunoștință de cauză, mai inteligente și mai rapide.

Acest proces abordează trei întrebări importante: „ce”, „de ce” și „cum”. Deja am aflat mai multe despre „ce”, prin urmare vom obține acum o perspectivă generală cu privire la „de ce” și „cum”.

„De ce” și „cum” în legătură cu „Big Data”

„Big Data” urmează principiul potrivit căruia „cu cât știi mai multe despre ceva, cu atât mai fiabile vor fi noile cunoștințe pe care le poți dobândi și predicțiile pe care le vei face despre ceea ce se va întâmpla în viitor.”

Un ciclu de viață a managementului datelor obișnuit include ingerarea, stocarea, procesarea, analiza, vizualizarea, distribuirea și aplicațiile. Tehnologiile de tip „cloud” și „Big Data” merg mână în mână, analiza datelor având loc la nivelul serviciilor publice din „cloud”. Întreprinderi precum Amazon, Microsoft și Google oferă servicii de tip „cloud” care permit o implementare rapidă a unor volume masive de putere de calcul, astfel încât întreprinderile să poată avea acces la cele mai noi generații de calcul la cerere, fără a fi proprietare pe infrastructura necesară, și să poată derula întregul ciclu de viață a managementului datelor în „cloud”. În secțiunea anterioară am vorbit despre SaaS, IaaS și PaaS – prin care sistemele de tip „cloud computing” le oferă cercetătorilor în domeniul „Big Data” oportunitatea de a avea acces la orice ca serviciu (XaaS).

Pre-procesarea

Datele primare pot conține erori sau pot avea valori de o calitate scăzută (valori lipsă, valori aberante, zgomot, valori inconsecvente) și ar putea fi necesar să fie pre-procesate (curățarea, fuziunea, transformarea și reducerea datelor) pentru eliminarea zgomotului, corectarea datelor sau reducerea dimensiunii acestora. De exemplu, pentru analiza comportamentului de utilizare a apei, pre-procesarea datelor este necesară pentru ca datele de la apometrele inteligente să devină tipare utile de consum al apei deoarece senzorii IoT pot să nu înregistreze date.

Grafice cu tipare de date
Grafice cu tipare de date

Identificarea tiparelor sau a cunoștințelor

Procesul automatizat din spatele „Big Data” implică construirea de modele bazate pe datele colectate și pe derularea simulărilor, modificarea valorii punctelor de date pentru a observa în ce mod aceasta are impact asupra rezultatelor noastre. Tehnologia de analiză avansată pe care o avem în prezent la dispoziție poate opera milioane de simulări, modificând variabilele în încercarea de a identifica tipare sau cunoștințe (identificarea de corelări între variabile) care ar putea oferi un avantaj competitiv sau care ar putea soluționa o problemă. Analiza comportamentală se concentrează pe acțiunile oamenilor, iar analiza predictivă caută să identifice tipare care pot fi de ajutor la anticiparea tendințelor.

Mineritul datelor

Procesul de descoperire a tiparelor din seturile de date enorme cu implicarea analizei statistice se numește mineritul datelor. Analiza statistică este o metodă matematică obișnuită de extragere și descoperire a informațiilor. Metodele statistice sunt formule, modele și tehnici matematice folosite pentru identificarea tiparelor și a regulilor pe baza datelor primare. Metodele folosite în mod obișnuit sunt analiza regresivă, analiza spațio-temporală, regulile de asociere, clasificarea, gruparea și învățarea profundă.

Pentru a înțelege datele disponibile, se folosesc în mod obișnuit analize de ultimă generație, care implică inteligența artificială și învățarea automată. Cu ajutorul învățării automate, computerele pot învăța să identifice ce reprezintă diferitele date de intrare sau combinațiile de date de intrare, identificând tipare mult mai rapid și mai eficient decât oamenii.

Next section
II. Aplicații și implicații ale „Big Data”