I.

Introducere în noțiunea de „Big Data”

Astfel cum am constatat pe tot cuprinsul cursului, datele joacă un rol esențial în societatea noastră și ne permit să înțelegem lumea din jurul nostru. În ultimele decenii, explozia internetului și a serviciilor Web 2.0, precum și a dispozitivelor mobile și a senzorilor, a condus la crearea de seturi enorme de date.

Combinația dintre un „torent ascendent” de date generate și disponibilitatea tehnologiilor de calcul la cerere (precum „cloud computing”) au avut drept consecință dezvoltarea conceptului de „Big Data” referitor la datele care depășesc capacitatea de prelucrare a sistemelor de baze de date convenționale.

Definiții privind „Big Data”

„Big Data” se definește în mod obișnuit drept „volume mari de date produse foarte rapid de către un număr mare de surse diverse”.

Definițiile privind „Big Data” sunt subiective în termeni de cât de mare ar trebui să fie un set de date pentru a fi considerat „Big Data”. Nu există nicio referire la numărul de bytes, care este modalitatea prin care măsurăm, de obicei, datele (de exemplu, gigabytes). Deoarece tehnologia progresează rapid, și din ce în ce mai multe dispozitive se conectează la internet, crește, de asemenea, cantitatea de date care se creează.

Dimensiunea seturilor de date care se califică drept „Big Data” ar putea crește în timp. De asemenea, ceea ce este „Big” (mare) pentru o organizație, un sector sau o țară poate fi mic pentru o alta, gândiți-vă la Apple prin comparație cu o întreprindere mică, sau la Portugalia prin comparație cu China.

Exemplu

Noi lăsăm urme enorme de date după noi

În 2020, am experimentat una dintre cele mai mari și mai extinse provocări la nivel global, nemaiîntâlnită niciodată până atunci. Eram deja „conectați”, însă, în mod abrupt, orice aspect al vieții noastre, de la gimnastica individuală la lucru și studiu, s-a mutat în mediul online. S-au închis magazinele, sălile de sport, birourile, restaurantele și cinematografele. Singurul mod de a lucra (pentru cei care n-au fost în linia întâi), de a studia, de a comunica, de a cumpăra mobilă, de a socializa sau de a ne uita la un film, a fost prin intermediul internetului. Nici măcar n-am mai putut să ne vizităm și să ne îmbrățișăm cu membrii familiilor noastre.

Această situație a făcut ca lumea să devină și mai digitizată. În orice zi, oricare dintre noi putea:

  • Să comunice cu ajutorul mesajelor pe WhatsApp

  • Să navigheze sau să caute ceva online

  • Să cumpere alimente, servicii sau echipamente online

  • Să distribuie o fotografie drăguță cu prietenul nostru cu blană sau un document de lucru

  • Să se uite la un serial pe Netflix sau Amazon Prime Video înainte de a merge la culcare

  • Să asculte muzică de pe SoundCloud, Spotify sau de pe YouTube

  • Să cumpere și să citească o carte sau de pe un cititor de cărți digitale

Multiplicați toate cele de mai sus cu milioanele de utilizatori care își folosesc telefoanele sau computerele (sau pe ambele!) în fiecare zi.

Pictograme de date care apar în urma pașilor pe sol
Pictograme de date care apar în urma pașilor pe sol

Amprenta dumneavoastră digitală

Aproape orice acțiune întreprindem astăzi lasă o urmă digitală. Generăm date ori de câte ori ne transportăm telefoanele inteligente echipate cu senzori, ori de câte ori căutăm ceva online, ori de câte ori comunicăm cu familia sau cu prietenii cu ajutorul platformelor de comunicare socială sau al aplicațiilor de „chat” și ori de câte ori facem cumpărături. Lăsăm amprente digitale odată cu orice acțiune digitală, și uneori chiar fără să conștientizăm sau în mod involuntar.

V-ați întrebat vreodată cum de întreprinderi ca Amazon, Spotify sau Netflix știu ce „v-ar mai plăcea și...”? Motoarele de recomandări sunt o aplicație obișnuită a „Big Data”. Amazon, Netflix și Spotify utilizează algoritmi bazați pe „Big Data” pentru a face recomandări specifice bazate pe preferințele dumneavoastră și pe comportamentul dumneavoastră istoric. Siri și Alexa se bazează pe „Big Data” pentru a răspunde la o varietate de întrebări pe care le pot pune utilizatorii. Google poate în prezent să facă recomandări bazate pe „Big Data” de pe dispozitivul unui utilizator. Însă cum influențează aceste recomandări modul în care vă petreceți timpul, ce produse cumpărați, ce opinii citiți? De ce investesc aceste întreprinderi mari atât de mulți bani în ele? Doar vă cunosc, sau vă și influențează? Deși sistemele de recomandare constituie până la o treime din tot traficul de pe multe site-uri populare, nu știm ce putere au acestea să ne influențeze deciziile.

Exemplu

Ce știe telefonul dumneavoastră despre dumneavoastră?

V-ați întrebat vreodată ce știe telefonul dumneavoastră inteligent despre dumneavoastră, despre comportamentul dumneavoastră, sentimentele dumneavoastră, starea dumneavoastră de spirit sau de sănătate? Telefoanele inteligente au mulți senzori puternici care generează în mod continuu date despre dumneavoastră, făcându-vă astfel viața mai ușoară. Unde este linia de demarcație între viața privată și protecția datelor cu caracter personal și confortul personal? Dumneavoastră trebuie să analizați și să decideți.

„Big Data” combină date structurate, semi-structurate și nestructurate din care se pot extrage informații și care se pot utiliza cu învățarea automată, analiza predictivă și cu orice alte aplicații avansate de analiză. Datele structurate sunt date care pot fi aranjate în șiruri sau coloane, sau baze de date relaționale; iar datele nestructurate sunt date care nu sunt organizate într-un mod predefinit, de exemplu, Tweets, posturi pe bloguri, imagini, numere și chiar date video.

Organizațiile folosesc sisteme specifice pentru stocarea și procesarea „Big Data”, ceea ce se numește arhitectură de management a datelor.

Caracteristicile „Big Data”

Caracterizarea cea mai acceptată în general a „Big Data” îi urmează pe cei trei „V”, la care a ajuns Doug Laney în 2001: volumul mare de date care se generează, varietatea extinsă a tipurilor de date stocate și prelucrate în sistemele de tip „Big Data” și viteza cu care se generează, colectează și prelucrează datele. S-au adăugat și veridicitatea, valoarea și variabilitatea pentru a îmbogăți descrierea „Big Data”.

  • Volum înseamnă cantitatea de date care se generează/colectează în fiecare moment în lumea noastră extrem de digitizată, și care este măsurat în bytes (terabytes, exabytes, zettabytes). După cum vă puteți imagina, există multe provocări ca urmare a volumelor enorme de date, cum ar fi stocarea, distribuția și procesarea. Provocările înseamnă cost, scalabilitate și performanță. Volumul mai este influențat și de creșterea surselor de date (mai mulți oameni în online), rezoluții mai mari (senzori) și infrastructură scalabilă.

Note

Zilnic se creează 2,5 cvintilioane de bytes de date. Este egal cu 10 milioane de discuri Blu-ray zilnic. 95 de milioane de fotografii și video sunt distribuite zilnic pe Instagram, se trimit 306,4 miliarde de emailuri, și se postează 5 milioane de Tweets. Există 4,57 miliarde de utilizatori activi de internet la nivel mondial. Toate dispozitivele noastre generează, colectează și stochează date.

  • Viteza se referă la viteza cu care se generează datele, non-stop, cu streaming în timp real sau aproape și care sunt procesate cu ajutorul tehnologiilor locale sau bazate pe „cloud”.

Note

În fiecare secundă, o oră de video este încărcată pe YouTube.

  • Varietatea este diversitatea datelor. Se pun la dispoziție date în forme diferite, precum text, imagini, tweets sau date geospațiale. De asemenea, datele provin din surse diferite, precum computerele, oamenii, procesele organizaționale (atât interne, cât și externe). Factorii sunt tehnologiile mobile, platformele de comunicare socială, tehnologiile la purtător, geotehnologiile, video și mulți, mulți alții. Printre atribute se includ gradul de structură și complexitate.

  • Veridicitatea se referă la conformitatea cu faptele și precizia. Veridicitatea se mai referă, de asemenea, la calitatea și originea datelor. Printre atribute se includ consecvența, exhaustivitatea, integritatea și ambiguitatea. Factorii includ costul și necesitatea trasabilității. Date fiind volumul ridicat, viteza și varietatea datelor create, trebuie să ne pune întrebarea: informațiile sunt reale sau false?

Există mai mulți „V” emergenți, dar noi nu vom mai menționa decât încă unul, valoare. Acesta se referă la capacitatea noastră și la necesitatea de a transforma datele în valoare. Valoare nu înseamnă doar profit. Poate fi conexă securității și siguranței (precum informațiile seismice), poate fi medicală (dispozitivele la purtător care pot identifica semnele unui atac de inimă) sau poate avea avantaje sociale, precum satisfacția angajatului sau satisfacția personală. „Big Data” are o mare valoare intrinsecă ce poate prelua multe forme.

Literele „V” nu fac doar să caracterizeze „Big Data”, mai simbolizează și provocările acestui concept: volume enorme de date, disponibile în formate diferite, în mare parte nestructurate, cu calitate care variază, care necesită procesare rapidă pentru luarea de decizii foarte oportune.

De ce și cum se analizează „Big Data”?

Se consideră că 80 % dintre date nu sunt structurate. Cum obținem cunoștințe fiabile și precise? Datele trebuie filtrate, clasificate, analizate și vizualizate.

Analiza „Big Data” este procesul tehnologic de examinare a „Big Data” (volum ridicat, viteză ridicată și/sau seturi de date de o varietate ridicată) pentru a dezvălui informații - tipare ascunse, corelări, tendințe ale pieței sau/și preferințe ale clienților - care ajută organizațiile, guvernele sau instituțiile să examineze seturi de date și să obțină cunoștințe pentru a lua decizii în cunoștință de cauză, mai inteligente și mai rapide.

Acest proces abordează trei întrebări importante: „ce”, „de ce” și „cum”. Deja am aflat mai multe despre „ce”, prin urmare vom obține acum o perspectivă generală cu privire la „de ce” și „cum”.

„De ce” și „cum” în legătură cu „Big Data”

„Big Data” urmează principiul potrivit căruia „cu cât știi mai multe despre ceva, cu atât mai fiabile vor fi noile cunoștințe pe care le poți dobândi și predicțiile pe care le vei face despre ceea ce se va întâmpla în viitor.”

Un ciclu de viață a managementului datelor obișnuit include ingerarea, stocarea, procesarea, analiza, vizualizarea, distribuirea și aplicațiile. Tehnologiile de tip „cloud” și „Big Data” merg mână în mână, analiza datelor având loc la nivelul serviciilor publice din „cloud”. Întreprinderi precum Amazon, Microsoft și Google oferă servicii de tip „cloud” care permit o implementare rapidă a unor volume masive de putere de calcul, astfel încât întreprinderile să poată avea acces la cele mai noi generații de calcul la cerere, fără a fi proprietare pe infrastructura necesară, și să poată derula întregul ciclu de viață a managementului datelor în „cloud”. În secțiunea anterioară am vorbit despre SaaS, IaaS și PaaS – prin care sistemele de tip „cloud computing” le oferă cercetătorilor în domeniul „Big Data” oportunitatea de a avea acces la orice ca serviciu (XaaS).

Pre-procesarea

Datele primare pot conține erori sau pot avea valori de o calitate scăzută (valori lipsă, valori aberante, zgomot, valori inconsecvente) și ar putea fi necesar să fie pre-procesate (curățarea, fuziunea, transformarea și reducerea datelor) pentru eliminarea zgomotului, corectarea datelor sau reducerea dimensiunii acestora. De exemplu, pentru analiza comportamentului de utilizare a apei, pre-procesarea datelor este necesară pentru ca datele de la apometrele inteligente să devină tipare utile de consum al apei deoarece senzorii IoT pot să nu înregistreze date.

Grafice cu tipare de date
Grafice cu tipare de date

Identificarea tiparelor sau a cunoștințelor

Procesul automatizat din spatele „Big Data” implică construirea de modele bazate pe datele colectate și pe derularea simulărilor, modificarea valorii punctelor de date pentru a observa în ce mod aceasta are impact asupra rezultatelor noastre. Tehnologia de analiză avansată pe care o avem în prezent la dispoziție poate opera milioane de simulări, modificând variabilele în încercarea de a identifica tipare sau cunoștințe (identificarea de corelări între variabile) care ar putea oferi un avantaj competitiv sau care ar putea soluționa o problemă. Analiza comportamentală se concentrează pe acțiunile oamenilor, iar analiza predictivă caută să identifice tipare care pot fi de ajutor la anticiparea tendințelor.

Exemplu

Drept exemplu, să analizăm inteligența antreprenorială (BI). BI este procesul de analiză a datelor cu obiectivul de a furniza informații operative care să ajute cadrele de conducere, managerii și lucrătorii să ia decizii antreprenoriale în cunoștință de cauză. Inteligența antreprenorială se concentrează pe operațiunile comerciale și pe performanță. Datele necesare pentru BI sunt diferite, mai elaborate. Sistemele de tip „Big Data” au date primare care trebuie filtrate și îngrijite înainte de a fi încărcate și analizate în scopuri de BI. De asemenea, instrumentele utilizate sunt diferite, din moment ce obiectivul și datele sunt diferite.

Mineritul datelor

Procesul de descoperire a tiparelor din seturile de date enorme cu implicarea analizei statistice se numește mineritul datelor. Analiza statistică este o metodă matematică obișnuită de extragere și descoperire a informațiilor. Metodele statistice sunt formule, modele și tehnici matematice folosite pentru identificarea tiparelor și a regulilor pe baza datelor primare. Metodele folosite în mod obișnuit sunt analiza regresivă, analiza spațio-temporală, regulile de asociere, clasificarea, gruparea și învățarea profundă.

Exemplu

Un exemplu de utilizare practică a „Big Data” se constată la datele telefoanelor mobile. Datele de utilizare de la senzorii telefonului se pot folosi pentru asigurarea bazată pe utilizare (UBI). Sparkbit oferă o asigurare personalizată șoferilor în funcție de comportamentul acestora. Sistemul acestora folosește informațiile de la telefoanele mobile pentru a evalua tehnica și comportamentul de șofat. În martie 2018, aceștia au acumulat 330 de milioane de kilometri de rute istorice parcurse de utilizatorii sistemului lor. Au 30 000 de utilizatori noi activi pe lună, fiecare înregistrând o medie de 70 de rute noi. Se creează pentru fiecare drum o secvență de puncte pe baza GPS (coordonate geografice, precizia poziției estimate, viteza autovehiculului sau direcția în care merge autovehiculul). Sistemul stochează datele, le procesează și analizează comportamentul șoferului (cum ar fi manevrele periculoase), și emite un punctaj pentru drum și pentru șofer.

Pentru a înțelege datele disponibile, se folosesc în mod obișnuit analize de ultimă generație, care implică inteligența artificială și învățarea automată. Cu ajutorul învățării automate, computerele pot învăța să identifice ce reprezintă diferitele date de intrare sau combinațiile de date de intrare, identificând tipare mult mai rapid și mai eficient decât oamenii.

Next section
II. Aplicații și implicații ale „Big Data”