Kao što smo vidjeli tijekom cijelog tečaja, podaci igraju ključnu ulogu u našem društvu i omogućavaju nam da razumijemo svijet oko nas. Posljednjih nekoliko desetljeća nagli razvoj interneta i usluga na Webu 2.0, kao i mobilnih uređaja i senzora, doveo je do nastanka masivnih skupova podataka.
Kombinacija „rastuće bujice“ podataka koji se generiraju i dostupnosti računalnih tehnologija na zahtjev (poput računalstva u oblaku) dovela je do razvoja koncepta velikih podataka, koji označava podatke koji premašuju kapacitet obrade konvencionalnih sustava baza podataka.
Definicije velikih podataka
Veliki podaci obično se definiraju kao „velike količine podataka koje vrlo brzo stvara veliki broj različitih izvora“.
Definicije velikih podataka su subjektivne u smislu načina na koji bi se veliki skup podataka trebao smatrati velikim podacima. Taj pojam ne odnosi se na broj bajtova, kako obično mjerimo podatke (na primjer, u gigabajtima). S ubrzanim napretkom tehnologije, sve više i više uređaja povezuje se s internetom pa se time povećava i količina podataka koji se stvaraju.
Veličina skupova podataka koji se mogu ubrojiti u velike podatke također se može s vremenom povećavati. Pored toga, ono što je za jednu organizaciju, sektor ili zemlju „veliko“, za drugu može biti malo, npr. Apple u usporedbi s malim poduzećem ili Portugal u usporedbi s Kinom.
Ostavljamo ogromne tragove podataka
Godine 2020. doživjeli smo jedan od najvećih i najglobalnijih izazova koje smo ikada iskusili. Već smo bili „povezani“ ali se odjednom svaki aspekt našega života, od vježbanja do posla i učenja, premjestio na mrežu. Zatvorene su trgovine, teretane, uredi, restorani i kina. Jedini način na koji smo mogli raditi (oni koji nisu izravno bili u doticaju s virusom), učiti, komunicirati, kupovati namještaj, družiti se ili gledati film bilo je putem interneta. Nismo čak mogli posjećivati naše obitelji i zagrliti ih.
Ta je situacija dovela do još veće digitizacije svijeta. U jednom danu, bilo tko od nas mogao je:
komunicirati putem poruka na WhatsAppu,
pregledavati ili pretraživati nešto na mreži,
kupovati namirnice, usluge ili opremu na mreži,
podijeliti slatku fotografiju svojeg krznenog prijatelja ili poslovni dokument,
pogledati seriju na platformama Netflix ili Amazon Prime Video prije odlaska na spavanje,
slušati glazbu na platformama SoundCloud, Spotify ili YouTube,
kupiti i pročitati knjigu na e-čitaču.
Pomnožite to s milijunima korisnika koji svakoga dana koriste svoje telefone ili računala (ili oboje!).
Vaš digitalni trag (engl. digital footprint)
Gotovo svaka radnja koju danas poduzmemo ostavlja digitalni trag. Generiramo podatke kad god nosimo svoje pametne telefone opremljene senzorima, kada pretražujemo nešto na mreži, kada komuniciramo s našom obitelji ili prijateljima putem društvenih medija ili aplikacija za čavrljanje i kada kupujemo. Svaka digitalna radnja ostavlja digitalne tragove, a ponekad to činimo nesvjesno ili nesvojevoljno.
Jeste li se ikada zapitali kako tvrtke poput Amazona, Spotifyja ili Netflixa znaju što „vas možda zanima“? Jedna od uobičajenih primjena velikih podataka su pretraživači preporuka. Amazon, Netflix i Spotify koriste algoritme koji se temelje na velikim podacima kako bi vam predložili točno određene preporuke ovisno o vašim preferencijama i prijašnjem ponašanju. Siri i Alexa oslanjaju se na velike podatke prilikom pružanja odgovora na niz pitanja koje korisnici mogu pitati. Google sada može ponuditi preporuke na temelju velikih podataka na korisnikovom uređaju. Ali kako te preporuke utječu na način na koji provodite svoje slobodno vrijeme, proizvode koje kupujete i stavove o kojima čitate? Zašto te velike tvrtke ulažu ogromne količine novca u njih? Znaju li one samo za vas ili ujedno i utječu na vas? Iako sustavi za pružanje preporuka čine do jedne trećine cjelokupnog prometa na mnogim popularnim mjestima, mi nismo svjesni njihove moći utjecanja na naše odluke.
Što vaš telefon zna o vama?
Jeste li se ikada zapitali što vaš pametni telefon zna o vama, o vašem ponašanju, osjećajima, raspoloženju ili zdravstvenom stanju? Pametni telefoni imaju brojne moćne senzore koji neprestano generiraju podatke o vama i olakšavaju vam život. Gdje je granica između privatnosti i zaštite podataka i praktičnosti? Na vama je da razmislite i odlučite o tome.
Veliki podaci obuhvaćaju strukturirane, polustrukturirane i nestrukturirane podatke koji se mogu analizirati u svrhu dobivanja informacija te koristiti za strojno učenje, prediktivnu analizu i druge aplikacije za naprednu analizu. Strukturirani podaci su podaci koji se mogu rasporediti u redove i stupce, ili relacijske baze podataka, dok su nestrukturirani podaci oni podaci koji nisu organizirani na prethodno određeni način. Na primjer, to su objave na Twitteru, objave na blogovima, slike, brojevi, pa čak i podaci iz videozapisa.
Organizacije koriste posebne sustave za pohranu i obradu velikih podataka, što se naziva arhitektura za upravljanje podacima.
Obilježja velikih podataka
Najšire prihvaćen opis obilježja velikih podataka osmislio je Doug Laney 2001. godine, a uključuje tri riječi koje u engleskom jeziku počinju slovom v: veliki volumen (engl. volume) podataka koji se generiraju, velika raznovrsnost (engl. variety) podataka koji se pohranjuju i obrađuju u sustavima velikih podataka i brzina(engl. velocity) pri kojoj se podaci generiraju, prikupljaju i obrađuju. Dodane su i riječi vjerodostojnost, vrijednost i varijabilnost (engl. veracity, value, variability) kako bi se proširio opis velikih podataka.
Volumen označava količinu podataka koji se generiraju/prikupljaju svakoga trenutka u našem izrazito digitiziranom svijetu, mjereno u bajtovima (terabajti, eksabajti, zetabajti). Kao što možete zamisliti, golemi volumeni podataka dovode do brojnih izazova, poput pohrane, raspodjele i obrade. Izazovi uključuju trošak, skalabilnost i učinak. Na volumen također utječe sve veći broj izvora podataka (više ljudi na mreži), povećanje rezolucije (senzori) i skalabilna infrastruktura.
Svakoga dana stvara se 2,5 kvintilijuna bajtova podataka. To je jednako 10 milijuna Blu-ray diskova svakoga dana. Svakodnevno se na Instagramu podijeli 95 milijuna fotografija i videozapisa, pošalje se 306,4 milijardi e-poruka i objavi se 5 milijuna objava na Twitteru. Na svijetu postoji 4,57 milijardi aktivnih korisnika interneta. Svi naši uređaji generiraju, prikupljaju i pohranjuju podatke.
Brzina se odnosi na brzinu pri kojoj se podaci neprestano generiraju, prenose strujanjem gotovo u stvarnom vremenu ili u stvarnom vremenu i obrađuju s pomoću lokalnih tehnologija i tehnologija u oblaku.
Svake sekunde jedan sat videozapisa prenese se na YouTube.
Raznovrsnost je raznolikost podataka. Podaci su dostupni u različitim formatima kao što su tekst, slike, objave na Twitteru ili geoprostorni podaci. Podaci također dolaze iz različitih izvora, kao što su računala, ljudi, organizacijski procesi (unutarnji i vanjski). Čimbenici koji utječu na raznovrsnost su mobilne tehnologije, društveni mediji, nosive tehnologije, geotehnologije, videozapisi i mnogi drugi. Svojstva uključuju stupanj strukture i složenosti.
Vjerodostojnost označava usklađenost s činjenicama i točnost. Vjerodostojnost također uključuje i kvalitetu i podrijetlo podataka. Svojstva uključuju dosljednost, cjelovitost, integritet i višeznačnost. Čimbenici koji utječu na vjerodostojnost uključuju cijenu i potrebu osiguranja sljedivosti. Uz veliki volumen, brzinu i raspon podataka koji nastaju, moramo se zapitati ovo: je li informacija stvarna ili lažna?
Opisu se pridružuju i nove riječi koje počinju slovom V, ali navest ćemo samo još jednu, vrijednost. Ona se odnosi na našu sposobnost i potrebu pretvaranja podataka u vrijednost. Vrijednost ne označava samo dobit. Ona može biti povezana s prednostima u području sigurnosti i zaštite (poput informacija o potresima), medicinskim prednostima (uređaji za nošenje koji mogu prepoznati znakove srčanog udara) ili društvenim prednostima kao što su zadovoljstvo zaposlenika ili osobno zadovoljstvo. Veliki podaci imaju veliku stvarnu vrijednost koja može poprimati različite oblike.
Navedene riječi nisu samo opis obilježja velikih podataka, već one i utjelovljuju izazove: goleme količine podataka, dostupne u različitim formatima, uglavnom nestrukturirane, neujednačene kvalitete, koje zahtijevaju brzu obradu u svrhu donošenja pravovremenih odluka.
Zašto i kako se analiziraju veliki podaci?
Smatra se da je 80 % podataka nestrukturirano. Kako možemo steći pouzdane i točne uvide? Podaci se moraju filtrirati, kategorizirati, analizirati i vizualizirati.
Analiza velikih podataka je tehnološki proces proučavanja velikih podataka (skupova podataka velikog volumena, brzine i/ili raspona) da bi se pronašle informacije (skriveni obrasci, korelacije, tržišni trendovi ili/i želje klijenata). Ona pomaže organizacijama, vladama ili institucijama da proučavaju skupove podataka i steknu uvide kako bi donijeli informirane, bolje i brže odluke.
Time dobivamo odgovor na tri važna pitanja: što, zašto i kako. Već smo dobili odgovor na pitanje „što“, a sada ćemo razmotriti odgovore na pitanja „zašto“ i „kako“.
„Zašto“ i „kako“ velikih podataka
Veliki podaci funkcioniraju prema načelu „što više znate o nečemu, pouzdanije možete steći nove uvide i možete predviđati što će se događati u budućnosti”.
Uobičajen životni ciklus upravljanja podacima uključuje učitavanje, pohranu, obradu, analizu, vizualizaciju, dijeljenje i primjene. Oblak i veliki podaci idu ruku pod ruku, a analiza podataka odvija se u uslugama u javnom oblaku. Tvrtke poput Amazona, Microsofta i Googlea nude usluge u oblaku koje omogućuju brzu implementaciju golemih količina računalne snage tako da tvrtke mogu pristupiti najsuvremenijem računalstvu na zahtjev, a da pritom ne moraju posjedovati nužnu infrastrukturu te se čitav životni ciklus upravljanja podacima odvija u oblaku. U prethodnim dijelovima govorili smo o SaaS-u, IaaS-u i PaaS-u. Računalstvo u oblaku nudi osobama koje istražuju velike podatke mogućnost pristupa svemu kao usluzi (engl. anything as a service, XaaS).
Predobrada
Neobrađeni podaci mogu sadržavati pogreške ili imati vrijednosti niske kvalitete (vrijednosti koje nedostaju, netipične vrijednosti, nepotrebne vrijednosti, nedosljedne vrijednosti) koje će se možda morati predobraditi (čišćenje podataka, povezivanje, pretvorba i smanjenje) kako bi se uklonile nepotrebne vrijednosti, ispravili podaci ili smanjila njihova veličina. Primjerice, kod bihevioralne analize potrošnje vode, predobrada podataka nužna je kako bi se pametni podaci o vodomjeru pretvorili u korisne obrasce o potrošnji vode jer se može dogoditi da IoT senzori propuste zabilježiti podatke.
Utvrđivanje obrazaca ili uvida
Automatizirani proces koji stoji iza velikih podataka uključuje modele za izgradnju koji se temelje na prikupljenim podacima i izvođenju simulacija. Pri tome mijenja vrijednost podatkovnih točaka da bi se uvidjelo kako to utječe na naše rezultate. Napredna analitička tehnologija koja nam je danas dostupna može upravljati milijunima simulacija, prilagođavajući varijable u potrazi za utvrđivanjem obrazaca ili uvida (traženje korelacija među varijablama) koje bi mogle pružiti konkurentsku prednost ili riješiti problem. Bihevioralna analiza usmjerena je na postupke ljudi, dok prediktivna analiza traži obrasce koji mogu pomoći u predviđanju trendova.
Uzmimo za primjer poslovno obavještavanje (engl. business intelligence, BI). Poslovno obavještavanje je proces analiziranja podataka s ciljem davanja konkretnih informacija koje pomažu rukovoditeljima, voditeljima i djelatnicima da donose informirane poslovne odluke. Poslovno obavještavanje usmjereno je na poslovne aktivnosti i poslovni učinak. Podaci koji su potrebni za poslovno obavještavanje razlikuju se te su složeniji. Sustavi velikih podataka imaju neobrađene podatke koji se trebaju filtrirati i prirediti prije nego što se učitaju i analiziraju za potrebe poslovnog obavještavanja. Budući da se cilj i podaci razlikuju, razlikuju se i alati koji se koriste.
Dubinska analiza podataka (engl. data mining)
Proces otkrivanja obrazaca u velikim skupovima podataka uključuje statističku analizu koja se naziva dubinska analiza podataka. Statistička analiza je uobičajena matematička metoda za crpljenje i otkrivanje informacija. Statističke metode su matematičke formule, modeli i tehnike koje se koriste za pronalaženje obrazaca i pravila u neobrađenim podacima. Metode koje se najčešće koriste su regresijska analiza, prostorno-vremenska analiza, pravila za udruživanje, klasifikacija, klasteriranje i duboko učenje.
Možemo vidjeti primjer praktične uporabe velikih podataka u podacima na mobilnim telefonima. Podaci o korištenju telefonskih senzora mogu se upotrijebiti za osiguranje utemeljeno na korištenju (engl. usage-based insurance, UBI). Sparkbit nudi vozačima prilagođenu ponudu za osiguranje koja se temelji na njihovom ponašanju. Njihov sustav koristi informacije iz pametnih telefona da bi procijenio tehniku i ponašanje u vožnji. U ožujku 2018. godine prikupljeno je 330 milijuna kilometara ruta koje su prešli korisnici njihovog sustava. Svakoga mjeseca imaju 30.000 novih aktivnih korisnika, od kojih svaki registrira u prosjeku 70 novih ruta. Niz GPS točaka (geografske koordinate, procijenjena točnost položaja, brzina vozila ili smjer u kojem se vozilo kreće) stvara se za svaku vožnju. Sustav pohranjuje podatke, obrađuje ih i analizira ponašanje vozača (kao što je opasna vožnja) te izdaje bodovni rezultat za rutu i vozača.
Da bi se dostupni podaci mogli razumjeti, često se koristi najsuvremenija analiza koja uključuje umjetnu inteligenciju i strojno učenje. Uz pomoć strojnog učenja, računala mogu naučiti prepoznati što predstavljaju različiti unosi podataka ili kombinacije unosa podataka, te pritom prepoznaju obrasce mnogo brže i učinkovitije od ljudi.