Jak widzieliśmy w trakcie całego kursu, dane odgrywają kluczową rolę w naszym społeczeństwie i pozwalają nam zrozumieć otaczający nas świat. Przez ostatnie dziesięciolecia eksplozja Internetu i usług Web 2.0, a także urządzeń mobilnych i czujników, doprowadziła do powstania ogromnych zbiorów danych.
Połączenie "rosnącego strumienia" generowanych danych i dostępności technologii obliczeniowych na żądanie (takich jak przetwarzanie w chmurze) doprowadziło do rozwoju koncepcji big data, odnoszącej się do danych, które przekraczają możliwości przetwarzania konwencjonalnych systemów baz danych.
Definicje big data
Big data (duże zbiory danych) jest zwykle definiowane jako "duża ilość danych produkowanych w bardzo szybkim tempie przez dużą liczbę różnorodnych źródeł".
Definicje big data są subiektywne w kwestii określenia, jak duży powinien być zbiór danych, aby został uznany za big data. Nie ma tu odniesienia do liczby bajtów, czyli sposobu w jaki zazwyczaj mierzymy dane (np. gigabajty). Wraz z szybkim rozwojem technologii i coraz większej liczby urządzeń łączących się z Internetem rośnie również ilość tworzonych danych.
Rozmiar zbiorów danych, które kwalifikują się jako big data, może również rosnąć w czasie. Ponadto to, co stanowi "big data" dla jednej organizacji, sektora lub kraju, może być małe dla innej - pomyśl o firmie Apple w porównaniu z małym przedsiębiorstwem lub o Portugalii w porównaniu z Chinami.
Tworzymy ogromne ilości danych
W 2020 roku doświadczyliśmy jednego z największych i najbardziej globalnych wyzwań w historii. Byliśmy już "podłączeni", ale nagle każdy aspekt naszego życia, od ćwiczeń po pracę i naukę, został przeniesiony do sieci. Sklepy, siłownie, biura, restauracje i sale kinowe zostały zamknięte. Jedynym sposobem na pracę (dla tych, którzy nie byli na linii frontu), naukę, komunikację, zakup mebli, spotkania towarzyskie czy obejrzenie filmu był Internet. Nie mogliśmy nawet odwiedzić i uściskać naszych rodzin.
Ta sytuacja sprawiła, że świat stał się jeszcze bardziej zdigitalizowany. Codziennie każdy z nas może:
Komunikować się za pomocą wiadomości WhatsApp
Przeglądać lub szukać czegoś online
Kupować artykuły spożywcze, usługi lub sprzęt online
Podzielić się uroczym zdjęciem futrzanego przyjaciela lub dokumentem z pracy
Obejrzeć serial na Netflixie lub na Amazon Prime Video przed snem
Słuchać muzyki z SoundCloud, Spotify lub YouTube
Kupić i przeczytać książkę na e-czytniku
Pomnóż to przez miliony użytkowników, którzy codziennie korzystają ze swoich telefonów lub komputerów (albo z obu tych urządzeń!).
Twój cyfrowy ślad
Niemal każda czynność, którą dziś wykonujemy, pozostawia po sobie cyfrowy ślad. Generujemy dane za każdym razem, gdy nosimy nasze wyposażone w czujniki smartfony, gdy szukamy czegoś w Internecie, gdy komunikujemy się z rodziną lub przyjaciółmi za pomocą mediów społecznościowych lub aplikacji do czatowania, a także gdy robimy zakupy. Pozostawiamy cyfrowe ślady przy każdym cyfrowym działaniu, czasem nawet nieświadomie lub mimowolnie.
Czy zastanawialiście się, skąd firmy takie jak Amazon, Spotify czy Netflix wiedzą, co "może Ci się też spodobać"? Mechanizmy rekomendacji są typowym zastosowaniem big data. Amazon, Netflix i Spotify wykorzystują algorytmy oparte na big data do tworzenia konkretnych rekomendacji w oparciu o preferencje i historyczne zachowanie użytkownika. Siri i Alexa bazują na big data odpowiadając na różnorodne pytania, które mogą zadawać użytkownicy. Google jest teraz w stanie tworzyć rekomendacje w oparciu o big data na urządzeniu użytkownika. Ale w jaki sposób te rekomendacje wpływają na to, jak spędzasz czas, jakie produkty kupujesz, jakie opinie czytasz? Dlaczego te wielkie firmy inwestują w nie tak wiele pieniędzy? Czy one po prostu Cię znają, czy także na Ciebie wpływają? Mimo że systemy rekomendacji stanowią nawet jedną trzecią wszystkich trafień na wielu popularnych stronach, nie wiemy, jaką mają moc wpływania na nasze decyzje.
Co Twój telefon wie na Twój temat?
Czy zastanawialiście się kiedyś, co Twój smartfon wie o Tobie, o Twoim zachowaniu, uczuciach, nastroju czy sytuacji zdrowotnej? Smartfony posiadają wiele potężnych czujników, które nieustannie generują dane na Twój temat, ułatwiając Ci życie. Gdzie jest granica między prywatnością i ochroną danych a wygodą? To już musisz samodzielnie rozważyć i zdecydować.
Big data łączy w sobie dane ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane, które mogą być wykorzystywane do uczenia maszynowego, analizy predykcyjnej i innych zaawansowanych zastosowań analitycznych. Dane ustrukturyzowane to dane, które można uporządkować w wiersze i kolumny lub relacyjne bazy danych, a dane nieustrukturyzowane to dane, które nie są zorganizowane w uprzednio zdefiniowany sposób, na przykład tweety, wpisy na blogach, zdjęcia, liczby, a nawet dane wideo.
Organizacje używają specjalnych systemów do przechowywania i przetwarzania big data, które nazywa się architekturą zarządzania danymi.
Charakterystyka big data
Najszerzej akceptowana charakterystyka big data opiera się na trzech angielskich określeniach na literę ‘V’ ukutych przez Douga Laney'a w 2001 roku: duży wolumen (volume) generowanych danych, szeroka różnorodność (variety) typów danych przechowywanych i przetwarzanych w systemach big data oraz szybkość (velocity), z jaką dane są generowane, gromadzone i przetwarzane. W celu wzbogacenia opisu big data dodano również pojęcia prawdziwości, wartości i zmienności (veracity, value, variability).
Wolumen oznacza ilość danych generowanych/zbieranych w każdej chwili w naszym wysoce zdigitalizowanym świecie, mierzonych w bajtach (terabajtach, eksabajtach, zettabajtach). Jak można sobie wyobrazić, istnieje wiele wyzwań związanych z ogromną ilością danych, takich jak przechowywanie, dystrybucja i przetwarzanie. Wyzwania te dotyczą kosztów, skalowalności i wydajności. Wolumen jest również napędzany przez wzrost liczby źródeł danych (więcej osób online), wyższe rozdzielczości (czujniki) i skalowalną infrastrukturę.
Każdego dnia powstaje 2,5 kwintyliona bajtów danych. Odpowiada to 10 milionom płyt Blu-ray każdego dnia. Każdego dnia na Instagramie udostępnianych jest 95 milionów zdjęć i filmów, wysyłanych jest 306,4 miliarda e-maili i 5 milionów tweetów. Na całym świecie istnieje 4,57 miliarda aktywnych użytkowników Internetu. Wszystkie nasze urządzenia generują, gromadzą i przechowują dane.
Szybkość odnosi się do prędkości, z jaką dane są generowane, bez przerwy, przesyłane strumieniowo w czasie zbliżonym do rzeczywistego i przetwarzane przy użyciu technologii lokalnych i opartych na chmurze.
Co sekundę jedna godzina materiału video jest umieszczana na YouTube’ie.
Różnorodność to rozmaitość danych. Dane udostępniane są w różnych formach, takich jak tekst, obrazy, tweety czy dane geoprzestrzenne. Dane pochodzą również z różnych źródeł, takich jak maszyny, ludzie, procesy organizacyjne (zarówno wewnętrzne, jak i zewnętrzne). Czynnikami napędzającymi są technologie mobilne, media społecznościowe, technologie urządzeń wearables, geotechnologie, wideo i wiele, wiele innych. Atrybuty obejmują stopień struktury i złożoności.
Prawdziwość odnosi się do zgodności z faktami i dokładności. Prawdziwość to także jakość i pochodzenie danych. Atrybuty obejmują spójność, kompletność, integralność i niejednoznaczność. Czynniki sprawcze obejmują koszty i potrzebę identyfikowalności. Przy dużej ilości, szybkości i różnorodności tworzonych danych musimy zadać sobie pytanie: czy informacje są prawdziwe, czy fałszywe?
Pojawiających się określeń jest więcej, ale my wspomnimy jeszcze o tylko jednym, wartości. Odnosi się ona do naszej zdolności i potrzeby przekształcania danych w wartość Wartość nie oznacza tylko zysku. Może być związana z bezpieczeństwem i ochroną (np. informacje sejsmiczne), medycyną (urządzenia typu wearables, które mogą zidentyfikować oznaki zawału serca) lub korzyściami społecznymi, takimi jak satysfakcja pracownika lub osobista. Big data posiada dużą wartość wewnętrzną, która może przybierać różne kształty.
Wymienione wyżej określenia nie tylko charakteryzują big data, ale także ucieleśniają wyzwania z nimi związane: ogromne ilości danych, dostępnych w różnych formatach, w dużej mierze nieustrukturyzowanych, o różnej jakości, które wymagają szybkiego przetwarzania w celu podejmowania trafnych decyzji.
Dlaczego i w jaki sposób analizowane jest big data?
80% danych uważa się za nieustrukturyzowane. Jak uzyskać wiarygodne i dokładne wyniki? Dane muszą zostać przefiltrowane, skategoryzowane, przeanalizowane i zwizualizowane.
Analityka big data to technologiczny proces badania big data (zbiorów danych o dużej objętości, dużej szybkości i/lub dużej różnorodności) w celu odkrycia informacji - ukrytych wzorców, korelacji, trendów rynkowych i/lub preferencji klientów - który pomaga organizacjom, rządom lub instytucjom badać zbiory danych i uzyskiwać wgląd w celu podejmowania świadomych, mądrzejszych i szybszych decyzji.
Dotyczy to trzech ważnych pytań: co, dlaczego i jak. Wiemy już co, więc teraz zajmiemy się tym, dlaczego i jak.
Dlaczego i jak w przypadku big data
Big data działa zgodnie z zasadą, że "im więcej posiadasz wiedzy o czymś, tym pewniej możesz dojść do nowych spostrzeżeń i przewidzieć, co wydarzy się w przyszłości".
Typowy cykl życia zarządzania danymi obejmuje pobieranie, przechowywanie, przetwarzanie, analizę, wizualizację, udostępnianie i aplikacje. Chmura i big data idą w parze z analityką danych dokonywaną w usługach chmury publicznej. Firmy takie jak Amazon, Microsoft i Google oferują usługi w chmurze, które umożliwiają szybkie wdrażanie ogromnych ilości mocy obliczeniowej, dzięki czemu firmy mogą uzyskać dostęp do najnowocześniejszych rozwiązań obliczeniowych na żądanie, bez konieczności posiadania niezbędnej infrastruktury, i uruchomić cały cykl życia zarządzania danymi w chmurze. W poprzednim rozdziale mówiliśmy o SaaS, IaaS i PaaS - przetwarzanie w chmurze oferuje badaczom big data możliwość dostępu do wszystkiego jako usługi (XaaS).
Wstępne przetwarzanie
Surowe dane mogą zawierać błędy lub posiadać wartości niskiej jakości (brakujące wartości, wartości odstające, szum, niespójne wartości) i mogą wymagać wstępnego przetworzenia (czyszczenia danych, fuzji, transformacji i redukcji) w celu usunięcia szumu, poprawienia danych lub zmniejszenia ich rozmiaru. Na przykład, w przypadku analizy zachowań związanych z korzystaniem z wody, wstępne przetwarzanie danych jest konieczne, aby dane z inteligentnych wodomierzy stały się użytecznymi wzorcami zużycia wody, ponieważ czujniki IoT mogą nie rejestrować danych.
Identyfikacja wzorców lub spostrzeżeń
Zautomatyzowany proces stojący za big data polega na budowaniu modeli na podstawie zebranych danych i przeprowadzaniu symulacji, modyfikując wartości punktów danych, aby zaobserwować, jak wpływa to na nasze wyniki. Zaawansowana technologia analityczna, którą dysponujemy obecnie, może przeprowadzać miliony symulacji, dostosowując zmienne w celu zidentyfikowania wzorców lub spostrzeżeń (znalezienia korelacji między zmiennymi), które mogą zapewnić przewagę konkurencyjną lub rozwiązać problem. Analityka behawioralna skupia się na działaniach ludzi, a analityka predykcyjna poszukuje wzorców, które mogą pomóc w przewidywaniu trendów.
Jako przykład przyjrzyjmy się analityce biznesowej (BI, business intelligence). BI to proces analizowania danych w celu dostarczania użytecznych informacji, które pomagają kierownictwu, menedżerom i pracownikom podejmować świadome decyzje biznesowe. Analityka biznesowa koncentruje się na operacjach biznesowych i wydajności. Dane potrzebne do BI są inne, bardziej rozbudowane. Systemy big data zawierają surowe dane, które muszą być przefiltrowane i poddane obróbce przed załadowaniem i analizą na potrzeby BI. Używane narzędzia są różne, ponieważ cel i dane też są różne.
Eksploracja danych
Proces odkrywania wzorców z dużych zbiorów danych z wykorzystaniem analizy statystycznej nazywany jest eksploracją danych. Analiza statystyczna jest powszechną matematyczną metodą wydobywania i odnajdywania informacji. Metody statystyczne to formuły matematyczne, modele i techniki wykorzystywane do znajdowania wzorców i reguł z surowych danych. Powszechnie stosowane metody to analiza regresji, analiza przestrzenno-czasowa, reguły asocjacyjne, klasyfikacja, klasteryzacja i głębokie uczenie.
Przykład praktycznego wykorzystania big data widać na przykładzie danych z telefonów komórkowych. Dane użytkowe z czujników telefonu mogą być wykorzystywane do ubezpieczeń opartych na użytkowaniu (UBI). Firma Sparkbit oferuje kierowcom spersonalizowaną ofertę ubezpieczeniową opartą na ich zachowaniu. Ich system wykorzystuje informacje ze smartfonów do oceny techniki i zachowania na drodze. W marcu 2018 roku mieli zgromadzone 330 milionów kilometrów historycznych tras wykonanych przez użytkowników ich systemu. Miesięcznie mają 30 tys. nowych aktywnych użytkowników, z których każdy rejestruje średnio 70 nowych tras. Dla każdej jazdy tworzona jest sekwencja punktów z GPS (współrzędne geograficzne, szacowana dokładność pozycji, prędkość pojazdu czy kierunek, w którym porusza się pojazd). System przechowuje te dane, przetwarza je i analizuje zachowanie kierowcy (np. niebezpieczną jazdę), a następnie wystawia ocenę punktową dla trasy i kierowcy.
Aby nadać sens dostępnym danym, powszechnie stosuje się najnowocześniejsze metody analityczne wykorzystujące sztuczną inteligencję i uczenie maszynowe. Dzięki uczeniu maszynowemu komputery mogą nauczyć się rozpoznawać, co reprezentują różne dane wejściowe lub kombinacje danych wejściowych identyfikując wzorce znacznie szybciej i skuteczniej niż człowiek.