Jak widzieliśmy w trakcie całego kursu, dane odgrywają kluczową rolę w naszym społeczeństwie i pozwalają nam zrozumieć otaczający nas świat. Przez ostatnie dziesięciolecia eksplozja Internetu i usług Web 2.0, a także urządzeń mobilnych i czujników, doprowadziła do powstania ogromnych zbiorów danych.
Połączenie "rosnącego strumienia" generowanych danych i dostępności technologii obliczeniowych na żądanie (takich jak przetwarzanie w chmurze) doprowadziło do rozwoju koncepcji big data, odnoszącej się do danych, które przekraczają możliwości przetwarzania konwencjonalnych systemów baz danych.
Definicje big data
Big data (duże zbiory danych) jest zwykle definiowane jako "duża ilość danych produkowanych w bardzo szybkim tempie przez dużą liczbę różnorodnych źródeł".
Definicje big data są subiektywne w kwestii określenia, jak duży powinien być zbiór danych, aby został uznany za big data. Nie ma tu odniesienia do liczby bajtów, czyli sposobu w jaki zazwyczaj mierzymy dane (np. gigabajty). Wraz z szybkim rozwojem technologii i coraz większej liczby urządzeń łączących się z Internetem rośnie również ilość tworzonych danych.
Rozmiar zbiorów danych, które kwalifikują się jako big data, może również rosnąć w czasie. Ponadto to, co stanowi "big data" dla jednej organizacji, sektora lub kraju, może być małe dla innej - pomyśl o firmie Apple w porównaniu z małym przedsiębiorstwem lub o Portugalii w porównaniu z Chinami.
Twój cyfrowy ślad
Niemal każda czynność, którą dziś wykonujemy, pozostawia po sobie cyfrowy ślad. Generujemy dane za każdym razem, gdy nosimy nasze wyposażone w czujniki smartfony, gdy szukamy czegoś w Internecie, gdy komunikujemy się z rodziną lub przyjaciółmi za pomocą mediów społecznościowych lub aplikacji do czatowania, a także gdy robimy zakupy. Pozostawiamy cyfrowe ślady przy każdym cyfrowym działaniu, czasem nawet nieświadomie lub mimowolnie.
Czy zastanawialiście się, skąd firmy takie jak Amazon, Spotify czy Netflix wiedzą, co "może Ci się też spodobać"? Mechanizmy rekomendacji są typowym zastosowaniem big data. Amazon, Netflix i Spotify wykorzystują algorytmy oparte na big data do tworzenia konkretnych rekomendacji w oparciu o preferencje i historyczne zachowanie użytkownika. Siri i Alexa bazują na big data odpowiadając na różnorodne pytania, które mogą zadawać użytkownicy. Google jest teraz w stanie tworzyć rekomendacje w oparciu o big data na urządzeniu użytkownika. Ale w jaki sposób te rekomendacje wpływają na to, jak spędzasz czas, jakie produkty kupujesz, jakie opinie czytasz? Dlaczego te wielkie firmy inwestują w nie tak wiele pieniędzy? Czy one po prostu Cię znają, czy także na Ciebie wpływają? Mimo że systemy rekomendacji stanowią nawet jedną trzecią wszystkich trafień na wielu popularnych stronach, nie wiemy, jaką mają moc wpływania na nasze decyzje.
Big data łączy w sobie dane ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane, które mogą być wykorzystywane do uczenia maszynowego, analizy predykcyjnej i innych zaawansowanych zastosowań analitycznych. Dane ustrukturyzowane to dane, które można uporządkować w wiersze i kolumny lub relacyjne bazy danych, a dane nieustrukturyzowane to dane, które nie są zorganizowane w uprzednio zdefiniowany sposób, na przykład tweety, wpisy na blogach, zdjęcia, liczby, a nawet dane wideo.
Organizacje używają specjalnych systemów do przechowywania i przetwarzania big data, które nazywa się architekturą zarządzania danymi.
Charakterystyka big data
Najszerzej akceptowana charakterystyka big data opiera się na trzech angielskich określeniach na literę ‘V’ ukutych przez Douga Laney'a w 2001 roku: duży wolumen (volume) generowanych danych, szeroka różnorodność (variety) typów danych przechowywanych i przetwarzanych w systemach big data oraz szybkość (velocity), z jaką dane są generowane, gromadzone i przetwarzane. W celu wzbogacenia opisu big data dodano również pojęcia prawdziwości, wartości i zmienności (veracity, value, variability).
Wolumen oznacza ilość danych generowanych/zbieranych w każdej chwili w naszym wysoce zdigitalizowanym świecie, mierzonych w bajtach (terabajtach, eksabajtach, zettabajtach). Jak można sobie wyobrazić, istnieje wiele wyzwań związanych z ogromną ilością danych, takich jak przechowywanie, dystrybucja i przetwarzanie. Wyzwania te dotyczą kosztów, skalowalności i wydajności. Wolumen jest również napędzany przez wzrost liczby źródeł danych (więcej osób online), wyższe rozdzielczości (czujniki) i skalowalną infrastrukturę.
Szybkość odnosi się do prędkości, z jaką dane są generowane, bez przerwy, przesyłane strumieniowo w czasie zbliżonym do rzeczywistego i przetwarzane przy użyciu technologii lokalnych i opartych na chmurze.
Różnorodność to rozmaitość danych. Dane udostępniane są w różnych formach, takich jak tekst, obrazy, tweety czy dane geoprzestrzenne. Dane pochodzą również z różnych źródeł, takich jak maszyny, ludzie, procesy organizacyjne (zarówno wewnętrzne, jak i zewnętrzne). Czynnikami napędzającymi są technologie mobilne, media społecznościowe, technologie urządzeń wearables, geotechnologie, wideo i wiele, wiele innych. Atrybuty obejmują stopień struktury i złożoności.
Prawdziwość odnosi się do zgodności z faktami i dokładności. Prawdziwość to także jakość i pochodzenie danych. Atrybuty obejmują spójność, kompletność, integralność i niejednoznaczność. Czynniki sprawcze obejmują koszty i potrzebę identyfikowalności. Przy dużej ilości, szybkości i różnorodności tworzonych danych musimy zadać sobie pytanie: czy informacje są prawdziwe, czy fałszywe?
Pojawiających się określeń jest więcej, ale my wspomnimy jeszcze o tylko jednym, wartości. Odnosi się ona do naszej zdolności i potrzeby przekształcania danych w wartość Wartość nie oznacza tylko zysku. Może być związana z bezpieczeństwem i ochroną (np. informacje sejsmiczne), medycyną (urządzenia typu wearables, które mogą zidentyfikować oznaki zawału serca) lub korzyściami społecznymi, takimi jak satysfakcja pracownika lub osobista. Big data posiada dużą wartość wewnętrzną, która może przybierać różne kształty.
Wymienione wyżej określenia nie tylko charakteryzują big data, ale także ucieleśniają wyzwania z nimi związane: ogromne ilości danych, dostępnych w różnych formatach, w dużej mierze nieustrukturyzowanych, o różnej jakości, które wymagają szybkiego przetwarzania w celu podejmowania trafnych decyzji.
Dlaczego i w jaki sposób analizowane jest big data?
80% danych uważa się za nieustrukturyzowane. Jak uzyskać wiarygodne i dokładne wyniki? Dane muszą zostać przefiltrowane, skategoryzowane, przeanalizowane i zwizualizowane.
Analityka big data to technologiczny proces badania big data (zbiorów danych o dużej objętości, dużej szybkości i/lub dużej różnorodności) w celu odkrycia informacji - ukrytych wzorców, korelacji, trendów rynkowych i/lub preferencji klientów - który pomaga organizacjom, rządom lub instytucjom badać zbiory danych i uzyskiwać wgląd w celu podejmowania świadomych, mądrzejszych i szybszych decyzji.
Dotyczy to trzech ważnych pytań: co, dlaczego i jak. Wiemy już co, więc teraz zajmiemy się tym, dlaczego i jak.
Dlaczego i jak w przypadku big data
Big data działa zgodnie z zasadą, że "im więcej posiadasz wiedzy o czymś, tym pewniej możesz dojść do nowych spostrzeżeń i przewidzieć, co wydarzy się w przyszłości".
Typowy cykl życia zarządzania danymi obejmuje pobieranie, przechowywanie, przetwarzanie, analizę, wizualizację, udostępnianie i aplikacje. Chmura i big data idą w parze z analityką danych dokonywaną w usługach chmury publicznej. Firmy takie jak Amazon, Microsoft i Google oferują usługi w chmurze, które umożliwiają szybkie wdrażanie ogromnych ilości mocy obliczeniowej, dzięki czemu firmy mogą uzyskać dostęp do najnowocześniejszych rozwiązań obliczeniowych na żądanie, bez konieczności posiadania niezbędnej infrastruktury, i uruchomić cały cykl życia zarządzania danymi w chmurze. W poprzednim rozdziale mówiliśmy o SaaS, IaaS i PaaS - przetwarzanie w chmurze oferuje badaczom big data możliwość dostępu do wszystkiego jako usługi (XaaS).
Wstępne przetwarzanie
Surowe dane mogą zawierać błędy lub posiadać wartości niskiej jakości (brakujące wartości, wartości odstające, szum, niespójne wartości) i mogą wymagać wstępnego przetworzenia (czyszczenia danych, fuzji, transformacji i redukcji) w celu usunięcia szumu, poprawienia danych lub zmniejszenia ich rozmiaru. Na przykład, w przypadku analizy zachowań związanych z korzystaniem z wody, wstępne przetwarzanie danych jest konieczne, aby dane z inteligentnych wodomierzy stały się użytecznymi wzorcami zużycia wody, ponieważ czujniki IoT mogą nie rejestrować danych.
Identyfikacja wzorców lub spostrzeżeń
Zautomatyzowany proces stojący za big data polega na budowaniu modeli na podstawie zebranych danych i przeprowadzaniu symulacji, modyfikując wartości punktów danych, aby zaobserwować, jak wpływa to na nasze wyniki. Zaawansowana technologia analityczna, którą dysponujemy obecnie, może przeprowadzać miliony symulacji, dostosowując zmienne w celu zidentyfikowania wzorców lub spostrzeżeń (znalezienia korelacji między zmiennymi), które mogą zapewnić przewagę konkurencyjną lub rozwiązać problem. Analityka behawioralna skupia się na działaniach ludzi, a analityka predykcyjna poszukuje wzorców, które mogą pomóc w przewidywaniu trendów.
Eksploracja danych
Proces odkrywania wzorców z dużych zbiorów danych z wykorzystaniem analizy statystycznej nazywany jest eksploracją danych. Analiza statystyczna jest powszechną matematyczną metodą wydobywania i odnajdywania informacji. Metody statystyczne to formuły matematyczne, modele i techniki wykorzystywane do znajdowania wzorców i reguł z surowych danych. Powszechnie stosowane metody to analiza regresji, analiza przestrzenno-czasowa, reguły asocjacyjne, klasyfikacja, klasteryzacja i głębokie uczenie.
Aby nadać sens dostępnym danym, powszechnie stosuje się najnowocześniejsze metody analityczne wykorzystujące sztuczną inteligencję i uczenie maszynowe. Dzięki uczeniu maszynowemu komputery mogą nauczyć się rozpoznawać, co reprezentują różne dane wejściowe lub kombinacje danych wejściowych identyfikując wzorce znacznie szybciej i skuteczniej niż człowiek.