Skip to main content

I.
Inleiding tot big data

Zoals we in de loop van de cursus hebben gezien, spelen data een cruciale rol in onze samenleving en stellen zij ons in staat inzicht te krijgen in de wereld om ons heen. In de afgelopen decennia hebben de explosie van het internet en Web 2.0-diensten, alsook mobiele apparaten en sensoren, geleid tot het ontstaan van enorme datasets.

De combinatie van een ‘groeiende stortvloed’ van gegenereerde gegevens en de beschikbaarheid van on-demand computertechnologieën (zoals cloud computing) heeft geleid tot de ontwikkeling van het concept big data, waarmee gegevens worden bedoeld die de verwerkingscapaciteit van conventionele databanksystemen te boven gaan.

Definities van big data

Big data worden gewoonlijk gedefinieerd als ‘grote hoeveelheden gegevens die zeer snel worden geproduceerd door een groot aantal uiteenlopende bronnen’.

Definities van big data zijn subjectief wat betreft de vraag hoe groot een dataset moet zijn om als big data te worden beschouwd. Er wordt niet verwezen naar het aantal bytes, de manier waarop wij gewoonlijk gegevens meten (bijvoorbeeld gigabytes). Nu de technologie snel evolueert en steeds meer apparaten op het internet worden aangesloten, neemt ook de hoeveelheid gegevens toe die wordt gecreëerd.

De omvang van de datasets die als big data kunnen worden aangemerkt, kan mettertijd ook toenemen. Bovendien kan wat ‘groot’ is voor een organisatie, een sector of een land, klein zijn voor een ander - denk maar aan Apple in vergelijking met een klein bedrijf, of aan Portugal in vergelijking met China.

Data-icoontjes die voortkomen uit voetafdrukken op de grond
Data-icoontjes die voortkomen uit voetafdrukken op de grond

Jouw digitale voetafdruk

Zowat elke actie die we vandaag ondernemen, laat een digitaal spoor na. We genereren gegevens wanneer we onze met sensoren uitgeruste smartphones bij ons hebben, wanneer we online naar iets zoeken, wanneer we met onze familie of vrienden communiceren via sociale media of chatapplicaties, en wanneer we winkelen. Bij elke digitale handeling laten we een digitale voetafdruk achter, soms zelfs onbewust of onvrijwillig.

Heb je je ooit afgevraagd hoe bedrijven als Amazon, Spotify of Netflix weten wat ‘je misschien ook leuk vindt’? Aanbevelingsengines zijn een gebruikelijke toepassing van big data. Amazon, Netflix en Spotify gebruiken algoritmen op basis van big data om specifieke aanbevelingen te doen op basis van jouw voorkeuren en vroeger gedrag. Siri en Alexa vertrouwen op big data om de verscheidenheid aan vragen die gebruikers kunnen stellen te beantwoorden. Google is nu in staat om aanbevelingen te doen op basis van big data op het apparaat van een gebruiker. Maar hoe beïnvloeden die aanbevelingen hoe jij jouw tijd besteedt, welke producten je koopt, welke opinies je leest? Waarom investeren deze grote bedrijven daar zo veel geld in? Kennen ze je alleen, of beïnvloeden ze je ook? Hoewel aanbevelingssystemen goed zijn voor een derde van alle verkeer op veel populaire sites, weten we niet hoeveel macht ze hebben om onze beslissingen te beïnvloeden.

Big data combineren gestructureerde, semigestructureerde en ongestructureerde gegevens die kunnen worden ontgonnen voor informatie en die kunnen worden gebruikt voor machinaal leren, voorspellingsanalyses en andere geavanceerde analysetoepassingen. Gestructureerde data zijn data die kunnen worden geordend in rijen en kolommen, of relationele databases; en ongestructureerde gegevens zijn gegevens die niet op een vooraf bepaalde manier zijn geordend, bijvoorbeeld Tweets, blogberichten, foto's, getallen en zelfs videogegevens.

Organisaties gebruiken specifieke systemen om big data op te slaan en te verwerken, de zogenaamde datamanagementarchitectuur.

Eigenschappen van big data

De meest algemeen aanvaarde karakterisering van big data volgt de drie V's die Doug Laney in 2001 heeft bedacht: het grote volume aan gegevens dat wordt gegenereerd, de grote variety (verscheidenheid) aan soorten gegevens die worden opgeslagen en verwerkt in big datasystemen en de velocity (snelheid) waarmee de gegevens worden gegenereerd, verzameld en verwerkt. Verder werden nog veracity, (waarachtigheid),value (waarde) en variability (variabiliteit) toegevoegd om de beschrijving van big data te verrijken.

  • Volume staat voor de hoeveelheid gegevens die elk moment in onze sterk gedigitaliseerde wereld wordt gegenereerd/verzameld, gemeten in bytes (terabytes, exabytes, zettabytes). Zoals je je kunt voorstellen, zijn er door de enorme hoeveelheden gegevens vele uitdagingen, zoals opslag, distributie en verwerking. De uitdagingen hebben betrekking op kosten, schaalbaarheid en prestaties. Het volume wordt ook gedreven door de toename van gegevensbronnen (meer mensen online), hogere resoluties (sensoren) en schaalbare infrastructuur.

  • Velocity verwijst naar de snelheid waarmee gegevens worden gegenereerd, non-stop, near- of real-time gestreamd, en verwerkt met behulp van lokale en cloudgebaseerde technologieën.

  • Variety slaat op de diversiteit van data. Gegevens worden in verschillende vormen beschikbaar gesteld, zoals tekst, afbeeldingen, tweets of geospatiale gegevens. Gegevens zijn ook afkomstig van verschillende bronnen, zoals machines, mensen, organisatorische processen (zowel intern als extern). Drijvende krachten zijn mobiele technologieën, sociale media, wearable technologieën, geotechnologieën, video en nog veel meer. Attributen zijn onder meer de mate waarin er structuur en complexiteit zijn.

  • Veracity verwijst naar de conformiteit met feiten en nauwkeurigheid. ‘Veracity’ is ook de kwaliteit en de oorsprong van gegevens. Attributen zijn onder meer consistentie, volledigheid, integriteit en ambiguïteit. Drijfveren zijn onder meer de kosten en de behoefte aan traceerbaarheid. Met het grote volume, de snelheid en de verscheidenheid van de gecreëerde gegevens moeten wij ons afvragen: is de informatie echt, of is zij vals?

Er komen nog meer V’s op, maar we vermelden er nog slechts een meer: Value (waarde). ‘Value’ verwijst naar ons vermogen en onze behoefte om gegevens in waarde om te zetten. ‘Value’ betekent niet alleen winst. Het kan te maken hebben met beveiliging en veiligheid (zoals seismische informatie), medisch (wearables die tekenen van een hartaanval kunnen vaststellen) of sociale voordelen zoals werknemers of persoonlijke tevredenheid. Big data hebben een grote intrinsieke waarde die vele vormen kan aannemen.

De V's zijn niet alleen kenmerkend voor big data, ze belichamen ook de uitdagingen ervan: enorme hoeveelheden gegevens, beschikbaar in verschillende formaten, grotendeels ongestructureerd, met wisselende kwaliteit, die snel moeten worden verwerkt om goed getimede beslissingen te kunnen nemen.

Waarom en hoe worden big data geanalyseerd?

80% van de gegevens wordt als ongestructureerd beschouwd. Hoe krijgen we betrouwbare en nauwkeurige inzichten? De gegevens moeten worden gefilterd, gecategoriseerd, geanalyseerd en gevisualiseerd.

Big data analytics is het technologische proces waarbij big data (datasets met een hoog volume, een hoge snelheid en/of een grote variëteit) worden onderzocht om informatie - verborgen patronen, correlaties, markttrends en/of klantvoorkeuren - aan het licht te brengen. Dit helpt organisaties, overheden of instellingen om datasets te onderzoeken en inzichten te verwerven, zodat zij goed geïnformeerde, slimme en snelle beslissingen kunnen nemen.

Daarbij komen drie belangrijke vragen aan bod: wat, waarom en hoe. Het ‘wat’ hebben we al gezien, dus volgt nu een overzicht van het ‘waarom’ en het ‘hoe’.

Het waarom en hoe van big data

Big data volgt het principe dat ‘hoe meer je over iets weet, hoe betrouwbaarder je nieuwe inzichten kunt verwerven en voorspellingen kunt doen over wat er in de toekomst zal gebeuren’.

Een typische levenscyclus voor gegevensbeheer omvat opname, opslag, verwerking, analyse, visualisatie, delen en toepassingen. De cloud en big data gaan hand in hand, waarbij data-analyse plaatsvindt bij publieke clouddiensten. Bedrijven zoals Amazon, Microsoft en Google bieden clouddiensten aan die een snelle inzet van enorme hoeveelheden rekenkracht mogelijk maken, zodat bedrijven op verzoek toegang kunnen krijgen tot state-of-the-art computing, zonder de noodzakelijke infrastructuur te bezitten, en de volledige levenscyclus van gegevensbeheer in de cloud kunnen uitvoeren. In het vorige hoofdstuk hebben we het gehad over SaaS, IaaS en PaaS. Met cloud computing kunnen big data-onderzoekers mogelijkheid toegang krijgen tot alles als een dienst (XaaS).

Pre-processing

Ruwe gegevens kunnen fouten of waarden van lage kwaliteit bevatten (ontbrekende waarden, uitschieters, ruis, inconsistente waarden) en moeten eventueel worden voorbewerkt (gegevensopschoning, -fusie, -transformatie en -reductie) om ruis te verwijderen, gegevens te corrigeren of de omvang ervan te beperken. Voor de analyse van het gedrag van watergebruik, bijvoorbeeld, is voorbewerking (‘pre-processing’) van de gegevens nodig om van de gegevens van slimme watermeters bruikbare waterverbruikspatronen te maken, omdat sommige gegevens misschien niet worden geregistreerd door IoT-sensoren.

Grafieken met datapatronen
Grafieken met datapatronen

Patronen of inzichten identificeren

Bij het geautomatiseerde proces achter big data worden modellen gebouwd op basis van de verzamelde gegevens en worden uitgevoerd simulaties, waarbij de waarde van datapunten wordt gewijzigd om te kijken hoe zij onze resultaten beïnvloedt. De geavanceerde analysetechnologie waarover we vandaag beschikken, kan miljoenen simulaties uitvoeren, waarbij variabelen worden aangepast terwijl gezocht wordt naar patronen of inzichten (het vinden van correlaties tussen variabelen) die een concurrentievoordeel kunnen opleveren of een probleem kunnen oplossen. Gedagsanalyse richt zich op de handelingen van mensen en voorspellingsanalyse zoekt naar patronen die kunnen helpen om trends voor te zijn.

Datamining

Het proces van het ontdekken van patronen uit grote gegevensverzamelingen door middel van statistische analyse wordt datamining genoemd. Statistische analyse is een veelgebruikte wiskundige methode voor informatie-extractie en -ontdekking. Statistische methoden zijn wiskundige formules, modellen en technieken die worden gebruikt om uit ruwe data, patronen en regels te halen. Veelgebruikte methoden zijn regressieanalyse, spatiotemporele analyse, associatieregels, classificatie, clustering en deep learning.

Om de beschikbare gegevens zinvol te gebruiken, wordt vaak gebruik gemaakt van geavanceerde analyses op basis van artificiële intelligentie en machinaal leren. Bij machinaal leren kunnen computers leren te bepalen waar verschillende gegevensinputs of combinaties daarvan voor staan, waarbij patronen veel sneller en efficiënter worden geïdentificeerd dan bij mensen.

Next section
II. Toepassingen en gevolgen van big data