Wie Sie in diesem Kurs bereits gelernt haben, spielen Daten eine wichtige Rolle in unserer Gesellschaft und helfen uns, die Welt zu verstehen. In den letzten Jahrzehnten haben die explosionsartige Entwicklung des Internet und der Web-2.0-Dienste sowie der Mobilgeräte und Sensoren zur Entstehung enormer Datenmengen geführt.
Die Kombination aus einem immer stärkeren Fluss an Daten und der Verfügbarkeit von On-Demand-Technologien (wie Cloud-Computing) begründete das Konzept von Big Data, d. h. Datenmengen, die die Verarbeitungskapazität konventioneller Datenbanksysteme überschreiten.
Definition von Big Data
Big Data wird üblicherweise definiert als „große Datenmengen, die sehr schnell von einer großen Anzahl verschiedener Quellen produziert werden“.
Allerdings ist es eine subjektive Einschätzung, wie groß Datenmengen sein müssen, um als Big Data zu gelten. Es gibt keine Referenz in Form einer Anzahl von Bytes, was die übliche Messgröße für Daten (z. B. in Gigabyte) darstellt. Durch die schnelle Entwicklung der Technologie und die wachsende Zahl mit dem Internet verbundener Geräte steigt die Menge an Daten.
Die Größe der Datensätze, die als Big Data gelten, dürfte mit der Zeit zunehmen. Was für ein Unternehmen, einen Sektor oder ein Land als Big Data gilt, ist für andere vielleicht eine kleine Datenmenge – denken Sie an Apple im Vergleich zu einem Kleinunternehmen oder China im Vergleich zu Portugal.
Wir generieren riesige Datenspuren
2020 war das Jahr einer der größten weltumfassenden Herausforderungen. Die Menschen waren bereits vernetzt, doch auf einmal verlagerte sich jeder Aspekt des Lebens – Fitness, Arbeit, Lernen – in die Onlinewelt. Geschäfte, Fitnessstudios, Büros, Restaurants und Kinos wurden geschlossen. Arbeiten (außer für jene an vorderster Front), lernen, kommunizieren, Möbel kaufen, soziale Kontakte pflegen oder Filme schauen war nur noch über das Internet möglich. Wir durften nicht einmal mehr unsere Familien besuchen und umarmen.
Durch diese Situation wurde die Welt noch stärker digitalisiert. Wir konnten jederzeit:
über WhatsApp & Co. kommunizieren;
im Internet surfen oder etwas suchen;
Lebensmittel, Dienste oder Produkte online kaufen;
ein niedliches Fotos unseres vierbeinigen Freunds oder ein Arbeitsdokument teilen;
vor dem Schlafengehen auf Netflix oder Amazon Prime Video Serien schauen;
auf SoundCloud, Spotify oder YouTube Musik hören;
ein Buch kaufen und auf dem E-Book-Reader lesen.
Summieren Sie das für die Millionen Menschen, die tagtäglich Smartphones und/oder Computer nutzen.
Der digitale Fußabdruck
Fast jede Aktivität hinterlässt heute eine digitale Spur. Wir generieren Daten, wenn wir unsere Smartphones mit ihren Sensoren herumtragen, online nach etwas suchen, mit Familie und Freunden über soziale Netzwerke und Chat-Apps kommunizieren oder etwas kaufen. Mit jeder digitalen Aktivität hinterlassen wir einen digitalen Fußabdruck, und das manchmal unabsichtlich oder unbewusst.
Haben Sie sich schon einmal gewundert, woher Amazon, Spotify und Netflix wissen, was Ihnen „auch gefallen könnte“? Empfehlungsmaschinen sind eine typische App für Big Data. Amazon, Spotify und Netflix verwenden Big-Data-Algorithmen, um Ihnen entsprechend Ihrer Präferenzen und Ihres Verlaufs spezifische Empfehlungen zu machen. Siri und Alexa arbeiten mit Big Data, um die Vielzahl an Fragen von Benutzern zu beantworten. Google kann Empfehlungen auf Grundlage der großen Datenmenge auf dem Gerät eines Nutzers abgeben. Wie beeinflussen diese Empfehlungen, wie Sie Ihre Zeit verbringen, welche Produkte Sie kaufen und welche Meinungen Sie wahrnehmen? Warum investieren Großkonzerne so viel Geld in sie? Kennen sie uns nur oder beeinflussen sie uns auch? Obwohl Empfehlungssysteme für bis zu ein Drittel des Datenverkehrs auf vielen beliebten Seiten verantwortlich sind, wissen wir nicht, welchen Einfluss sie auf unsere Entscheidungen haben.
Was weiß Ihr Smartphone über Sie?
Haben Sie sich schon einmal gefragt, was Ihr Smartphone über Sie weiß, über Ihr Verhalten, Ihre Gefühle und Ihre Gesundheit? Smartphones haben viele leistungsfähige Sensoren, die unablässig Daten über Sie sammeln, um Ihr Leben einfacher zu machen. Doch wo liegt die Grenze zwischen Datenschutz und Bequemlichkeit? Das muss jeder selbst entscheiden.
Big Data kombiniert strukturierte, semistrukturierte und unstrukturierte Daten, die nach Informationen durchsucht (Data-Mining) und für maschinelles Lernen, Predictive Analytics (Vorhersageanalysen) und andere fortgeschrittene Analysen genutzt werden können. Strukturierte Daten sind Daten, die in Zeilen und Spalten oder relationalen Datenbanken geordnet werden können. Unstrukturierte Daten sind Daten, die nicht in bestimmter Form geordnet sind, z. B. Tweets, Blogbeiträge, Bilder, Zahlen oder Videodaten.
Unternehmen nutzen spezielle Systeme, sogenannte Datenmanagement-Architekturen, um große Datenmengen zu speichern und zu verarbeiten.
Eigenschaften von Big Data
Die gängigste Definition von Big Data basiert auf den drei Vs von Doug Laney aus dem Jahr 2001: Volume – das große Volumen an generierten Daten –, Variety – die Vielfalt an Datenarten, die gespeichert und verarbeitet werden –, und Velocity – die Geschwindigkeit, mit der Daten generiert, gesammelt und verarbeitet werden. Als weitere Vs zur Beschreibung von Big Data kamen Veracity (Wahrheitsgehalt), Value (Wert) und Variability (Variabilität) hinzu.
Volume steht für die Menge an Daten, die in unserer hoch digitalisierten Welt ständig generiert und gesammelt werden. Gemessen werden sie in Bytes (Terabyte, Exabyte, Zettabyte). Wie Sie sich vorstellen können, stellt die Speicherung, Verteilung und Verarbeitung dieser gewaltigen Datenmengen eine große Herausforderung dar. Dies betrifft Kosten, Skalierbarkeit und Leistungsfähigkeit. Die Datenmenge wächst unter anderem durch die steigende Anzahl an Datenquellen (mehr Benutzer online), höhere Auflösung (Sensoren) und skalierbare Infrastrukturen.
Heute werden täglich 2,5 Quintillionen Bytes an Daten generiert. Das entspricht 10 Millionen Blu-Ray-Discs am Tag. Jeden Tag werden 95 Millionen Fotos und Videos auf Instagram geteilt, 306,4 Milliarden E-Mails versendet und 5 Millionen Tweets gepostet. Weltweit gibt es 4,57 Milliarden aktive Internetnutzer. All unsere Geräte generieren, sammeln und speichern Daten.
Velocity steht für die Geschwindigkeit, mit der Daten nonstop generiert, in Echtzeit oder Fast-Echtzeit gestreamt und mit lokaler und cloudbasierter Technologie verarbeitet werden.
Variety steht für die Vielfalt der Daten. Daten gibt es in verschiedenen Formen wie Text, Bild, Tweets oder raumbezogenen Informationen. Zudem gibt es verschiedene Datenquellen wie Maschinen, Menschen und Unternehmensprozesse (intern wie extern). Als Triebkräfte sind Mobiltechnologien, soziale Netzwerke, Wearables, Geotechnologien, Video und vieles mehr zu nennen. Zu den sogenannten Attributen der Daten gehören Struktur und Komplexität.
Veracity steht für den Wahrheitsgehalt. Zudem bezieht es sich auf Qualität und Herkunft der Daten. Zu den Attributen gehören Konsistenz, Vollständigkeit, Integrität und Eindeutigkeit. Triebkräfte sind Kosten und Nachverfolgbarkeit. Angesichts der großen Menge, Geschwindigkeit und Vielfalt der Daten muss man sich fragen: Sind die Informationen wahr oder falsch?
Weitere Vs entstehen, doch wir belassen es bei einem weiteren: Value. Damit ist die Verwertbarkeit der Daten gemeint. Der Wert beschränkt sich nicht auf Profit. Daten können in verschiedenen Bereichen einen Mehrwert darstellen: Sicherheit (Informationen zu Erdbeben), Gesundheit (Wearables, die Anzeichen eines Herzinfarkts entdecken) oder Gesellschaft (Mitarbeiterzufriedenheit oder persönliche Zufriedenheit). Big Data hat einen großen Wert, der sich unterschiedlich nutzen lässt.
Die Vs beschreiben Big Data und zugleich die damit verbundenen Herausforderungen: gewaltige Datenmengen, in verschiedenen Formaten, größtenteils unstrukturiert, von schwankender Qualität, die schnell verarbeitet werden müssen, um Entscheidungen zur rechten Zeit zu treffen.
Wozu und wie wird Big Data analysiert?
80 % der Daten werden als unstrukturiert eingestuft. Wie lassen sich zuverlässige, genaue Erkenntnisse gewinnen? Dazu müssen die Daten gefiltert, kategorisiert, analysiert und visualisiert werden.
Big-Data-Analytics sind der technische Prozess, mit dem Big Data (Datensätze mit großem Volumen, großer Geschwindigkeit und/oder großer Vielfalt) untersucht wird, um Information freizulegen – versteckte Muster, Zusammenhänge, Markttrends, Kundenpräferenzen –, die Unternehmen, Institutionen und Regierungen helfen, Erkenntnisse zu gewinnen, um fundierte, kluge und schnelle Entscheidungen zu treffen.
Dabei werden drei wichtige Fragen beantwortet: was, warum und wie. Das Was wurde eben erklärt, nun kommen wir zum Warum und zum Wie.
Das Warum und Wie von Big Data
Big Data liegt folgendes Prinzip zugrunde: Je mehr man über etwas weiß, desto zuverlässigere Erkenntnisse und Vorhersagen für die Zukunft sind möglich.
Der typische Datenmanagement-Lebenszyklus beinhaltet Erfassung, Speicherung, Verarbeitung, Analyse, Visualisierung, Teilen und Anwendungen. Die Cloud und Big Data sind eng miteinander verknüpft, da die Datenanalyse in öffentlichen Clouds stattfindet. Unternehmen wie Amazon, Microsoft und Google bieten Cloud-Dienste, mit denen schnell gewaltige Mengen an Rechenleistung zur Verfügung stehen. Dadurch können Unternehmen modernste Computertechnik auf Abruf nutzen, ohne die entsprechende Infrastruktur besitzen zu müssen, und den gesamten Datenmanagement-Lebenszyklus in der Cloud durchführen. In einem vorherigen Abschnitt wurden bereits SaaS, IaaS und PaaS erklärt – mit Cloud-Computing gibt es für Big-Data-Forscher nun die Möglichkeit, auf alles als Dienst zuzugreifen: Anything as a Service (XaaS).
Vorverarbeitung
Rohdaten können Fehler enthalten oder Werte von geringer Qualität aufweisen (fehlende Werte, Ausreißer, Rauschen, inkonsistente Werte) und müssen daher eventuell vorverarbeitet werden (Reinigung, Fusion, Verwandlung und Reduzierung der Daten), um Rauschen zu entfernen, Daten zu korrigieren oder die Größe zu verringern. Bei der Analyse des Wasserverbrauchs beispielsweise ist eine Vorverarbeitung der Daten von intelligenten Wasserzählern erforderlich, da IoT-Sensoren teils Daten nicht aufzeichnen.
Mustererkennung und Erkenntnisgewinnung
Hinter Big Data stecken automatisierte Prozesse zum Aufbau von Modellen auf Grundlage der gesammelten Daten, zum Durchführen von Simulationen sowie zum Verändern von Datenpunktwerten und zur anschließenden Beobachtung. Moderne fortschrittliche Analysetechnologie kann Millionen von Simulationen durchführen und Variablen anpassen, um Muster zu erkennen und Erkenntnisse zu gewinnen (Zusammenhänge zwischen Variablen), die einen Wettbewerbsvorteil darstellen oder ein Problem lösen. Verhaltensanalysen konzentrieren sich auf menschliche Aktivitäten und Predictive Analytics suchen nach Mustern, um Trends vorherzusagen.
Ein Beispiel ist Business Intelligence (BI) oder Geschäftsanalytik. Bei BI werden Daten analysiert, um verwertbare Informationen zu extrahieren, die Führungskräften, Managern und Angestellten helfen, fundierte Entscheidungen zu treffen. Geschäftsanalytik konzentriert sich auf das operative Geschäft und die Performance. Dies erfordert andere, verfeinerte Daten. Die Rohdaten aus Big-Data-Systemen müssen gefiltert und kuratiert werden, bevor sie für die Geschäftsanalytik genutzt werden können. Auch die Werkzeuge sind bei BI nicht dieselben, da Daten und Ziele anderer Natur sind.
Data-Mining
Der Prozess der Entdeckung von Mustern in großen Datensätzen mithilfe statistischer Analysen wird Data-Mining („Abbau von Daten“) genannt. Statistische Analysen sind eine klassische mathematische Methode zur Extraktion und Entdeckung von Informationen. Dies umfasst mathematische Formeln, Modelle und Techniken, um in Rohdaten Muster und Regeln zu erkennen. Zu den üblichen Methoden zählen Regressionsanalyse, raumzeitliche Analyse, Assoziationsregeln, Klassifizierung, Clusterbildung und Deep Learning.
Als Beispiel für die praktische Verwendung von Big Data kann man die Daten von Mobiltelefonen nennen. Die Nutzerdaten aus den Sensoren des Mobiltelefons können für nutzungsbasierte Versicherungen (Usage-based Insurance, UBI) verwertet werden. Das Unternehmen Sparkbit bietet Autofahrern eine personalisierte Versicherung auf Grundlage ihres Fahrverhaltens. Das Fahrverhalten wird von Sparkbits System basierend auf Informationen vom Smartphone beurteilt. Im März 2018 hatte das System insgesamt 330 Mio. km an Strecken gesammelt, die von den Nutzern zurückgelegt wurden. Jeden Monat kommen 30.000 neue Nutzer hinzu, die im Schnitt je 70 neue Routen aufzeichnen. Mit jeder Fahrt wird eine Reihe von Punkten aus dem GPS (geografische Koordinaten, Genauigkeit der Ortung, Fahrtgeschwindigkeit und -richtung) erstellt. Das System speichert die Daten, verarbeitet sie und analysiert das Fahrverhalten (z. B. in Bezug auf riskantes Fahren), um schließlich eine Punktebewertung für Route und Fahrer abzugeben.
Um die verfügbaren Daten zu verwerten, werden häufig modernste Analysewerkzeuge mit künstlicher Intelligenz und maschinellem Lernen eingesetzt. Durch maschinelles Lernen können Computer lernen, was bestimmte Dateneingaben oder Kombinationen von Inputs bedeuten und Muster deutlich schneller und effizienter als Menschen erkennen.