Wie Sie in diesem Kurs bereits gelernt haben, spielen Daten eine wichtige Rolle in unserer Gesellschaft und helfen uns, die Welt zu verstehen. In den letzten Jahrzehnten haben die explosionsartige Entwicklung des Internet und der Web-2.0-Dienste sowie der Mobilgeräte und Sensoren zur Entstehung enormer Datenmengen geführt.
Die Kombination aus einem immer stärkeren Fluss an Daten und der Verfügbarkeit von On-Demand-Technologien (wie Cloud-Computing) begründete das Konzept von Big Data, d. h. Datenmengen, die die Verarbeitungskapazität konventioneller Datenbanksysteme überschreiten.
Definition von Big Data
Big Data wird üblicherweise definiert als „große Datenmengen, die sehr schnell von einer großen Anzahl verschiedener Quellen produziert werden“.
Allerdings ist es eine subjektive Einschätzung, wie groß Datenmengen sein müssen, um als Big Data zu gelten. Es gibt keine Referenz in Form einer Anzahl von Bytes, was die übliche Messgröße für Daten (z. B. in Gigabyte) darstellt. Durch die schnelle Entwicklung der Technologie und die wachsende Zahl mit dem Internet verbundener Geräte steigt die Menge an Daten.
Die Größe der Datensätze, die als Big Data gelten, dürfte mit der Zeit zunehmen. Was für ein Unternehmen, einen Sektor oder ein Land als Big Data gilt, ist für andere vielleicht eine kleine Datenmenge – denken Sie an Apple im Vergleich zu einem Kleinunternehmen oder China im Vergleich zu Portugal.
Der digitale Fußabdruck
Fast jede Aktivität hinterlässt heute eine digitale Spur. Wir generieren Daten, wenn wir unsere Smartphones mit ihren Sensoren herumtragen, online nach etwas suchen, mit Familie und Freunden über soziale Netzwerke und Chat-Apps kommunizieren oder etwas kaufen. Mit jeder digitalen Aktivität hinterlassen wir einen digitalen Fußabdruck, und das manchmal unabsichtlich oder unbewusst.
Haben Sie sich schon einmal gewundert, woher Amazon, Spotify und Netflix wissen, was Ihnen „auch gefallen könnte“? Empfehlungsmaschinen sind eine typische App für Big Data. Amazon, Spotify und Netflix verwenden Big-Data-Algorithmen, um Ihnen entsprechend Ihrer Präferenzen und Ihres Verlaufs spezifische Empfehlungen zu machen. Siri und Alexa arbeiten mit Big Data, um die Vielzahl an Fragen von Benutzern zu beantworten. Google kann Empfehlungen auf Grundlage der großen Datenmenge auf dem Gerät eines Nutzers abgeben. Wie beeinflussen diese Empfehlungen, wie Sie Ihre Zeit verbringen, welche Produkte Sie kaufen und welche Meinungen Sie wahrnehmen? Warum investieren Großkonzerne so viel Geld in sie? Kennen sie uns nur oder beeinflussen sie uns auch? Obwohl Empfehlungssysteme für bis zu ein Drittel des Datenverkehrs auf vielen beliebten Seiten verantwortlich sind, wissen wir nicht, welchen Einfluss sie auf unsere Entscheidungen haben.
Big Data kombiniert strukturierte, semistrukturierte und unstrukturierte Daten, die nach Informationen durchsucht (Data-Mining) und für maschinelles Lernen, Predictive Analytics (Vorhersageanalysen) und andere fortgeschrittene Analysen genutzt werden können. Strukturierte Daten sind Daten, die in Zeilen und Spalten oder relationalen Datenbanken geordnet werden können. Unstrukturierte Daten sind Daten, die nicht in bestimmter Form geordnet sind, z. B. Tweets, Blogbeiträge, Bilder, Zahlen oder Videodaten.
Unternehmen nutzen spezielle Systeme, sogenannte Datenmanagement-Architekturen, um große Datenmengen zu speichern und zu verarbeiten.
Eigenschaften von Big Data
Die gängigste Definition von Big Data basiert auf den drei Vs von Doug Laney aus dem Jahr 2001: Volume – das große Volumen an generierten Daten –, Variety – die Vielfalt an Datenarten, die gespeichert und verarbeitet werden –, und Velocity – die Geschwindigkeit, mit der Daten generiert, gesammelt und verarbeitet werden. Als weitere Vs zur Beschreibung von Big Data kamen Veracity (Wahrheitsgehalt), Value (Wert) und Variability (Variabilität) hinzu.
Volume steht für die Menge an Daten, die in unserer hoch digitalisierten Welt ständig generiert und gesammelt werden. Gemessen werden sie in Bytes (Terabyte, Exabyte, Zettabyte). Wie Sie sich vorstellen können, stellt die Speicherung, Verteilung und Verarbeitung dieser gewaltigen Datenmengen eine große Herausforderung dar. Dies betrifft Kosten, Skalierbarkeit und Leistungsfähigkeit. Die Datenmenge wächst unter anderem durch die steigende Anzahl an Datenquellen (mehr Benutzer online), höhere Auflösung (Sensoren) und skalierbare Infrastrukturen.
Velocity steht für die Geschwindigkeit, mit der Daten nonstop generiert, in Echtzeit oder Fast-Echtzeit gestreamt und mit lokaler und cloudbasierter Technologie verarbeitet werden.
Variety steht für die Vielfalt der Daten. Daten gibt es in verschiedenen Formen wie Text, Bild, Tweets oder raumbezogenen Informationen. Zudem gibt es verschiedene Datenquellen wie Maschinen, Menschen und Unternehmensprozesse (intern wie extern). Als Triebkräfte sind Mobiltechnologien, soziale Netzwerke, Wearables, Geotechnologien, Video und vieles mehr zu nennen. Zu den sogenannten Attributen der Daten gehören Struktur und Komplexität.
Veracity steht für den Wahrheitsgehalt. Zudem bezieht es sich auf Qualität und Herkunft der Daten. Zu den Attributen gehören Konsistenz, Vollständigkeit, Integrität und Eindeutigkeit. Triebkräfte sind Kosten und Nachverfolgbarkeit. Angesichts der großen Menge, Geschwindigkeit und Vielfalt der Daten muss man sich fragen: Sind die Informationen wahr oder falsch?
Weitere Vs entstehen, doch wir belassen es bei einem weiteren: Value. Damit ist die Verwertbarkeit der Daten gemeint. Der Wert beschränkt sich nicht auf Profit. Daten können in verschiedenen Bereichen einen Mehrwert darstellen: Sicherheit (Informationen zu Erdbeben), Gesundheit (Wearables, die Anzeichen eines Herzinfarkts entdecken) oder Gesellschaft (Mitarbeiterzufriedenheit oder persönliche Zufriedenheit). Big Data hat einen großen Wert, der sich unterschiedlich nutzen lässt.
Die Vs beschreiben Big Data und zugleich die damit verbundenen Herausforderungen: gewaltige Datenmengen, in verschiedenen Formaten, größtenteils unstrukturiert, von schwankender Qualität, die schnell verarbeitet werden müssen, um Entscheidungen zur rechten Zeit zu treffen.
Wozu und wie wird Big Data analysiert?
80 % der Daten werden als unstrukturiert eingestuft. Wie lassen sich zuverlässige, genaue Erkenntnisse gewinnen? Dazu müssen die Daten gefiltert, kategorisiert, analysiert und visualisiert werden.
Big-Data-Analytics sind der technische Prozess, mit dem Big Data (Datensätze mit großem Volumen, großer Geschwindigkeit und/oder großer Vielfalt) untersucht wird, um Information freizulegen – versteckte Muster, Zusammenhänge, Markttrends, Kundenpräferenzen –, die Unternehmen, Institutionen und Regierungen helfen, Erkenntnisse zu gewinnen, um fundierte, kluge und schnelle Entscheidungen zu treffen.
Dabei werden drei wichtige Fragen beantwortet: was, warum und wie. Das Was wurde eben erklärt, nun kommen wir zum Warum und zum Wie.
Das Warum und Wie von Big Data
Big Data liegt folgendes Prinzip zugrunde: Je mehr man über etwas weiß, desto zuverlässigere Erkenntnisse und Vorhersagen für die Zukunft sind möglich.
Der typische Datenmanagement-Lebenszyklus beinhaltet Erfassung, Speicherung, Verarbeitung, Analyse, Visualisierung, Teilen und Anwendungen. Die Cloud und Big Data sind eng miteinander verknüpft, da die Datenanalyse in öffentlichen Clouds stattfindet. Unternehmen wie Amazon, Microsoft und Google bieten Cloud-Dienste, mit denen schnell gewaltige Mengen an Rechenleistung zur Verfügung stehen. Dadurch können Unternehmen modernste Computertechnik auf Abruf nutzen, ohne die entsprechende Infrastruktur besitzen zu müssen, und den gesamten Datenmanagement-Lebenszyklus in der Cloud durchführen. In einem vorherigen Abschnitt wurden bereits SaaS, IaaS und PaaS erklärt – mit Cloud-Computing gibt es für Big-Data-Forscher nun die Möglichkeit, auf alles als Dienst zuzugreifen: Anything as a Service (XaaS).
Vorverarbeitung
Rohdaten können Fehler enthalten oder Werte von geringer Qualität aufweisen (fehlende Werte, Ausreißer, Rauschen, inkonsistente Werte) und müssen daher eventuell vorverarbeitet werden (Reinigung, Fusion, Verwandlung und Reduzierung der Daten), um Rauschen zu entfernen, Daten zu korrigieren oder die Größe zu verringern. Bei der Analyse des Wasserverbrauchs beispielsweise ist eine Vorverarbeitung der Daten von intelligenten Wasserzählern erforderlich, da IoT-Sensoren teils Daten nicht aufzeichnen.
Mustererkennung und Erkenntnisgewinnung
Hinter Big Data stecken automatisierte Prozesse zum Aufbau von Modellen auf Grundlage der gesammelten Daten, zum Durchführen von Simulationen sowie zum Verändern von Datenpunktwerten und zur anschließenden Beobachtung. Moderne fortschrittliche Analysetechnologie kann Millionen von Simulationen durchführen und Variablen anpassen, um Muster zu erkennen und Erkenntnisse zu gewinnen (Zusammenhänge zwischen Variablen), die einen Wettbewerbsvorteil darstellen oder ein Problem lösen. Verhaltensanalysen konzentrieren sich auf menschliche Aktivitäten und Predictive Analytics suchen nach Mustern, um Trends vorherzusagen.
Data-Mining
Der Prozess der Entdeckung von Mustern in großen Datensätzen mithilfe statistischer Analysen wird Data-Mining („Abbau von Daten“) genannt. Statistische Analysen sind eine klassische mathematische Methode zur Extraktion und Entdeckung von Informationen. Dies umfasst mathematische Formeln, Modelle und Techniken, um in Rohdaten Muster und Regeln zu erkennen. Zu den üblichen Methoden zählen Regressionsanalyse, raumzeitliche Analyse, Assoziationsregeln, Klassifizierung, Clusterbildung und Deep Learning.
Um die verfügbaren Daten zu verwerten, werden häufig modernste Analysewerkzeuge mit künstlicher Intelligenz und maschinellem Lernen eingesetzt. Durch maschinelles Lernen können Computer lernen, was bestimmte Dateneingaben oder Kombinationen von Inputs bedeuten und Muster deutlich schneller und effizienter als Menschen erkennen.