Όπως έχουμε δει στη διάρκεια του μαθήματος, τα δεδομένα διαδραματίζουν έναν σημαντικό ρόλο στην κοινωνία μας και μας δίνουν τη δυνατότητα να κατανοήσουμε τον κόσμο γύρω μας. Τις τελευταίες δεκαετίες, η έκρηξη του διαδικτύου και των υπηρεσιών του Web 2.0, καθώς και των κινητών συσκευών και αισθητήρων, οδήγησαν στη δημιουργία τεράστιων συνόλων δεδομένων.
Ο συνδυασμός του «αυξανόμενου χειμάρρου» των παραγόμενων δεδομένων και η διαθεσιμότητα των κατ’ απαίτηση υπολογιστικών τεχνολογιών (όπως το cloud computing) οδήγησε στην ανάπτυξη της έννοιας των μεγάλων δεδομένων, η οποία αναφέρεται στα δεδομένα που υπερβαίνουν την επεξεργαστική δυνατότητα των συμβατικών συστημάτων βάσεων δεδομένων.
Ορισμοί μεγάλων δεδομένων
Τα μεγάλα δεδομένα συνήθως ορίζονται ως «μεγάλες ποσότητες δεδομένων που παράγονται πολύ γρήγορα από μεγάλο αριθμό διαφορετικών πηγών».
Οι ορισμοί των μεγάλων δεδομένων είναι υποκειμενικοί ως προς το πόσο μεγάλο πρέπει να είναι ένα σύνολο δεδομένων ώστε να θεωρείται ως μεγάλα δεδομένα. Δεν υπάρχει αναφορά στον αριθμό των byte, που συνήθως είναι ο τρόπος που μετράμε τα δεδομένα (για παράδειγμα, τα gigabyte). Με τη γρήγορη πρόοδο της τεχνολογίας και με όλο και περισσότερες συσκευές να συνδέονται στο διαδίκτυο, αυξάνεται και η ποσότητα των δεδομένων που δημιουργείται.
Το μέγεθος των συνόλων δεδομένων που πληροί τις προϋποθέσεις ως μεγάλα δεδομένα μπορεί επίσης να αυξηθεί με το πέρασμα του χρόνου. Επίσης το τι είναι «μεγάλο» για έναν οργανισμό, έναν τομέα ή μια χώρα μπορεί να είναι μικρό για κάποιον άλλον – σκεφτείτε την Apple σε σύγκριση με μια μικρή επιχείρηση ή την Πορτογαλία σε σύγκριση με την Κίνα.
Δημιουργούμε τεράστιες ποσότητες δεδομένων
Το 2020, βιώσαμε μια από τις μεγαλύτερες και πιο παγκόσμιες προκλήσεις στην ιστορία μας. Ήμασταν ήδη «συνδεδεμένοι» όμως ξαφνικά, κάθε διάσταση της ζωής μας, από την άσκηση μέχρι την εργασία και τις σπουδές, μεταφέρθηκε online. Καταστήματα, γυμναστήρια, γραφεία, εστιατόρια και κινηματογράφοι έκλεισαν. Ο μόνος τρόπος για να εργαστούμε (για εκείνους που δεν βρίσκονταν στην πρώτη γραμμή), να μελετήσουμε, να επικοινωνήσουμε, να αγοράσουμε έπιπλα, να συναναστραφούμε με άλλους ή να παρακολουθήσουμε μια ταινία ήταν μέσω του διαδικτύου. Δεν μπορούσαμε ούτε να επισκεφτούμε ή να αγκαλιάσουμε τις οικογένειές μας.
Αυτή η κατάσταση έκανε τον κόσμο ακόμα πιο ψηφιοποιημένο. Σε καθημερινή βάση, μπορεί:
Να επικοινωνούσαμε με μηνύματα WhatsApp
Να περιηγούμασταν στο διαδίκτυο ή να αναζητούσαμε κάτι online
Να κάναμε τα ψώνια και να αγοράζαμε υπηρεσίες ή εξοπλισμό online
Να κάναμε κοινή χρήση μιας φωτογραφίας του κατοικίδιού μας ή ενός εγγράφου της εργασίας μας
Να παρακολουθούσαμε μια σειρά στο Netflix ή στο Amazon Prime Video προτού πάμε για ύπνο
Να ακούγαμε μουσική από το SoundCloud, το Spotify ή το YouTube
Να αγοράζαμε και να διαβάζαμε ένα βιβλίο σε μια συσκευή ανάγνωσης ηλεκτρονικών βιβλίων (e-reader)
Πολλαπλασιάστε αυτό επί τα εκατομμύρια των χρηστών που χρησιμοποιούν τα τηλέφωνα ή τους υπολογιστές τους (ή και τα δύο) σε καθημερινή βάση.
Το ψηφιακό σας αποτύπωμα
Σχεδόν οποιαδήποτε ενέργειά μας σήμερα αφήνει ένα ψηφιακό ίχνος. Παράγουμε δεδομένα όποτε μεταφέρουμε τα smartphone μας που διαθέτουν αισθητήρες, όταν κάνουμε κάποια online αναζήτηση, όταν επικοινωνούμε με την οικογένεια ή τους φίλους μας χρησιμοποιώντας τα μέσα κοινωνικής δικτύωσης ή τις εφαρμογές ανταλλαγής μηνυμάτων και επίσης όταν ψωνίζουμε. Αφήνουμε ψηφιακά αποτυπώματα με κάθε ψηφιακή μας ενέργεια και μερικές φορές ακόμα και χωρίς να το γνωρίζουμε ή να το θέλουμε.
Έχετε σκεφτεί πώς εταιρείες όπως η Amazon, το Spotify ή το Netflix γνωρίζουν «τι άλλο μπορεί να σας αρέσει»; Οι μηχανές προτάσεων είναι μια κοινή εφαρμογή των μεγάλων δεδομένων. Η Amazon, το Netflix και το Spotify χρησιμοποιούν αλγόριθμους που βασίζονται στα μεγάλα δεδομένα για να κάνουν συγκεκριμένες προτάσεις βάσει των προτιμήσεων και της συμπεριφοράς σας σύμφωνα με το ιστορικό σας. Η Siri και η Alexa βασίζονται στα μεγάλα δεδομένα για να απαντήσουν στις διάφορες ερωτήσεις που κάνουν οι χρήστες. Η Google είναι πλέον σε θέση να κάνει προτάσεις βάσει των μεγάλων δεδομένων στη συσκευή του χρήστη. Όμως, πώς αυτές οι προτάσεις επηρεάζουν το τρόπο που ξοδεύετε τον χρόνο σας, τα προϊόντα που αγοράζετε και τις απόψεις που διαβάζετε; Γιατί αυτές οι μεγάλες εταιρείες επενδύουν τόσα πολλά χρήματα σε αυτές; Απλώς γνωρίζουν πράγματα για εσάς ή μήπως σας επηρεάζουν κιόλας; Αν και στα συστήματα προτάσεων αναλογεί έως και το ένα τρίτο όλης της κυκλοφορίας σε πολλές δημοφιλείς τοποθεσίες, δεν γνωρίζουμε τη δύναμη που έχουν να επηρεάσουν τις αποφάσεις μας.
Ποια πράγματα γνωρίζει το τηλέφωνό σας για εσάς;
Έχετε ποτέ αναλογιστεί ποια πράγματα γνωρίζει για εσάς το smartphone σας, για τη συμπεριφορά, τα συναισθήματα, τη διάθεση ή την κατάσταση της υγείας σας; Τα smartphone διαθέτουν πολλούς ισχυρούς αισθητήρες οι οποίοι παράγουν συνεχώς δεδομένα σχετικά με εσάς, κάνοντας τη ζωή σας ευκολότερη. Πού βρίσκεται όμως το όριο μεταξύ του ιδιωτικού απορρήτου και της προστασίας δεδομένων, από τη μία πλευρά, και της ευκολίας, από την άλλη; Αυτό είναι κάτι που πρέπει εσείς να αναλογιστείτε και να αποφασίσετε.
Τα μεγάλα δεδομένα συνδυάζουν δομημένα, ημιδομημένα και μη δομημένα δεδομένα από τα οποία μπορούν να εξορυχθούν πληροφορίες και να χρησιμοποιηθούν στη μηχανική μάθηση, στην προγνωστική ανάλυση και σε άλλες προηγμένες εφαρμογές ανάλυσης. Δομημένα δεδομένα είναι όσα μπορούν να οργανωθούν σε σειρές και στήλες ή σε σχεσιακές βάσεις δεδομένων, ενώ μη δομημένα δεδομένα είναι όσα δεν είναι οργανωμένα με έναν προκαθορισμένο τρόπο, για παράδειγμα τα tweet, οι δημοσιεύσεις στα blog, οι εικόνες, οι αριθμοί, ακόμα και τα δεδομένα βίντεο.
Οι οργανισμοί χρησιμοποιούν συγκεκριμένα συστήματα για την αποθήκευση και την επεξεργασία μεγάλων δεδομένων που ονομάζονται αρχιτεκτονική διαχείρισης δεδομένων.
Χαρακτηριστικά των μεγάλων δεδομένων
Ο πιο κοινά αποδεκτός χαρακτηρισμός των μεγάλων δεδομένων ακολουθεί τα τρία V που επινόησε ο Doug Laney το 2001: ο μεγάλος όγκος (volume) των παραγόμενων δεδομένων, η μεγάλη ποικιλομορφία (variety) των τύπων δεδομένων που αποθηκεύονται και υποβάλλονται σε επεξεργασία στα συστήματα των μεγάλων δεδομένων και η ταχύτητα (velocity) με την οποία τα δεδομένα παράγονται, συλλέγονται και υποβάλλονται σε επεξεργασία. Έχουν επίσης προστεθεί και η εγκυρότητα (veracity), η αξία (value) και η μεταβλητότητα (variability) για τον εμπλουτισμό της περιγραφής των μεγάλων δεδομένων.
Όγκος (volume) είναι η ποσότητα των δεδομένων που παράγεται/συλλέγεται κάθε στιγμή στον ιδιαίτερα ψηφιοποιημένο κόσμο μας και μετριέται σε byte (terabyte, exabyte, zettabyte). Όπως μπορείτε να φανταστείτε, υπάρχουν πολλές προκλήσεις που προκαλούνται από τους τεράστιους όγκους δεδομένων, όπως η αποθήκευση, η διανομή και η επεξεργασία. Οι προκλήσεις συνεπάγονται κόστος, κλιμάκωση και απόδοση. Ο όγκος δημιουργείται επίσης από την αύξηση των πηγών δεδομένων (περισσότερα άτομα online), τις υψηλότερες αναλύσεις (αισθητήρες) και την κλιμακούμενη υποδομή.
Κάθε μέρα παράγονται 2,5 πεντάκις εκατομμύρια byte δεδομένων. Αυτό ισοδυναμεί με 10 εκατομμύρια δίσκους Blu-ray καθημερινά. Καθημερινά κοινοποιούνται 95 εκατομμύρια φωτογραφίες και βίντεο στο Instagram, αποστέλλονται 306,4 δισεκατομμύρια e-mail και δημοσιεύονται 5 εκατομμύρια tweet. Υπάρχουν 4,57 δισεκατομμύρια ενεργοί χρήστες του διαδικτύου σε ολόκληρο τον κόσμο. Όλες μας οι συσκευές παράγουν, συγκεντρώνουν και αποθηκεύουν δεδομένα.
Η ταχύτητα (velocity) αναφέρεται στην ταχύτητα με την οποία τα δεδομένα παράγονται, αδιάκοπα, μεταδίδονται σε πραγματικό ή σχεδόν πραγματικό χρόνο και υποβάλλονται σε επεξεργασία με τη χρήση τοπικών τεχνολογιών και τεχνολογιών που βασίζονται στο cloud.
Κάθε δευτερόλεπτο, μία ώρα βίντεο ανεβαίνει στο YouTube.
Η ποικιλομορφία (variety) είναι η ποικιλία των δεδομένων. Τα δεδομένα είναι διαθέσιμα σε διαφορετικές μορφές όπως κείμενο, εικόνες, tweet ή γεωχωρικά δεδομένα. Τα δεδομένα προέρχονται επίσης από διαφορετικές πηγές, όπως μηχανήματα, άτομα, οργανωτικές διαδικασίες (τόσο εσωτερικές όσο και εξωτερικές). Κινητήρια δύναμη είναι οι τεχνολογίες κινητών, τα μέσα κοινωνικής δικτύωσης, οι φορετές τεχνολογίες, οι γεωτεχνολογίες, τα βίντεο και πολλά ακόμα. Ιδιότητές της είναι ο βαθμός δομής και πολυπλοκότητας.
Η εγκυρότητα (veracity) αναφέρεται στη συμμόρφωση με τα γεγονότα και στην ακρίβεια. Η εγκυρότητα είναι επίσης η ποιότητα και η πηγή των δεδομένων. Ιδιότητές της είναι η συνέπεια, η πληρότητα, η ακεραιότητά και η ασάφεια. Κινητήρια δύναμη είναι το κόστος και η ανάγκη για ιχνηλασιμότητα. Με τον μεγάλο όγκο, την ταχύτητα και την ποικιλομορφία των δεδομένων που παράγονται, πρέπει να αναρωτηθούμε: οι πληροφορίες είναι πραγματικές ή πλαστές;
Υπάρχουν και άλλα αναδυόμενα χαρακτηριστικά (V), αλλά θα αναφέρουμε μόνο ένα ακόμα, την αξία (value). Αναφέρεται στη δυνατότητα και την ανάγκη μας να μετατρέπουμε τα δεδομένα σε αξία. Αξία δεν σημαίνει απλώς κέρδος. Μπορεί να σχετίζεται με την ασφάλεια και την προστασία (όπως είναι οι πληροφορίες για σεισμούς), με την ιατρική (φορετά που μπορούν να αναγνωρίσουν σημάδια καρδιακής προσβολής) ή με κοινωνικά οφέλη, όπως η ικανοποίηση των εργαζομένων ή η προσωπική ικανοποίηση. Τα μεγάλα δεδομένα διαθέτουν μεγάλη εγγενή αξία που μπορεί να έχει πολλές μορφές.
Τα «V» δεν χαρακτηρίζουν απλώς τα μεγάλα δεδομένα, αντιπροσωπεύουν και τις προκλήσεις τους: τεράστιες ποσότητες δεδομένων, διαθέσιμα σε διάφορες μορφές, κατά κύριο λόγο μη δομημένα, με μεταβαλλόμενη ποιότητα, που απαιτούν γρήγορη επεξεργασία για τη λήψη αποφάσεων σε σωστό χρόνο.
Γιατί και πώς αναλύονται τα μεγάλα δεδομένα;
Το 80% των δεδομένων θεωρείται ότι είναι μη δομημένο. Πώς λαμβάνουμε αξιόπιστες και ακριβείς γνώσεις; Τα δεδομένα πρέπει να φιλτραριστούν, να κατηγοριοποιηθούν, να αναλυθούν και να οπτικοποιηθούν.
Η ανάλυση των μεγάλων δεδομένων είναι η τεχνολογική διαδικασία της εξέτασης των μεγάλων δεδομένων (μεγάλος όγκος, υψηλή ταχύτητα ή/και μεγάλη ποικιλομορφία συνόλων δεδομένων) για την αποκάλυψη πληροφοριών (κρυφών μοτίβων, συσχετισμών, τάσεων της αγοράς ή/και προτιμήσεων των πελατών). Αυτή βοηθά οργανισμούς, κυβερνήσεις ή ιδρύματα να εξετάσουν τα σύνολα δεδομένων και να αποκτήσουν γνώσεις ώστε να λάβουν ενημερωμένες, εξυπνότερες και γρηγορότερες αποφάσεις.
Αυτό απαντά σε τρεις σημαντικές ερωτήσεις: τι, γιατί και πώς. Έχουμε δει ήδη το τι, οπότε τώρα θα κάνουμε μια επισκόπηση του γιατί και του πώς.
Το γιατί και το πώς των μεγάλων δεδομένων
Τα μεγάλα δεδομένα ακολουθούν την αρχή του «όσα περισσότερα γνωρίζεις για ένα θέμα, τόσο πιο αξιόπιστα μπορείς να αποκτήσεις νέες γνώσεις και να κάνεις προβλέψεις για το τι θα συμβεί στο μέλλον».
Ένας τυπικός κύκλος ζωής διαχείρισης δεδομένων περιλαμβάνει τη λήψη, την αποθήκευση, την επεξεργασία, την ανάλυση, την οπτικοποίηση, την κοινή χρήση και τις εφαρμογές. Το cloud και τα μεγάλα δεδομένα συμπορεύονται, με την ανάλυση δεδομένων να πραγματοποιείται στις υπηρεσίες δημόσιων cloud. Εταιρείες όπως η Amazon, η Microsoft και η Google προσφέρουν υπηρεσίες cloud που παρέχουν τη δυνατότητα γρήγορης ανάπτυξης τεράστιων ποσοτήτων υπολογιστικής ισχύος, ώστε οι εταιρείες να μπορούν να έχουν πρόσβαση σε κορυφαία υπολογιστική ισχύ κατ’ απαίτηση, χωρίς να είναι ιδιοκτήτες της απαραίτητης υποδομής, και να εκτελούν ολόκληρο τον κύκλο ζωής της διαχείρισης δεδομένων στο cloud. Στην προηγούμενη ενότητα, μιλήσαμε σχετικά με τα SaaS, IaaS και PaaS – το cloud computing προσφέρει στους ερευνητές των μεγάλων δεδομένων την ευκαιρία να έχουν πρόσβαση σε οτιδήποτε ως υπηρεσία (XaaS).
Προεπεξεργασία
Τα ανεπεξέργαστα δεδομένα μπορεί να περιέχουν σφάλματα ή να έχουν τιμές χαμηλής ποιότητας (ελλιπείς τιμές, εξαιρέσεις, θόρυβος, ασυνεπείς τιμές) και μπορεί να χρειάζεται να υποβληθούν σε προεπεξεργασία (καθαρισμός δεδομένων, συγχώνευση, μεταμόρφωση και μείωση) για να αφαιρεθεί ο θόρυβος, να διορθωθούν τα δεδομένα ή να μειωθεί το μέγεθός τους. Για παράδειγμα, για την ανάλυση συμπεριφοράς της χρήσης νερού, η προεπεξεργασία δεδομένων είναι απαραίτητη ώστε τα δεδομένα του έξυπνου μετρητή νερού να γίνουν χρήσιμα μοτίβα κατανάλωσης νερού, καθώς μπορεί να αποτύχει η καταγραφή δεδομένων από τους αισθητήρες IoT.
Αναγνώριση μοτίβων ή γνώσεων
Η αυτοματοποιημένη επεξεργασία πίσω από τα μεγάλα δεδομένα περιλαμβάνει την κατασκευή μοντέλων με βάση τα συλλεγμένα δεδομένα και την εκτέλεση προσομοιώσεων, τροποποιώντας την τιμή των σημείων δεδομένων για την παρατήρηση του τρόπου που επηρεάζει τα αποτελέσματα. Η προηγμένη τεχνολογία ανάλυσης που διαθέτουμε σήμερα μπορεί να εκτελεί εκατομμύρια προσομοιώσεις, διορθώνοντας ελαφρώς τις μεταβλητές σε μια προσπάθεια αναγνώρισης μοτίβων ή γνώσεων (εύρεση συσχετισμών ανάμεσα στις μεταβλητές) που μπορούν να προσφέρουν ένα ανταγωνιστικό πλεονέκτημα ή να επιλύσουν ένα πρόβλημα. Η ανάλυση συμπεριφοράς εστιάζει στις ενέργειες των ατόμων, ενώ η προγνωστική ανάλυση αναζητεί μοτίβα που μπορούν να βοηθήσουν στην πρόβλεψη τάσεων.
Για παράδειγμα, ας δούμε την επιχειρηματική ευφυΐα (ΕΕ). Η ΕΕ είναι η διαδικασία ανάλυσης δεδομένων με σκοπό την παροχή αξιοποιήσιμων πληροφοριών που βοηθούν τα ανώτερα στελέχη, τους διαχειριστές και τους εργαζόμενους να λάβουν ενημερωμένες επιχειρηματικές αποφάσεις. Η επιχειρηματική ευφυΐα εστιάζει στις επιχειρηματικές δραστηριότητες και την απόδοση. Τα δεδομένα που απαιτούνται για την ΕΕ είναι διαφορετικά, πιο σύνθετα. Τα συστήματα μεγάλων δεδομένων έχουν ανεπεξέργαστα δεδομένα που πρέπει να φιλτραριστούν και να υποστούν επεξεργασία προτού φορτωθούν και αναλυθούν για τους σκοπούς της ΕΕ. Τα εργαλεία που χρησιμοποιούνται είναι επίσης διαφορετικά, καθώς ο σκοπός και τα δεδομένα είναι διαφορετικά.
Εξόρυξη δεδομένων
Η διαδικασία ανακάλυψης μοτίβων από μεγάλα σύνολα δεδομένων μέσω της στατιστικής ανάλυσης ονομάζεται εξόρυξη δεδομένων. Η στατιστική ανάλυση είναι μια κοινή μαθηματική μέθοδος εξαγωγής και ανακάλυψης πληροφοριών. Οι στατιστικές μέθοδοι είναι μαθηματικοί τύποι, μοντέλα και τεχνικές που χρησιμοποιούνται για την εύρεση μοτίβων και κανόνων από ανεπεξέργαστα δεδομένα. Οι μέθοδοι που χρησιμοποιούνται συχνά είναι η ανάλυση παλινδρόμησης, η χωροχρονική ανάλυση, οι κανόνες συσχέτισης, η ταξινόμηση, η ομαδοποίηση και η βαθιά μάθηση.
Ένα παράδειγμα της πρακτικής χρήσης των μεγάλων δεδομένων φαίνεται στα δεδομένα κινητών τηλεφώνων. Τα δεδομένα χρήσης από τους αισθητήρες του τηλεφώνου μπορούν να χρησιμοποιηθούν για την ασφάλιση βάσει χρήσης (UBI). Η Sparkbit προσφέρει μια εξατομικευμένη προσφορά ασφάλισης στους οδηγούς με βάση τη συμπεριφορά τους. Το σύστημά της χρησιμοποιεί τις πληροφορίες από τα smartphone για να αξιολογήσει την τεχνική και την οδηγική συμπεριφορά. Τον Μάρτιο του 2018 είχε συσσωρεύσει 330 εκατομμύρια χιλιόμετρα ιστορικού διαδρομών που πραγματοποιήθηκαν από τους χρήστες του συστήματός της. Έχει 30.000 νέους ενεργούς χρήστες τον μήνα, με τον καθένα να καταγράφει κατά μέσο όρο 70 καινούριες διαδρομές. Μια σειρά σημείων από το GPS (γεωγραφικές συντεταγμένες, ακρίβεια εκτιμώμενης θέσης, ταχύτητα οχήματος ή κατεύθυνση κίνησης του οχήματος) δημιουργούνται για κάθε μετακίνηση. Το σύστημα αποθηκεύει τα δεδομένα, τα επεξεργάζεται και αναλύει τη συμπεριφορά του οδηγού (όπως την επικίνδυνη οδήγηση) και εκδίδει μια βαθμολογία για τη διαδρομή και τον οδηγό.
Για να βγάζουν νόημα τα διαθέσιμα δεδομένα, συχνά χρησιμοποιείται προηγμένη ανάλυση που περιλαμβάνει τεχνητή νοημοσύνη και μηχανική μάθηση. Με τη μηχανική μάθηση, οι υπολογιστές μπορούν να μάθουν να αναγνωρίζουν τι αντιπροσωπεύουν οι διάφορες εισαγωγές δεδομένων ή οι συνδυασμοί των εισαγόμενων δεδομένων, αναγνωρίζοντας μοτίβα πολύ γρηγορότερα και πιο αποτελεσματικά από τους ανθρώπους.