I.

Présentation des mégadonnées

Comme nous avons pu le voir tout au long du cours, les données jouent un rôle essentiel dans notre société. Grâce aux données, nous comprenons mieux le monde qui nous entoure. Au cours des dernières décennies, l’essor d’Internet, des services du Web 2.0, des appareils mobiles et des capteurs a entraîné la création de quantités de données gigantesques.

L’association de ce « flux toujours plus important » de données et des technologies informatiques à la demande (notamment l’informatique en nuage) a donné naissance au concept de mégadonnées (ou big data en anglais). Ces données ne peuvent plus être traitées par les systèmes informatiques des bases de données conventionnelles.

Définitions des mégadonnées

Les mégadonnées sont généralement définies comme de « grandes quantités de données produites très rapidement par un grand nombre de sources différentes ».

Les définitions sont subjectives puisqu’elles ne s’accordent pas toutes sur la quantité de données limite pour commencer à parler de mégadonnées. On ne trouve pas d’indication d’un certain nombre d’octets – l’unité de mesure des données la plus commune (par exemple, les gigaoctets). Étant donné la rapidité des évolutions technologiques et l’augmentation du nombre d’appareils connectés à Internet, la quantité de données créées croit elle aussi.

Il est possible que la quantité limite de données pour basculer dans le domaine du big data croisse avec le temps. Et puis, tout dépend de l’organisation, du secteur ou du pays. Ce qui est « big » (« gros ») pour certains est petit pour d’autres. Songez à la différence entre Apple et une petite entreprise, ou entre le Portugal et la Chine.

Exemple

Partout où nous passons, nous laissons d’immenses traces de données

L’année 2020 a été marquée par l’un des plus grands défis que le monde ait jamais connu. Nous étions déjà « connectés », mais soudainement, tous les aspects de notre vie ont migré en ligne : sport, travail, études, etc. Les magasins, les salles de sport, les bureaux, les restaurants et les cinémas ont fermé. Internet est devenu la seule façon de travailler (pour ceux qui n’étaient pas en première ligne), d’étudier, de communiquer, d’acheter, de rencontrer des gens ou de regarder un film. Impossible de voir les membres de sa famille et de les serrer dans ses bras.

La transition numérique s’est encore accélérée. Dans la même journée, chacun d’entre nous a pu :

  • Communiquer grâce à des messages sur WhatsApp

  • Naviguer en ligne pour chercher des informations

  • Faire ses courses, acheter des services ou des objets

  • Envoyer une photo mignonne de son animal domestique ou un document de travail

  • Regarder une série sur Netflix ou Amazon Prime Video avant d’aller au lit

  • Écouter de la musique sur SoundCloud, Spotify ou YouTube

  • Acheter et lire un livre sur une liseuse

Multipliez cela par les millions d’utilisateurs quotidiens de mobiles ou d’ordinateurs (ou des deux !).

Votre empreinte numérique

Toutes nos actions ou presque laissent une trace numérique. Nous produisons des données quand nous nous déplaçons avec nos mobiles équipés de capteurs, quand nous faisons des recherches en ligne, quand nous communiquons avec notre famille et nos amis sur les réseaux sociaux ou des applications de dialogue en ligne, et quand nous faisons des achats. Chacune de nos actions numériques laisse une empreinte numérique, parfois même sans qu’on le sache ou qu’on le souhaite.

Vous êtes-vous déjà demandé comment Amazon, Spotify ou Netflix s’y prennent pour vous suggérez ce qui pourrait vous plaire ? Les systèmes de recommandation sont l’une des applications communes des mégadonnées. Amazon, Netflix ou Spotify utilisent des algorithmes basés sur les mégadonnées pour formuler des recommandations spécifiques en fonction de vos préférences et de votre historique de recherche. Siri et Alexa s’appuient sur les mégadonnées pour répondre à un ensemble de questions de leurs utilisateurs. Google est désormais en mesure de faire des recommandations à partir des mégadonnées sur les appareils de ses utilisateurs. Mais comment ces recommandations influencent-elles notre gestion du temps, les produits que l’on achète ou les opinions que nous consultons ? Pourquoi ces grandes entreprises investissent-elles tant d’argent dans ce domaine ? En plus de vous connaître, ont-elles aussi une influence sur vous ? Les systèmes de recommandation représentent près d’un tiers du trafic de nombreux sites populaires, mais nous ne connaissons pas l’étendue de leur influence sur nos décisions.

Exemple

Que sait votre téléphone de vous ?

Vous êtes-vous déjà demandé ce que votre mobile sait de vous ? De votre comportement ? De vos sentiments ? De votre humeur ? Ou de votre santé ? Les mobiles multifonctions sont dotés de nombreux capteurs perfectionnés qui génèrent constamment des données à votre sujet pour vous faciliter la vie. Mais où elle la ligne de démarcation entre confidentialité et protection des données, d’une part, et commodité, de l’autre. À vous de réfléchir et de choisir.

Les mégadonnées associent des données structurées, semi-structurées et non structurées, susceptibles d’être explorées et utilisées dans le cadre de l’apprentissage automatique, l’analyse prédictive et d’autres applications avancées d’analyse. Les données structurées sont des données pouvant être classées en rangs et colonnes sous la forme de bases de données relationnelles. Les données non structurées ne sont pas organisées de façon prédéfinie – ce sont, par exemple, des tweets, les publications d’un blogue, des photos, des chiffres et même des données vidéo.

Les organisations utilisent des systèmes spéciaux pour stocker et traiter les mégadonnées. C’est ce que l’on appelle l’architecture de gestion des données.

Caractéristiques des mégadonnées

La description la plus largement acceptée des mégadonnées est celle de Doug Laney qui a énoncé le principe des trois V en 2001 : le Volume de données de plus en plus massif ; la Variété de ces données stockées et traitées par les systèmes de mégadonnées ; la Vélocité à laquelle ces données sont produites, récoltées et analysées. Véracité, valeur et variabilité sont venues enrichir ces descriptions.

Le Big Data & Analytics Hub d’IBM a créé un schéma (page en anglais) qui explique et illustre les quatre premiers V.

Le volume évoque la quantité de données produites/collectées à chaque instant dans notre monde hautement numérisé. On le mesure en octet (téraoctet, exaoctet, zettaoctet). Comme vous pouvez l’imager, le stockage, la distribution ou encore le traitement de ces immenses volumes de données posent de nombreux problèmes. Ces défis sont synonymes de coûts, d’extensibilité et de performance. La croissance du volume est également due à l’augmentation des sources de données (toujours plus d’internautes), l’amélioration des résolutions (capteurs) et l’extensibilité des infrastructures.

Note

Chaque jour, 2,5 quintillions d’octets de données sont créés. Cela correspond à 10 millions de disques Blu-ray par jour. 95 millions de photos et de vidéos sont publiées chaque jour sur Instagram. 306,4 milliards de courriels envoyés et 5 millions de tweets rédigés. On compte 4,57 milliards d’utilisateurs actifs d’Internet dans le monde. Tous nos appareils produisent, collectent et stockent des données.

  • La vélocité équivaut à la vitesse à laquelle les données sont produites sans arrêt, transmises en continu ou presque, et traitées à l’aide de technologies sur le cloud et en local.

Note

Chaque seconde, une heure de vidéo est mise en ligne sur YouTube.

  • La variété renvoie à la diversité des données. Des données sont mises à disposition sous différentes formes, aussi bien du texte que des images, des tweets ou des données géospatiales. Les données proviennent de différentes sources : machines, individus, processus organisationnels (aussi bien internes qu’externes). Les vecteurs de variabilité sont nombreux : technologies mobiles, réseaux sociaux, objets connectés portables, géotechnologies, vidéo et cetera et cetera. La variabilité est caractérisée par un degré de structuration et de complexité.

  • La véracité désigne la conformité aux faits et la précision. La véracité dépend également de la qualité et de l’origine des données. Elle est caractérisée par un niveau de cohérence, de complétude, d’intégrité et d’ambiguïté. Ses vecteurs sont les coûts et le besoin de traçabilité. Étant donné les volumes, la vélocité et la variété des données produites, il convient de s’interroger sur la réalité de l’information.

D’autres V sont de plus en plus employés, mais nous nous contenterons d’en évoquer un dernier : la valeur. Elle renvoie à notre capacité à transformer les données en valeur. La valeur n’est pas seulement synonyme de profit. C’est également une question de sécurité et de sûreté (données séismiques), de santé (les objets connectés portables repèrent des signes avant-coureurs d’une crise cardiaque) ou de bienfaits sociaux (la satisfaction personnelle ou celle des employés). Les mégadonnées ont une grande valeur multidimensionnelle intrinsèque.

Ces V ne caractérisent pas seulement les mégadonnées, ils intègrent également les défis qui leur sont associés : des quantités énormes de données, disponibles sous différents formats, principalement non structurées, de qualité inégale et qui requièrent un traitement rapide afin d’être converties en décisions opportunes.

Pourquoi et comment les mégadonnées sont-elles analysées ?

On considère que 80 % des données ne sont pas structurées. Comment en tirer des enseignements fiables et précis ? Les données doivent être filtrées, catégorisées, analysées et visualisées.

Les systèmes d’analyse des mégadonnées sont des processus technologiques d’exploration (d’ensembles de données dont le volume, la vélocité et la variété sont élevés) dont l’objectif est de recueillir des informations – déceler des modèles, des corrélations, des tendances de marché ou des préférences de clients – susceptibles d’aider les organisations, gouvernements ou institutions à tirer des conclusions et à prendre des décisions éclairées, judicieuses et rapides à l’aune de ces données.

Trois questions importantes sont ici posées. Quoi ? Pourquoi ? Comment ? Nous avons déjà répondu à la première. Nous allons donc maintenant nous pencher sur le pourquoi et le comment.

Le pourquoi et le comment des mégadonnées

Les mégadonnées suivent le principe suivant : « plus on en apprend sur un sujet, plus on sera en mesure de tirer de nouvelles conclusions et de faire des prédictions à ce sujet ».

Un cycle de développement de la gestion de donnée classique comprend des phases d’ingestion, de stockage, de traitement, d’analyse, de visualisation, de diffusion et d’application. Le cloud et les mégadonnées vont de pair. Les analyses de données se font sur des services de cloud publics. Des entreprises comme Amazon, Microsoft et Google proposent des services de cloud qui permettent le déploiement rapide d’une puissance informatique gigantesque. Les entreprises peuvent ainsi accéder à des performances informatiques de pointe à la demande, sans avoir à posséder les infrastructures requises, puis exécuter l’intégralité du cycle de vie de développement de la gestion de donnée directement sur le cloud. Dans la partie précédente, nous avons évoqué les SaaS, IaaS et PaaS – l’informatique en nuage propose aux chercheurs d’accéder à « tout en tant que service » ou XaaS (acronyme anglais de anything as a service).

Prétraitement

Les données brutes contiennent des erreurs ou des valeurs de mauvaise qualité (valeurs manquantes, valeurs aberrantes, bruit, valeurs contradictoires). Elles doivent parfois être prétraitées (nettoyage, fusion, transformation et réduction) afin de réduire le bruit, de corriger des données ou de réduire la taille de l’ensemble de données. Lorsque l’on étudie, par exemple, les habitudes de consommation d’eau, le prétraitement des données permet de transformer les données des compteurs d’eau connectés en modèles de consommation d’eau, car les capteurs IdO échouent parfois à enregistrer des données.

Des graphiques avec des modèles de données
Des graphiques avec des modèles de données

Repérer des tendances, tirer des conclusions

Le processus automatisé d’analyse des mégadonnées consiste à construire des modèles à partir des données collectées, puis à réaliser des simulations en faisant varier les valeurs afin d’observer des effets sur les résultats. Grâce aux technologies d’analyse de pointe actuellement à notre disposition, il est possible de réaliser des millions de simulations, en ajustant des variables dans l’espoir de repérer des tendances, de tirer des conclusions (c’est-à-dire d’établir des corrélations entre différentes variables) susceptibles de fournir un avantage compétitif ou de résoudre un problème. L’analyse des comportements se concentre sur les actions des individus, tandis que l’analyse prédictive a pour but de rechercher des tendances pour prédire des phénomènes.

Exemple

Pour illustrer cela, penchons-nous sur l’informatique décisionnelle ou BI (acronyme anglais de business intelligence). L’informatique décisionnelle est un processus d’analyse de données, dont l’objectif est de fournir des informations exploitables aux décideurs, dirigeants et salariés, afin qu’ils prennent des décisions avisées pour leur entreprise. L’informatique décisionnelle a trait à la performance et aux activités commerciales. Les données d’intérêt en informatique décisionnelle sont différentes, plus élaborées. Les systèmes de mégadonnées disposent de données brutes qui doivent être filtrées et organisées avant d’être traitées et analysées, afin d’être utiles à l’informatique décisionnelle. Les outils employés sont également spécifiques, puisque les données et les objectifs sont différents.

L’exploration de données

Le processus de découverte de tendances dans de grands ensembles de données à partir d’analyses statistiques est qualifié d’exploration de données (ou data mining en anglais). L’analyse statistique est une méthode mathématique répandue d’extraction et de découverte d’informations. Les méthodes statistiques sont des formules mathématiques, des techniques et des modèles, mis en place dans le but de déceler des tendances et des règles, à partir de données brutes. On citera parmi les méthodes courantes la régression, la statistique spatio-temporelle, les règles d’association, la classification, le partitionnement de données et l’apprentissage profond.

Exemple

Les données mobiles sont une bonne illustration des applications pratiques de l’utilisation des mégadonnées. Le système des assurances au kilomètre peut s’appuyer sur les données d’utilisation recueillies par les capteurs des mobiles. Sparkbit propose aux conducteurs un système d’assurance personnalisée fondé sur leur comportement. Ce système utilise les informations fournies par les mobiles multifonctions pour évaluer les comportements et la technique de conduite. En mars 2018, l’entreprise avait collecté un historique de conduite de 330 millions de kilomètres grâce à ses utilisateurs. Elle revendique 30 000 nouveaux utilisateurs actifs par mois. Chacun de ces utilisateurs enregistre en moyenne 70 nouveaux trajets. Lors de chaque trajet, une séquence de valeurs est relevée par GPS (coordonnées géographiques, précision de la position estimée, vitesse et direction du véhicule). Le système stocke les données, les traite, puis analyse le comportement des conducteurs (par exemple, la dangerosité de la conduite) afin d’établir une note pour chaque trajet et chaque conducteur.

Des analyses de pointe s’appuyant sur l’intelligence artificielle et l’apprentissage automatique sont communément employées pour tirer des conclusions à partir des données recueillies. Les ordinateurs apprennent à identifier la signification de différentes données, ou combinaisons de données, par le biais de l’apprentissage automatique, afin de repérer des tendances bien plus rapidement et efficacement que les humains.

Next section
II. Applications et implications des mégadonnées