Depuis une dizaine d’années, le big data s’invite dans tous les domaines pour faire l’analyse des données afin d’obtenir des résultats pour les décisions et la stratégie d’une entreprise.
Les décideurs ont souvent besoin d’un rapport, d’un tableau statistique, d’indicateurs ou d’un graphique pour analyser les informations de l’entreprise ou les besoins des clients.
1. Analyse de données : pourquoi utiliser le calcul distribué
Le calcul distribué est un processus informatique utile pour l’analyse et le traitement des données en grand nombre grâce à des ordinateurs qui travaillent ensemble pour fournir des résultats à partir de variables multiples. Ces résultats pourront ensuite être modélisés sous la forme d’un tableau statistique, d’un rapport ou d’un graphique.
A. Calcul distribué : puissance de calcul et volume de données
Le calcul distribué, en anglais distributed computing, est une infrastructure numérique dans laquelle des ordinateurs liés réalisent conjointement les tâches de calcul entrantes.
Les ordinateurs sont physiquement séparés, mais collaborent pour se partager le travail. La mémoire des systèmes d’informations ne peut pas être commune, vu qu’il s’agit différentes machines, mais grâce à un réseau internet ou intranet, une communication intermachines a lieu. Ce processus est transparent pour l’utilisateur.
Le calcul distribué peut être divisé en trois parties :
- le cloud computing : les fournisseurs de cloud livrent des infrastructures rentables et très évolutives. Il existe différents modèles de services en fonction des besoins, comme SaaS, IaaS, PaaS ;
- le grid computing : un superordinateur avec une puissance de calcul très importante et où les tâches sont partagées entre différentes instances ;
- le cluster computing : signification plus générale qui désigne toutes les formes de calcul distribué regroupant des ordinateurs individuels et leurs capacités de calcul en un cluster.
B. Calcul distribué pour d’importants volumes de données
Le calcul distribué permet aux entreprises d’utiliser des ordinateurs courants et peu coûteux pour construire une infrastructure performante, abordable et modulable.
Autrement, les entreprises devraient avoir recours à des superordinateurs nommés mainframes. Cette technologie est cependant vieillissante et coûte extrêmement cher. Aussi bien en France qu’en Europe, il est difficile de trouver des personnes ayant une formation avec des cours sur les outils mainframe.
Certains grands clusters permettent maintenant de dépasser la performance des mainframes. L’architecture du calcul distribué est souvent redondée, ce qui la rend plus résiliente. Le calcul distribué permet également d’augmenter la flexibilité et l’évolutivité du système d’information pour s’adapter rapidement et à court terme aux changements.
Le calcul distribué est donc naturellement très utilisé aujourd’hui dans l’analyse de données et particulièrement lorsqu’il faut fournir des résultats, un tableau statistique ou une classification de l’information à partir d’un grand nombre de données ou de variables. On peut par exemple citer :
- les moteurs de recherche,
- les outils de cartographie comme Google Maps ou Google Earth,
- les réseaux sociaux…
C. Calcul distribué pour l’analyse de données : vers une approche plus écologique
Le SETI@home est une expérience scientifique de l’université américaine UC Berkeley qui consiste en l’utilisation d’ordinateurs connectés à Internet pour analyser les données de télescopes à la recherche d’un signal radio validant l’hypothèse d’une intelligence extraterrestre.
Le logiciel utilisé fonctionne lorsque l’écran est en veille ou en utilisant la puissance du processeur, qui ne serait autrement pas utilisée. Il s’agit donc d’une méthode d’optimisation de la puissance d’ordinateurs déjà utilisés. Cela donne de bons résultats pour l’économie des ressources et de l’électricité.
2. Analyse de données : les difficultés rencontrées avec le calcul distribué
Les principales difficultés rencontrées avec le calcul distribué pour l’analyse de données sont l’implémentation, la maintenance et la sécurité des données.
A. Calcul distribué pour l’analyse de données, un effort d’implémentation et une maintenance accrue
L’architecture complexe du calcul distribué nécessite un effort pour l’implémentation et la maintenance. Il faut également faire face aux problèmes de timing et de synchronisation entre les différentes composantes.
Le calcul distribué peut être basé sur un nombre plus important d’interfaces, ce qui augmente de manière statistique le risque d’erreurs ou de bugs dans les projets. Il faut alors de plus longues analyses pour obtenir des résultats.
B. Calcul distribué pour l’analyse de données et problèmes de sécurité
Le calcul distribué pose cependant des problèmes en matière de sécurité, à plusieurs niveaux. Le premier concerne la sécurité des données. La répartition entre plusieurs ordinateurs nécessite d’importants transferts d’informations. L’utilisation d’outils de transfert sécurisés et le chiffrement des données peuvent être des solutions de mitigation contre le vol ou la corruption de données.
Avec le cloud computing, l’entreprise qui fournit l’infrastructure pourrait avoir accès à des données à caractère personnel ou sensible. Le choix d’un système de cloud public, privé ou hybride est une variable à prendre en compte dans le cadre de la classification de la data.
Il faut également faire attention à la sécurité des assets utilisés en maîtrisant la cartographie du parc informatique ainsi que les outils et méthodes utilisés et mener régulièrement des analyses ayant pour finalités la sécurité et la protection des données.
Le calcul distribué est donc un outil qui donne de bons résultats pour l’analyse de gros volumes de données et de variables. Cela permet ensuite de modéliser la data sous forme de graphique, de tableau statistique, de rapport ou d’indicateur.
Cette méthode comporte cependant des problématiques, dont la principale est de garantir la sécurité des données, leur implémentation ou leur maintenance.