Qu’est-ce qu’un Data Lake (Lac de Données) ?

décembre 11, 2016
Data Basics

Aujourd’hui l’avènement du Big Data et ses évolutions constantes créent de plus en plus de besoins en technologies performantes d’analyse des données dans les entreprises. Le Data Lake (ou lac de données) fait son apparition pour répondre à ces besoins.

Le Lac de Données en bref

C’est un système informatique capable de stocker en un seul endroit toutes les données présentes dans une entreprise. Elle tend à se substituer peu à peu à son ancêtre, le Data Warehouse (entrepôt de données). Les différences entre les deux ? La première est la nature des données que chaque structure est capable d’ingérer et de traiter : uniquement des données structurées pour le data warehouse alors que le data lake traite tous types de données. Le lac de données apporte une flexibilité supplémentaire. Le data warehouse a une structure fixe et verticale ; les données sont envoyées vers des datamarts spécialisés pour des groupes ou types de métiers, qui fournissent ensuite l’utilisateur final. Le lac de données, quant à lui, a une structure plus souple et rend la donnée plus malléable.

A quoi sert un Data Lake ?

Grâce au data lake, l’utilisateur va pouvoir matérialiser son besoin, extraire les différentes données liées à ce besoin et les combiner à sa guise pour en faire sens. La grande évolution du data lake est qu’il rend le traitement des données plus opérationnel, car il est capable de réagir aux données en temps réel. La flexibilité rendue possible par le lac de données ainsi que la dimension opérationnelle vont permettre aux entreprises de se concentrer sur leur proposition de valeur et les solutions innovantes qu’elles peuvent mettre en place, leur cycle d’innovation étant ainsi optimisé et accéléré. Le data lake est une structure permettant de traiter de très grandes volumétries de données hétérogènes même si on n’en connaît pas encore l’usage. La donnée brute ingérée reste vierge et permet ainsi d’ouvrir le champ des possibilités quant à son analyse. De plus, grâce au data lake, il est possible de coupler la donnée interne de l’entreprise avec des données externes telles que la météo, la pollution, le trafic, le nombre de vélos circulant à Paris, etc… pour en faire un outil puissant de prédiction des comportements.

Comment fonctionne t-il ?

Comme expliqué précédemment, un lac de données va ingérer toutes les données présentes dans l’entreprise, quelles que soient leur nature et leur provenance : réseaux sociaux, CRM, géolocalisation etc. Mais quoi de mieux qu’un schéma pour expliquer et démocratiser le fonctionnement d’un data lake!

La mise en oeuvre du lac de données

Un data lake peut être déployé de deux façons : la façon classique on premise, c’est-à-dire sur un datacenter physique mais également dans le Cloud. Le Cloud semble être la solution la plus optimale car elle permet d’adapter l’infrastructure en fonction des besoins et de réduire ses coûts. Il permet également d’avoir plus de choix en termes de composants d’applications et une interaction en temps réel.

Il est important de noter que le concept de gouvernance des données vient naturellement s’ajouter à celui de data lake. En effet, les données ingérées étant de natures diverses et combinables à l’infini, il est important d’exploiter toute leur richesse dans le but d’optimiser les processus, de créer et d’améliorer les expériences clients. La data gouvernance est un savant mélange de plusieurs compétences : technologies, data science, marketing digital, management de projet, etc. Pour pouvoir valoriser les données stockées dans les data lakes, il est indispensable d’avoir un panel d’outils intégrés qui seront capables d’aider à la mise en place de solutions analytiques et d’applications métiers.

En conclusion, le data lake tend à relever les défis suivants : non seulement le stockage et le traitement des données, mais aussi les compétences annexes comme la visualisation, la data-science, la gouvernance des données, et les capacités de traitement en temps réel.

Pour quels usages ?

Les premiers utilisateurs de data lakes ont été le marketing et les médias, mais aujourd’hui tous les secteurs (industrie, services, médical, etc) et métiers (data scientists, développeurs, etc) sont concernés. Les applications métiers du data lake sont aujourd’hui très variées : de la prévision des ventes à la gestion des stocks en passant par la maintenance prédictive, les projets de segmentation et prédiction des comportements des consommateurs ou encore l’adaptation des traitements médicaux.

Quelques solutions pour s'équiper

Hadoop

La plus connue est Hadoop, un framework open source en langage Java qui est constitué d’un noyau de stockage, Hadoop Distributed File System (HDFS) et d’une partie de traitement des données, MapReduce. Hadoop possède une infrastructure capable de s’étendre à l’infini et permet de traiter plus rapidement et efficacement l’ensemble des données grâce à leur fractionnement au sein de nœuds (serveurs indépendants au sein du cluster). Hadoop est aujourd’hui le meilleur système global de stockage.

Spark Apache

Spark est aussi un framework open source en langage Scala. Contrairement à Hadoop, Spark ne travaille pas par étape mais est capable d’agir sur l’ensemble des données en même temps. Cependant, il ne possède pas de système de gestion de fichier et est obligé de passer par un tiers (HDFS, Cassandra, etc).

Saagie, le héron qui surplombe le lac (de données)

Grâce à Saagie, vos données sont désilotées et rassemblées au même endroit, elles sont libérées et fluidifiées, ce qui les rend accessibles plus facilement. Tel le héron survolant le lac pour aller y piocher sa nourriture, Saagie ira puiser dans le data lake pour en sortir les données précises dont vous avez besoin afin de les exploiter en temps réel et ainsi en retirer toute la valeur ajoutée pour votre entreprise. Saagie propose une plateforme clé en main et totalement modulable en fonction de vos besoins, qui vous accompagne de l’extraction de vos données aux applications métiers qui en découlent, en passant par le stockage et le traitement de celles-ci. Déployable dans le Cloud ou sur votre propre data center, la plateforme est totalement modulable et adaptable à votre organisation. Elle s’adapte à toutes les technologies éprouvées existantes.