De plus en plus d’entreprises se lancent dans des projets d’analyse de données. Pourtant, une vaste majorité de ces projets ne voit jamais le jour, notamment par manque d’organisation et de process.
En effet, tout projet doit respecter différentes phases clés pour aboutir, parmi lesquelles on retrouve la phase d’exploration que nous allons aborder dans cet article.
Le fait est que la data science en entreprise n’est pas encore mature et des méthodologies adaptées, telles que le DataOps, ne sont pas encore appliquées partout et/ou correctement. Bien sûr, ce n’est pas la seule raison qui empêche de mener à bien un projet, mais ce point est important.
Selon l’approche DataOps, voici les grandes étapes d’un projet data :
- la phase d’exploration ;
- la phase de validation, qui correspond à une phase pilote permettant de valider l’intérêt d’un projet ;
- la phase de production, lorsque le déploiement du projet est fait à l’échelle de toute l’organisation.
La phase exploratoire est donc la première phase d’un projet data. À ce titre, elle est cruciale et détermine la direction empruntée par un projet.
La phase d’exploration est propice à la mise en place d’une collaboration efficace
À ce stade, tout est encore possible, les contours du projet sont encore flous mis à part des besoins business déjà posés sur la table.
Pour pouvoir structurer le projet et lui donner une direction, il est absolument nécessaire de rassembler les experts métiers avec l’équipe data. En effet, la réussite du projet data nécessite la combinaison d’expertise technique et de connaissances métiers.
L’expertise technique est apportée par les data scientist, tandis que les connaissances métiers sont apportées par les products owner, qui se font les porte-voix des besoins business de l’entreprise.
La synergie entre l’expertise technique et les connaissances métiers est fondamentale pour l’avancement du projet data.
De plus, cette collaboration peut aussi devenir un formidable réservoir à idées (ou « use case »), auxquelles n’auraient pas pensé les experts métiers sans une expertise technique.
Plus largement, un projet data (dans son ensemble) nécessite la collaboration de beaucoup d’équipes différentes. Cette première étape sert aussi à asseoir tout le monde à la même table et à s’assurer qu’il n’y a aucun frein majeur au projet, avant de commencer effectivement le travail.
La phase exploratoire permet de s’assurer de la disponibilité des données nécessaires au projet data
Au gré des échanges entre data scientist et product owner apparaîtront les données nécessaires à la réalisation du projet. Un autre objectif de cette première étape est donc de s’assurer de la disponibilité de ces données.
Si toutes les données sont disponibles, tant mieux (et vous avez de la chance !). Mais si ce n’est pas le cas, il faut se poser les questions suivantes :
- Pouvons-nous collecter les données manquantes et à quel horizon de temps ?
- Peut-on faire appel à des sources de données externes ?
- Y a-t-il d’autres substituts possibles ?
- Est-il possible de recadrer le projet pour exclure ces données sans (trop) perdre en valeur ajoutée ?
Tout cela fait partie plus largement d’une stratégie de gouvernance des données qu’il convient de mettre en place à l’échelle de l’organisation (à partir d’une certaine taille tout du moins).
Enfin, c’est aussi durant cette étape que se fera la majeure partie de la préparation et du nettoyage des données. Même si ce travail n’est pas directement créateur de valeur, il ne faut pas sous-estimer le temps nécessaire pour l’effectuer. En effet, plus de 50 % du travail des data scientist serait dédié à cette tâche, selon une étude récente menée par Anaconda.
Développer un POC pour conclure cette phase d’exploration
Une fois le cadrage et la direction du projet fixés, après la préparation des données, la phase d’exploration sert aussi à la mise en place d’un POC (Proof of Concept).
L’objectif principal de ce POC est de démontrer la faisabilité technique du projet en construisant une première version très minimale et probablement buggée, mais délivrant les résultats attendus. Nous parlions déjà en détail de POC en data dans cet article.
Avec un POC, on commence à s’éloigner de la phase exploratoire pour rentrer petit à petit dans la phase de validation. Cependant, chaque phase est itérative. Si le POC a fonctionné, on peut faire passer le projet à l’étape suivante, mais il est aussi possible relancer un cycle de phase exploratoire si le POC n’a pas fonctionné ou bien pour explorer une piste alternative.
Plus important encore, il faut garder en tête que le POC sert à valider la faisabilité technique, mais ne permet pas de démontrer que les besoins business sont remplis. Pour cela, il faut lancer un pilote (ou un Proof of Sale, comme souligné par LeMagIT), qui est au cœur de la seconde phase, la phase de validation, que nous aborderons dans un autre article.
N’hésitez pas à nous contacter si vous souhaitez un accompagnement pour le lancement d’un projet.
Vous pouvez également utiliser notre plateforme DataOps Saagie afin de passer en production votre POC ! Testez gratuitement la plateforme avec notre free trial !