Aux Etats-Unis comme en France avec l’ère du Big Data, de nouveaux métiers font progressivement leur apparition, comme celui du data scientist. Il est devenu incontournable dans le processus d’exploration et d’exploitation des données. Pourtant, ce métier n’est pas forcément compris de tous.
Qui est le data scientist ?
La donnée est devenue un actif de première importance pour la plupart des entreprises. Cependant, encore faut-il savoir l’exploiter pour en tirer toute la valeur. C’est à ce moment que le data scientist intervient : il fait parler les données. Il se charge alors de les recouper, puis d’en fournir une interprétation claire. En cela, le data scientist porte bien son nom : c’est un métier proche de celui du chercheur. Il dispose d’une boîte à outil mathématique et statistique lui permettant de travailler la donnée et d’en tirer les modèles les plus pertinents.
Le processus de data mining et de prédictions
Le data scientist va partir d’une problématique métier (prévision des ventes, maintenance prédictive, segmentation des clients, détection des fraudes, etc) qu’il va reformuler en problème scientifique (classification supervisée ou non supervisée, régression, recommandation, optimisation, etc)
Plus précisément, le data scientist va :
- Récupérer les données de multiples sources disparates, internes et/ou externes à l’entreprise (CRM, comptabilité, suivi de production…) pour les comprendre, les vérifier, les nettoyer, les reformater, les croiser entre elles et en extraire des caractéristiques représentatives (étape souvent appelée « feature engineering ») afin de générer un jeu de données pertinent pour le modèle prédictif.. Cette étape est généralement la plus longue : elle peut constituer 70 à 80% de son temps. Cette partie est donc souvent déléguée à un data analyst, ou tout autre technicien des mathématiques et des statistiques.
- Puis, il utilise des outils puissants (algorithmes, mathématiques appliquées…) pour valider de nouveaux modèles pour l’entreprise. Le graal, c’est d’arriver à un modèle capable de répondre au problème métier du départ, par des prédictions ou des propositions pertinentes selon le contexte/les données en amont. Un outil précieux d’aide à la décision.
- Finalement, il communique ses prédictions de comportement au service concerné.
Quelles sont ses compétences ?
La complexité et la dimension stratégique des missions du data scientist requièrent des compétences en informatique, mathématiques et statistiques à haut niveau. Une curiosité naturelle combinée à des aptitudes techniques poussées (langage R, Python et technologies Big Data comme Spark, Hadoop, etc) caractérisent aussi le data scientist, qui dispose souvent d’un background d’ingénieur.
Mais ce n’est pas tout… En phase de visualisation et d’analyse des données principalement, le data scientist doit savoir faire la part des choses entre les données brutes et sa propre sensibilité business (liée à sa connaissance de l’entreprise) pour pouvoir extraire des caractéristiques représentatives (« feature engineering »). Une connaissance des produits et des enjeux de l’entreprise est donc indispensable pour obtenir des prédictions fiables et pertinentes.
Enfin, le data scientist doit être bon communiquant. Après tout, il doit exposer ses découvertes aux responsables IT de l’entreprise, voire au top management. Il doit être en mesure de communiquer à la direction non seulement ses prédictions, mais aussi les hypothèses sur lesquelles elles sont basées.
Saagie, le support du data scientist
La plateforme Saagie permet de faciliter considérablement le travail du data scientist qu’il soit chez vous en interne, ou externalisé chez nous. En phase d’analyse et de prétraitement des données, la plateforme fournit de nombreux outils pour l’analyse quantitative et qualitative d’une part, puis pour faciliter la transformation et le croisement des données. En ce qui concerne la prédiction, Saagie facilite le test et la mise en production des modèles prédictifs pour répondre aux problèmes métiers. Toutes vos données sont alors entreposées au même endroit, un Data lake, soit dans le cloud ou dans votre propre data center.
Enfin, Saagie permet d’être très agile avec la donnée en proposant les technologies/langages du moment et en vous laissant la possibilité d’y ajouter ceux de votre choix. Cette agilité permet au data scientist d’avoir notamment accès à un très grand nombre d’algorithmes existants et d’être rapidement capable de changer de technologies et de langages selon ses affinités et ses besoins .
Avec Saagie, vous obtenez enfin l’accès à une plateforme modulable, sécurisée, à la fois pratique et intuitive. Vous gagnez en délai, en temps-homme et en fiabilité dans vos analyses.