Projets « DataOps » : le guide ultime – mĂ©thode, process et techno
Sommaire Le DataOps, contraction des mots « data » et « opĂ©rations », est une mĂ©thodologie consistant en une gestion collaborative des donnĂ©es. Il est axĂ© sur l’amĂ©lioration de la communication entre les Ă©quipes, l’intĂ©gration et l’automatisation des flux de donnĂ©es entre les mĂ©tiers de donnĂ©es et les consommateurs de donnĂ©es. 1. Le DataOps est avant tout une mĂ©thode […]
Comment créer un pipeline de détection de sentiments sur Saagie avec Python, Bash, AWS Glue, VSCode, MLflow et Dash
Pour accompagner nos nouveaux utilisateurs dans leurs premiers pas sur Saagie, nos Ă©quipes ont dĂ©veloppĂ© un projet complet de dĂ©tection de sentiments exprimĂ©s au sein de critiques de films. Celui-ci repose sur une interaction forte entre des jobs en Python, Bash, AWS Glue et des applications Docker comme VSCode, MLflow et Dash pour dĂ©montrer comment […]
Le CI/CD en DataOps : le développement continu et la mise en place de pipeline
Les donnĂ©es sont de plus en plus prĂ©sentes dans les entreprises et on voit Ă©merger les projets Big Data. D’autre part, on observe une diminution du temps de dĂ©veloppement. La livraison en production et le dĂ©ploiement doivent ĂŞtre rĂ©alisĂ©s rapidement et frĂ©quemment par les Ă©quipes de dĂ©veloppement et les Ă©quipes data pour faire face aux besoins. […]
Réinventer les métiers de l’immobilier par la data
Pour ce nouvel Ă©dito, nous sommes partis Ă la rencontre de Florent Seine, CDO chez Foncia ! Foncia est leader europĂ©en des services rĂ©sidentiels, 1er syndic et 1er loueur de France, l’ambition de l’entreprise est d’être reconnue pour sa qualitĂ© de service et pour le dĂ©veloppement de services innovants. L’activitĂ© principale, l’administration de biens, se […]
Votre hiérarchie est sceptique ? 5 bonnes raisons de passer au DataOps
Vous connaissez le DataOps de nom, mais vous voulez en savoir plus sur ses plus-values ? Quelles sont les bonnes raisons pour convaincre votre hiĂ©rarchie de passer au DataOps ? En quoi le DataOps augmente-t-il la productivitĂ© ? Le DataOps, contraction des mots « data » et « opĂ©rations », est une pratique consistant en une gestion collaborative des […]
Quelles priorités le DataOps met-il en avant pour mener un projet efficacement ?
La data est Ă la mode ces dernières annĂ©es et beaucoup d’entreprises investissent des moyens et des ressources dans ce domaine. Cependant, ce sont des projets souvent complexes et innovants, autant d’un point de vue technique que managĂ©rial. Par consĂ©quent, des mĂ©thodes ont Ă©tĂ© dĂ©veloppĂ©es pour gĂ©rer ces projets, c’est le cas notamment du DataOps. […]
Isoler ses environnements de développements par projet et assurer la reproductibilité des jobs : un must do pour vos projets data
Cet article fait partie d’une sĂ©rie d’articles sur les bonnes pratiques Ă destination du Data Engineer. Une version synthĂ©tique de cette sĂ©rie a Ă©tĂ© prĂ©sentĂ©e lors d’un webinar que vous pourrez retrouver ici ! Vous trouverez les autres articles de cette sĂ©rie ici et lĂ : Le monitoring : la clĂ© pour superviser vos projets […]
Comment industrialiser un projet via la CI/CD GitHub ?
Cette semaine, Julien Fricou, Data Engineer chez Saagie, a pu interroger Alain HĂ©laĂŻli, Principal Solutions Engineer chez GitHub, sur l’utilisation de la plateforme. La CI/CD GitHub n’aura plus de secret pour vous ! Comment crĂ©er un workflow (fichier yaml, Ă©diteur graphique) ? Avec GitHub Actions, nous avons dĂ©cidĂ© que la philosophie serait de faire du […]
Pourquoi et comment mettre en place une politique de CI/CD ?
Avec l’arrivĂ©e des nouvelles mĂ©thodes de travail comme l’Agile, le DevOps et maintenant le DataOps, les mises en production sont devenues beaucoup plus frĂ©quentes. Ces nouvelles pratiques amènent toutes un lot d’avantages : flexibilitĂ©, efficacitĂ© des Ă©quipes, qualitĂ© des livraisons ; mais Ă©galement leur lot de problĂ©matiques auxquelles il faut rĂ©pondre en optant pour des […]
Qu’est-ce que le MLOps ?
Le rĂ©cent engouement autour de la data science, et du Big Data, a permis le dĂ©veloppement d’un écosystème extrĂŞmement riche et dynamique autour de l’analyse des donnĂ©es collectĂ©es. Des outils open source, et toujours plus faciles Ă utiliser, permettent ainsi Ă de nombreuses organisations de se lancer dans l’analyse de leurs donnĂ©es. Cependant, la multiplication des projets data, et des […]
Quel Outil d’Intégration Continue Choisir (CI/CD) ?
L’organisation d’une Ă©quipe de Data Science est très complexe. En plus du facteur humain, il faut prendre en compte l’organisation technique. Pour coordonner ce type d’équipe, le paradigme DevOps/DataOps propose un ensemble d’outils d’intĂ©gration continue essentiels ainsi qu’une chaĂ®ne de traitement pour rĂ©unir dans une seule Ă©quipe plusieurs profils qui Ă©taient isolĂ©s auparavant. Ceci dit, on vit actuellement une […]