Le CI/CD en DataOps : le développement continu et la mise en place de pipeline

juillet 7, 2022
Processus

Les données sont de plus en plus présentes dans les entreprises et on voit émerger les projets Big Data. D’autre part, on observe une diminution du temps de développement. La livraison en production et le déploiement doivent être réalisés rapidement et fréquemment par les équipes de développement et les équipes data pour faire face aux besoins.

Pour cela, les processus Agile, de DevOps et de DataOps sont adoptés et un pipeline est mis en place.

1. En savoir plus sur le CI/CD en DataOps

Il est important de définir le CI/CD. Le CI désigne l’intégration continue. Elle consiste à construire, assembler et tester les modifications dans le code des applications de manière automatisée.

Le CD, quant à lui, désigne la distribution continue et/ou le déploiement continu. Il automatise la livraison des applications au sein d’environnements d’infrastructure sélectionnés.

A. Pourquoi et comment mettre en place une politique de CI/CD ?

Avec l’émergence de nouveaux processus comme l’Agile, le DevOps et le DataOps, le développement de code d’une application et la livraison en production se font plus fréquents.

Il est devenu indispensable de réduire le temps nécessaire au déploiement pour répondre aux besoins clients. Les tests et la mise à jour du code sont donc de plus en plus automatisés à l’aide d’outils spécifiques.

La mise en place d’un pipeline CI/CD permet de :

apporter des modifications fréquentes ;
faciliter la gestion des conflits de code source d’une application en faisant des merges plus régulièrement ;
améliorer la qualité des applications ;
favoriser la collaboration au sein d’une équipe et entre les différentes équipes ;
englober les tests unitaires, les tests d’intégration et le contrôle de sécurité ;
automatiser le déploiement en production des modifications du code source.

B. Quel outil d’intégration continue choisir (CI/CD) ?

Il existe de nombreux outils pour le développement de code d’une application, la livraison en production et le déploiement. L’équipe Data Science proposera un ensemble d’outils pour les projets ; voici les plus connus :

Intégration continue : Jenkins, Bamboo,
Virtualisation : Docker, Vagrant
Gestion de code source : GitHub, Subversion
Gestion de dépendances : Maven, Ant, Gradle
Orchestration et Cloud : Kubernetes

2. CI/CD en data : solutions, outils, usages, on vous dit tout

Le CI/CD en data et le DataOps nécessitent des solutions, outils et usages spécifiques que nous détaillons ici pour vous.

A. ETL et ELT, de quoi s’agit-il ? Quelle est la différence ?

Les entreprises font davantage appel à l’analyse de données et les besoins pour des processus efficaces de traitement des données augmentent. Les ETL et ELT sont justement deux outils répondant à ces besoins.

Il s’agit de processus permettant de mettre en place des pipelines de données pour gérer et automatiser le transit et la mise en forme de données entre des sources de données et l’utilisateur final.

ETL est l’acronyme de « Extract Transform Load », tandis que ELT signifie « Extract Load Transform ». La première différence entre ETL et ELT est l’ordre d’exécution des étapes Load (stocker) et Transform (transformer). L’ETL est plus compact, car il transforme les données et ne stocke que celles utiles au projet, et plus simple d’utilisation, car il ne se limite pas aux technologies Big Data. L’ELT utilisant les technologies Big Data permet de traiter des volumes de données plus importants en un temps réduit et de revenir facilement aux données passées.

Si certains outils ELT, comme Talend, sont aujourd’hui très à la mode, le choix entre ces deux processus doit se faire en fonction de vos besoins pratiques et de vos ressources.

B. Découvrez Talend, l’outil idéal pour connecter, intégrer et superviser différentes sources de données

Talend est l’outil idéal pour garantir l’intégration, le mapping et la transformation des données, ainsi que l’automatisation du contrôle qualité. Cela permet d’assurer la fiabilité de la data de bout en bout. Talend a pour avantage d’avoir des milliers de sources de données en quelques minutes grâce à des composants de pipeline pré-développés.

C. Comment ordonnancer facilement des jobs avec Apache Airflow ?

Apache Airflow a été inventé par l’entreprise AirBnB pour ses besoins et a été rendu open source en 2016. Il sert à l’ordonnancement pour coder, à la planification et à la supervision de vos workflows de traitement. Airflow possède aussi une interface web pour aider au monitoring de vos pipelines.

D. Une introduction à Bash pour développer vos scripts

L’utilisation de Bash dans vos projets pour le développement de scripts peut s’avérer pratique. Bash permet de facilement créer, modifier et supprimer des fichiers ou des dossiers.

DevOps, et son adaptation aux projets data, le DataOps, encouragent la mise en place d’un pipeline pour l’intégration continue et le déploiement continu (CI/CD). Cela permet de réduire la durée de développement de code d’une application et de sa livraison en production.