Votre entreprise fait face à un double constat : une croissance massive des données produites et un besoin impératif d’en tirer des informations pertinentes, impliquant tous vos services. Autrement dit, vous souhaitez acquérir un avantage concurrentiel pour votre activité en prenant des décisions éclairées, transverses et judicieuses.
Il est temps d’envisager l’utilisation d’un entrepôt de données (Data Warehouse), une solution de stockage apte à gérer les volumes massifs de data, les « Big Data ». Le Data Warehouse est en effet une base de données spécifique aux besoins décisionnels. Combiné à des outils de Business Intelligence, il permet à l’entreprise la visualisation d’analyses complexes via la création de tableaux de bord interactifs.
Le passage de la data brute à une connaissance élaborée de votre activité et de vos clients n’a jamais été aussi simple et intuitif. Reste à inscrire le projet dans le budget investissement de l’entreprise et d’en estimer le coût. Cet article, au-delà de la présentation des solutions populaires existantes, vous donne les clés de la facturation d’un data warehouse hébergé sur le cloud.
Mise en place d’un Data Warehouse hébergé sur le cloud
Traditionnellement déployés dans des data centers physiques, donc sur site (on-premise), les Data Warehouses sont de plus en plus hébergés sur le cloud. Si on perd en gouvernance des données au niveau des solutions on-premise, les avantages du cloud sont nombreux :
- un rapport coût/efficacité inégalé : la tarification se fait à la demande. Vous ne payez que le stockage des données et le temps de calcul (CPU) dont vous avez réellement besoin ;
- une mise à l’échelle facile, voire automatisable (on parle aussi de scalabilité) : vos besoins en matière de puissance de calcul augmentent ? La capacité de stockage votre Data Warehouse évoluera facilement et rapidement ;
- une mise à jour des fonctionnalités supportée par la plateforme cloud : vous êtes toujours à la page, et vous n’avez pas à vous soucier de la maintenance du data warehouse ;
- la sécurité des données : vous partagez les coûts de sécurisation des informations avec le fournisseur qui investit largement pour s’assurer que la plateforme est sécurisée :
Voici quelques solutions de Data Warehousing cloud populaires :
- côté fournisseurs cloud : Amazon Redshift par AWS, Big Query par Google, Azure synapse par Microsoft ;
- autre solution multi-cloud : Snowflake
Toutes ces solutions d’entrepôt de données sont évolutives et permettent à l’entreprise :
- de traiter des requêtes et des analyses de données par MPP (Massive Parallel Processing). Le traitement massivement parallèle (MPP) des données est adapté au big data : un ensemble de nœuds, appelé cluster, effectue des calculs coordonnés en parallèle (donc simultanément) ;
- de stocker des données historiques ;
- d’ingérer des données provenant de divers types de sources : ERP, BDD, CRM, Fichiers plats, etc. ;
- d’analyser des données en continu (streaming) et de les intégrer à diverses plateformes de données tierces.
Coût d’une architecture cloud Data Warehousing
La facturation d’un Data Warehouse prend en compte le coût des ressources de stockage des données ainsi que les ressources de calculs nécessaires au traitement des requêtes et des analyses. Le stockage et le calcul sont facturés séparément. Des options supplémentaires peuvent également être facturées à l’entreprise.
L’architecture Snowflake sépare l’entreposage de données en trois couches distinctes : le stockage, les entrepôts virtuels de données (calcul) et les services cloud.
Tarifs de stockage des données via data warehouse
Le coût du stockage via l’entrepôt de données inclut la taille de la base de données principale (stockage à long terme), plus le stockage de capture instantanée incrémentielle (stockage actif).
Tarif des analyses
Il existe deux modèles de calcul différents :
- Le modèle dédié : vous provisionnez votre cluster en fonction de vos besoins de calcul. Vous pouvez choisir d’augmenter ou de réduire vos ressources en fonction de l’évolution de vos besoins de calcul au fil du temps.
- Le modèle sans serveur (serverless) : vous transférez les responsabilités opérationnelles au fournisseur du data arehouse. Vous ne payez que pour la quantité de données traitées par vos requêtes.
Dans les deux cas, la tarification dépendra de la puissance du cluster utilisé et du temps dédié aux calculs, c’est-à-dire au volume de données analysé et au nombre de requêtes opérées.
Attention au dimensionnement automatique des capacités machine, qui peut engendrer des coûts importants sans surveillance. Snowflake et Google BigQuery proposent des dispositifs intéressants pour fixer des limites de consommation à l’autoscaling.
Des offres personnalisées peuvent être négociées sur les prix chez les différents fournisseurs, en fonction de l’historique de consommation de l’entreprise. Les bons clients sont récompensés, en particulier s’ils s’engagent sur plusieurs années.
Coûts supplémentaires
D’autres opérations peuvent être facturées, selon les fournisseurs, par exemple :
- lors de l’ingestion des données avec des insertions en flux continu (streaming) ;
- lors de l’extraction de données avec l’utilisation d’API ;
- lors de transactions de stockage analytique ;
- lors de l’utilisation des algorithmes de machine learning.
Récapitulatif des coûts de mise en place d’un data warehouse
AWS Amazon Redshift | Google CGP Big Query | Microsoft Azure Synapse | |
Multi-cloud | Non | Oui (BigQuery Omni) | Non |
Modèle de calcul dédié | Oui | Non | Oui |
Modèle de calcul sans serveur | Oui Amazon Redshift Serverless | Oui | Oui |
Stockage et calcul facturés séparément | Oui Nœuds RA3 | Oui | Oui |
Notes sur la tarification | Amazon Redshift Spectrum : exécution de requête SQL directement sur les données d’un Data Lake Amazon S3 Paiement au nombre d’octets utilisés | Tarif à la demande ou tarif forfaitaire | Ressources informatiques vendues selon des niveaux de service prédéfinis en Data Warehouse Units (DWU) |
Site Internet | |||
Documentation technique | |||
Offre gratuite | Oui | Oui | Oui |
Les fournisseurs d’entrepôt de données sont continuellement en concurrence pour assurer à leurs clients une meilleure vitesse, une meilleure performance des requêtes et la capacité de traiter rapidement un plus grand volume de données.
Les offres de data warehouse proposées sont sans cesse actualisées et proposent toutes des devis personnalisés. Si vous êtes prêt à vous lancer, n’hésitez pas à contacter leur support client.