L’Open Data, ou « données ouvertes », partie intégrante de la data science, désigne une pratique de mise à disposition publique de données numériques. Accessibles en ligne, ces données (statistiques, mesures, cartes, horaires…) peuvent être librement consultées, partagées et réutilisées.
La génèse de l'Open Data
Selon la Sunlight Foundation, association américaine en faveur de la transparence et la mise à disposition des données pour le grand public, une donnée ouverte est censée pouvoir répondre à 10 critères : être complète, primaire, opportune, accessible, exploitable, non-discriminatoire, non-propriétaire, libre de droits, permanente et gratuite. Cependant, concernant ce dernier point, certaines d’entre elles peuvent tout de même être soumises à redevance même si elles restent très minoritaires.
En France, nous pouvons citer l’Institut National de la Statistique et des Études Économiques(INSEE), l’Institut national de l’information géographique (IGN), le Service Hydrographique et Océanographique de la Marine (SHOM) et Météo France; même si les redevances restent exceptions. Le concept d’Open Data commence à susciter l’intérêt du grand public en 2009, avec l’ouverture de Data.gov, le portail Internet du gouvernement fédéral américain. Le mouvement s’inscrit dans une démarche philosophique plus large appelée l’Open Knowledge, ou « savoirs libres », dont les valeurs sont portées à partir de 2004 par l’Open Knowledge Foundation, association britannique faisant la promotion de la culture libre. Il est à noter qu’en France, le droit d’accès aux informations publiques figurait déjà dans la Déclaration des droits de l’Homme et du citoyen de 1789, mais c’est bien l’essor du numérique qui donnera toute son ampleur aux enjeux d’un tel droit.
Aujourd’hui, grâce au développement rapide du Web et de ses nombreuses applications, le principe de données ouvertes tend à se démocratiser, en s’inscrivant dans une modification globale de notre perception de l’information et du savoir. L’Open Data brille surtout sur les plans économique, scientifique ou encore social. En effet, si dans un premier temps certains acteurs publics ou privés se montraient réticents à l’idée d’un tel partage, force est de constater que cette mise à disposition de données est aujourd’hui de plus en plus courante et présente un bilan très positif en terme de profits, d’avancées et d’innovations.
Comment l'utiliser et quels sont les fournisseurs ?
Dès lors qu’elles respectent le cadre juridique propre à l’Open Data, les données peuvent être librement diffusées, aussi bien par les services publiques que par des associations ou des entreprises privées. Elles peuvent ensuite être légalement réutilisées, complétées, mais également corrigées, par des chercheurs par exemple. Cette transparence, cette pluralité des regards et cette soumission à la critique fiabilise de fait l’information, la rendant ainsi également exploitable par les journalistes, les étudiants et tous les citoyens.
Cependant, si la démarche connaît un tel élan et suscite dorénavant un vif enthousiasme, c’est parce qu’elle constitue une véritable ressource pour une multitude de projets data, parfois très innovants. En effet, bien que l’intérêt consultatif ne soit pas négligeable, c’est surtout l’exploitation et le croisement de toutes ces données dans le but de créer de nouveaux services qui donne tout son sens à ce partage.
Aujourd’hui, que ce soit dans les secteurs de la finance, des transports, de l’énergie, ou encore du tourisme, il existe déjà une foule de modèles venant attester des bénéfices de l’Open Data. À titre d’exemple, on peut notamment citer le cas de la Grande-Bretagne qui, en seulement 2 mois, a pu réduire de 30% la facture énergétique dans les bâtiments publics en analysant les sources d’énergie restant allumées la nuit par exemple. Ou encore celui de la ville de Rennes qui, grâce au développement de l’application Handimap par deux ingénieurs en informatique, est maintenant capable de proposer des itinéraires adaptés à tous les handicaps. L’Open Data se révèle donc être une source infinie d’opportunités économiques pour de nombreuses start-up et une véritable mine d’or pour l’innovation.
Poussée encore plus loin, cette quantité massive de données, qu’on appelle « Big Data », peut, une fois associée au développement de nouveaux systèmes d’intelligences artificielles, permettre une utilisation bien plus sophistiquée de ces données. Ainsi, le Machine Learning, ou « apprentissage automatique », et son dérivé, le Deep Learning, ou « apprentissage profond », représentent la manière ultime d’exploiter le Big Data et de trouver des signes cachés dans les données de l’open data et des entreprises.
Ses applications pour le Big Data
La particularité du Big Data est qu’il regroupe une quantité de données si volumineuse et si complexe que les bases de données relationnelles et les traitements classiques ne permettent plus de les traiter efficacement. Ces informations, issues de nos activités numériques (envoi de messages, création de contenus Web, production de vidéos…) et de divers appareils chargés de collecter des données (informations climatiques, signaux GPS, historiques d’achats…) représentent à peu près 2,5 trillions de données supplémentaires chaque jour.
Bien qu’encore difficile à exploiter, cette matière très prometteuse, parfois appelée « l’or noir du numérique », attise donc toutes les convoitises. C’est pourquoi la recherche s’accélère, désireuse de trouver de nouvelles solutions d’analyse, qui pourront indéniablement profiter à tous les secteurs : sciences, environnement, finance, marketing, défense, politique… Les enjeux sont donc cruciaux.
Aujourd’hui, même si la marge de progrès dans ce domaine est immense, les solutions Big Data (couplée à l’intelligence artificielle, au Machine Learning et au Deep Learning) font déjà leurs première preuves dans beaucoup de domaines et l’Open Data y est pour beaucoup, en effet, les étudiants, les chercheurs peuvent avoir un accès à des données réelles pour s’entrainer et entraîner leurs algorithmes de Data Science. Par exemple, grâce à de nouvelles données, Google a pu faire évoluer considérablement son algorithme Google DeepMind, le rendant ainsi capable de jouer à 49 jeux vidéo Atari de manière autonome. Dans le domaine des assurances cette fois, l’assureur mondial MetLife a également su tirer parti du Big Data, ce qui a permis une amélioration du tracking d’accidents, optimisant ainsi la prise en charge des réclamations qui en découlent.
L’Open Data, le Big Data et toutes les applications qui s’en nourrissent représentent donc, à l’échelle mondiale, une véritable révolution pour l’humanité. Quelles que soient les motivations des acteurs qui s’en saisissent, les perspectives d’analyse et d’anticipation qui naissent de ce mouvement sont vertigineuses, nous laissant ainsi imaginer leurs possibles impacts sur nos futurs modes de vie.