R est un langage informatique lancé en 1993 et niché dans la modélisation et l’analyse statistique des données. Il est souvent utilisé avec R Studio, qui est un IDE (environnement de développement) dédié à ce langage, bien qu’il soit tout à fait possible d’utiliser d’autre IDE avec R, notamment Jupyter.
R a connu un boost de popularité durant l’été 2020, notamment à cause de la covid, nous en parlions déjà dans cet article. Mais quel est le lien entre la popularité d’un langage informatique et la covid ?
Une explication possible est la hausse soudaine de données médicales liées à la pandémie, qu’il a fallu analyser. Or, R est un langage très utilisé dans le monde médical : biologie, recherche ou même produits de beauté, beaucoup de laboratoires l’utilisent.
En effet, R est idéal pour effectuer des analyses statistiques rigoureuses, nécessaires dans ce domaine ; c’est ce que nous allons voir dans cet article.
R : un langage résolument dédié à l’analyse des données
Ce langage a été créé pour manipuler et analyser les données. Il est devenu très populaire dans le milieu médical comme mentionné plus haut et plus généralement dans le milieu académique et même professionnel.
R trouve le bon équilibre entre :
- d’un côté, un langage de programmation « généraliste » (tel que Java), qui permet de tout faire ou presque, mais nécessite des connaissances poussées en développement, notamment sur des problématiques éloignées de l’analyse de données (compilation, typage des variables…) ;
- de l’autre côté, un logiciel de statistiques pouvant certes offrir une prise en main plus facile (via une interface graphique notamment), mais dont les fonctionnalités seront limitées comparé à R, qui permet de coder directement de nouvelles fonctionnalités.
Pour ces raisons, R est devenu un standard pour les équipes souhaitant mener des analyses statistiques complexes, sans pour autant avoir des développeurs expérimentés.
Bien sûr, R intègre beaucoup de fonctionnalités utiles pour manipuler des données, à l’image des « dataframe ».
R compte une communauté dense et active
Nous l’avons dit, R est un type de langage très répandu. Il existe donc une communauté très active autour de ce langage. Cela présente deux grands avantages :
- Tout d’abord, il est probable que vous trouviez facilement de l’aide sur internet (surtout si vous parlez anglais), notamment sur Stack Overflow le site qui peut vous épargner de longues heures de travail.
- Ensuite, il existe de nombreuses librairies externes développées par la communauté, qui enrichissent considérablement R et les possibilités qu’offre ce langage (en constante évolution !). En particulier, vous trouverez beaucoup de librairies utiles en data science, que ce soit pour créer des modèles statistiques, de machine learning ou des visualisations.
R est open source
Un autre avantage de R est le fait qu’il soit open-source. Par conséquent, c’est un langage « gratuit » contrairement à d’autres alternatives payantes telles que SAS ou SPSS. De plus, l’open source est un aspect essentiel pour la communauté, ce qui explique entre autres pourquoi ce langage possède autant de librairies externes.
L’IDE R Studio est également gratuit, cependant, il ne s’agit pas d’un logiciel open-source. L’entreprise derrière R Studio propose des options payantes incluant des solutions cloud. C’est idéal pour les équipes voulant faire du big data sans les tracas liés à la gestion de l’infrastructure, qui peuvent être nombreux dans ce domaine.
R n’est pas l’outil à privilégier dans tous les cas
Malgré ses avantages, R n’est pas indiqué dans toutes les situations. Dans certains cas, on préférera d’autres alternatives, notamment Python, qui est aussi très populaire en data science.
Parmi les situations dans lesquelles R n’est pas idéal, on trouve notamment :
- la préparation de données (ou data wrangling) : d’autres alternatives sont à privilégier pour collecter des données éparpillées à travers différentes sources (scraping web, fichiers, bases de données…) et/ou avec divers formats (structurées, non structurées, audio, image…) ;
- les réseaux de neurones : il existe aujourd’hui deux librairies majoritaires pour créer des réseaux de neurones : TensorFlow et PyTorch. Ces deux librairies sont utilisées avec le langage Python le plus souvent (bien qu’il soit possible de les utiliser avec d’autres langages informatiques) ;
- le déploiement : il est possible de développer des applications avec R, notamment de visualisation avec ShinyApp, mais vous serez vite limité comparé à des langages de programmation plus généralistes. Ainsi, vous pouvez faire vos analyses sur R, puis utiliser un langage différent (comme JavaScript) ou même ou outil no-code pour créer et déployer une application.
Pour résumer, R est un langage très spécialisé, s’adressant à un public relativement restreint. Mais c’est justement ce qui fait sa force, car il excelle dans son domaine et propose à ses utilisateurs tous les outils nécessaires pour l’analyse de données.