Bonjour,
À la Haute Autorité de Santé, nous privilégions l’utilisation de R sur le portail SNDS dès que cela est possible. Nous continuons à utiliser SAS pour traiter des données volumineuses, pour lesquelles l’usage classique de R avec dplyr a des performances insuffisantes, voire est impossible.
Nous avons cherché à évaluer dans quelle mesure il serait possible de travailler exclusivement avec R, en s’appuyant sur les technologies adaptées aux données volumineuses (DuckDB, Arrow, parquet), disponibles dans l’environnement contraint du portail SNDS. Utiliser uniquement R permettrait en effet de simplifier les chaînes de traitement, d’homogénéiser les outils, et de faciliter la montée en compétences de profils juniors.
Nous avons d’abord mené des tests hors portail sur Open DAMIR, puis sur le portail SNDS à partir d’un cas d’usage réel : l’extraction des consultations médicales des enfants de moins d’un an entre 2014 et 2024, représentant environ 100 millions de lignes. Les traitements R ont été comparés à une chaîne de traitement SAS équivalente.
Nos conclusions principales sont :
-
L’usage de DuckDB et Arrow rend techniquement possible le traitement avec R de grand volumes de données, avec des temps de traitement proches de ceux observés avec SAS
-
En revanche, dans le contexte actuel du portail SNDS, SAS reste plus simple, plus fluide et plus robuste à l’usage. L’approche R nécessite un investissement technique encore important : gestion explicite de la mémoire, écritures intermédiaires en parquet, passages entre SQL, dplyr, DuckDB et Arrow, et prise en compte de certaines limites de l’environnement.
Nous avons rédigé un retour d’expérience complet, avec les scripts et les éléments techniques détaillés, disponible ici
Nous serions très intéressés par vos divers commentaires et retours d’expériences. Confronter les pratiques nous permettra de consolider des enseignements collectifs, pour lever ensuite les freins techniques identifiés en lien avec la CNAM, et faire émerger des solutions communes d’amélioration des pratiques.
Catherine Bisquay, Timothée Chehab et Pierre-Alain Jachiet