Compte rendu de l'atelier R-SNDS tenu au congrès émois 2024

Ce poste restitue le contexte et le résultat de l’atelier R-SNDS tenu lors du congrès émois 2024

Utilisation de R dans le SNDS : Comment peut-on collaborer ?

Constat : Nous sommes de plus en plus nombreux à utiliser R dans le SNDS, mais il existe peu de partage sur cette utilisation à l’heure actuelle.

Objectif : Session collective afin d’identifier les besoins, les attentes sur R dans le SNDS et les moyens pour répondre à ces besoins.

Format de l’atelier (1h) : Trois thèmes ont été abordés : les besoins, les moyens de collaborer et la contribution de chacun. Quatre groupes ont été formés en début d’atelier. Pour chaque thème, un des organisateurs a présenté la question, puis chaque groupe a réfléchi au thème pendant cinq minutes ; enfin l’animateur a collecté les réponses de la part de chaque groupe pendant une restitution collective de dix minutes.

Les organisateurs : Octave Guinebretière, Antoine Belloir, Thomas Nedelec (ICM), Julie Kamionka, Vincent Reduron, Pierre-Louis Bithorel (Drees), Thomas Soeiro (AP-HM), Catherine Bisquay, Adeline Degremont, Matthieu Doutreligne (HAS)

Les participants : Une cinquantaine de participants étaient présents lors de l’atelier et sept personnes étaient à distance. Le lien vers une fiche de présence a été diffusé en début et en fin d’atelier, puis rediffusé via les organisateurs : 43 personnes ont renseigné leur mail. L’étude des domaines des adresses mails montre la diversité des institutions présentes : HAS, ministère de la santé, assurance maladie, ARS, ATIH, CHU (AP-HP, AP-HM, Brest, Bordeaux, Lille), Santé Publique France, EHESP, IRDES, et autres établissements de soin.

Thème 1 - Les besoins : Quels sont vos besoins, vos attentes sur l’utilisation de R dans le SNDS ?

Les besoins remontés sont principalement des évolutions logicielles et techniques concernant la plateforme de l’assurance maladie, ainsi que des formations sur la prise en main de R.

Même s‘ils ne relèvent pas directement de la thématique de la collaboration, les besoins remontés en premier lieu concernent des évolutions de la plateforme de l’assurance maladie. Les participants sont conscients de la difficulté de mettre en place ces évolutions mais ont jugé bons de les formuler explicitement dans le cadre de cet atelier : installer des packages extérieurs ou développés spécifiquement sur le SNDS (ex: cartographie, rmarkdown), avoir une forge logiciel (ex. gitlab), avoir plus de mémoire RAM en cas de besoin.

Concernant les besoins de formation et de documentation spécifiques à R, sont remontés les questions suivantes : comment se connecter sur oracle via R, comment gérer les fichiers img, html, comment passer de tables SAS à des formats R compatibles (et réciproquement) ou disposer d’un moyen de ne pas passer par SAS pour les tables agrégés. Ce genre d’éléments manque actuellement pour faciliter le passage de SAS à R. Plusieurs besoins remontés illustrent un besoin de formation supplémentaire sur le fonctionnement du portail (export de fichiers, dossiers partagés).

Des besoins de partage de scripts ou de bonnes pratiques R ont également été évoqués, pour des utilisateurs plus aguerris de R dans le SNDS : le partage de codes d’extraction ou de listes de codes de nomenclature (par exemple pour des populations cibles spécifiques), la traduction en R de code existant en SAS pour certaines études.

Thème 2 – Les moyens de collaborer : Quels sont les modalités possibles de partage sur l’utilisation de R dans le SNDS, les canaux de collaboration ?

Il manque actuellement différents niveaux de communication :

Le besoin d’identifier et de contacter des experts référents sur des sujets spécifique a été formulé. Un des moyens proposés pour faciliter les échanges a été la création d’un annuaire référençant les noms des personnes, leur institution, les sujets sur lesquels elles travaillent et un moyen de les contacter informellement. L’utilisation d’un sharepoint a également été évoqué.

Les participants ont relevé la possibilité d’avoir des espaces de discussion de type forum (ex. forum SNDS) pour poser des questions, mais également un espace de discussion en temps réel (ex. Slack group R grrr, tchap). Plusieurs fois est remonté le fait que de multiples canaux existent et qu’il n’est pas forcément pertinent d’en rajouter un nouveau. Quel que soit le moyen de communication, celui-ci doit être simple d’utilisation et peu chronophage. Il serait pertinent de centraliser les références et les outils existants à un seul endroit afin d’éviter la redondance d’information.

Concernant le code informatique, le gitlab du HDH a été évoqué comme un moyen pratique de partager des lignes de code ; la documentation du HDH est pertinente mais la maintenance (identification des mainteneurs, besoin de mise à jour) est problématique. Partager du pseudo-code multi-langage serait à développer.

Thème 3 – La contribution de chacun : Quel pourrait être l’implication de chacun sur le partage ?

Contribuer doit passer par une participation aux fils de discussions lorsqu’on est concerné, une participation active de tout le monde (avec des modérateurs), l’utilisation de templates simplifiant et encadrant la participation. Le code doit être publié lisible mais sans attendre la perfection, par exemple en passant par un forum pour publier des choses non finalisées.

Les contributions doivent être identifiées et valorisées : Cela peut passer par le dépôt de code (sur arxiv ? sur github/gitlab ?), mais d’autres moyens de reconnaissance doivent être imaginés. Cette reconnaissance des contributions doit également être plus institutionnalisée. Partager du code nécessite des efforts supplémentaires, or la politique de partage des données n’est pas forcément développée au sein des différentes institutions employeuses. L’ajout (à quel niveau ?) d’une charte de partage des données pourrait encourager l’open source. Le partage est encore vu trop négativement par les employeurs. Il faut mobiliser les hiérarchies de chaque institution pour souligner que le passage au langage R nécessite obligatoirement du temps de formation et de partage de la part des agents. La sur sollicitation de certains, identifiés comme personnes référentes, doit être évitée.

Plus de rencontres ont été demandées, en présentiel, et pas seulement à Paris.

Il faut qu’il y ait un pilote qui en partant des besoins et des contributions puissent arbitrer sur une feuille de route afin de concentrer les efforts là où il y a le plus de retour sur investissement pour l’ensemble des acteurs.

Propositions de prochaines actions

  • Partage de ce compte rendu avec la CNAM
  • Partage de ce compte rendu avec le HDH pour présenter ces besoins et quelques propositions :
    • Ouvrir plus largement des rôles de mainteneur sur le gitlab du HDH
    • Mise en place de sprint de documentation
    • Création d’une catégorie partage de snippets de code sur le forum d’entraide
    • Proposition d’ouvrir un programme 10% SNDS sur le modèle du programme 10% de la DINUM
    • Meetup SNDS - R (HDH-CNAM) à la rentrée avec des mini présentations de 20-30 min
  • Publication de ce compte-rendu sur le forum d’entraide du HDH.
3 « J'aime »

Rappel d’information du département DATAD de la CNAM

Après la tenue de l’atelier, le comité d’organisation a échangé avec le HDH et la CNAM car plusieurs besoins remontés par les utilisateurs concernaient la plateforme de la CNAM ou les outils de documentation du HDH. La CNAM a voulu apporter quelques éléments d’information à propos de certains points soulevés lors de l’atelier :

  • Concernant la mémoire RAM sur le portail : celle-ci a récemment été augmentée pour tous les utilisateurs. De plus, en cas de besoin, toute demande d’augmentation formulée auprès du support national est acceptée : un message est positionné en ce sens sur le bandeau du portail.

  • Concernant les packages : un lot de 150 nouveaux packages a été installé en octobre 2023. 400 packages sont en cours d’analyse car tout package installé sur le portail SNDS de la Cnam, ainsi que leurs dépendances, doit impérativement faire l’objet d’une analyse sécurité.
    Un fichier de suivi des packages installés et en cours d’analyse est mis à jour sur l’accueil du portail SNDS de la Cnam afin que les utilisateurs puissent s’y référer avant de faire une demande auprès du support-national@assurance-maladie.fr.

  • Concernant la formation : les supports de formation de la société ARDATA réalisant les formation R en collaboration avec l’I4.10 et la Cnam sont également mis à disposition dans la Rubrique Formations (dans la Documentation SNDS) :

image

La Cnam propose également des formations plus poussées sur R qui sont très souvent annulées faute de participants : i) Utiliser R pour l’analyse des données des bases du SNDS (REQ-280-AM 3 jours), ii) Traitements avancés avec R sur les données du SNDS (REQ-291-AM, 1 jour), iii) Réaliser ses graphiques avec R (REQ-292-AM, 2 jours).

  • Concernant la documentation, un guide utilisateurs est disponible sur l’accueil du portail, il explique entre autres la connexion R sur Oracle.

  • Une rubrique Bibliothèque R sur le portail s’incrémente peu à peu d’exemples de programmes proposés par des utilisateurs, notamment ceux issus de séminaires internes (Visionn’R).

Des webinaires les Clés du SNDS sont proposés de façon régulière pour optimiser les bonnes pratiques d’utilisation du portail SNDS de la Cnam, comprenant si besoin une partie déclinée en R

(ex : intervention de Thomas Soeiro sur l’optimisation des flux de traitement, Les Clés du SNDS de mars 2024). De prochaines éditions de ce séminaire permettront d’approfondir ces aspects.

A VENIR : des exercices Modul’R orientés sur des bonnes pratiques et de différents niveaux de difficultés sont en cours de finalisation et seront bientôt mis à disposition, pour les utilisateurs novices et experts dans l’objectif d’une montée progressive en compétence.

3 « J'aime »