Export de données à partir du portail

Bonjour,

Le Référentiel Sécurité du SNDS impose de ne pas de sortir de données tant que l’on n’a pas la certitude qu’elles sont anonymes c’est à dire qu’il ne doit pas être possible à partir de ces données de déduire une information personnelle sur un individu, bénéficiaire ou professionnel de santé.

Est-ce que cela signifie qu’il est possible d’extraire une table (1 observation par patient) avec les informations suivantes ?

  • Id_Patient (dérivé de NUM_ENQ_ANO)
  • Age (valeur entière)
  • Sexe
  • Date de début de séquence (en mois/année)
  • Date de fin de séquence (en mois/année)
  • Durée de la séquence
  • Variables indicatrices d’exposition médicamenteuse (oui/non) sur la séquence
  • Variables indicatrices d’événement/outcome (oui/non) sur la séquence
  • Variables indicatrices de comorbidité (oui/non) sur la séquence

A mon sens, cette table ne contient pas les variables potentiellement identifiantes et ne permet pas la ré-identification d’un patient.

L’idée est de savoir s’il est possible de réaliser des analyses sur les données en dehors du portail avec des outils autres que ceux disponibles dans la bulle sécurisée.

En vous remerciant pour votre retour,

1 « J'aime »

Bonjour,

Il n’existe pas de règles quantifiées, établies et consensuelles permettant de répondre précisément à votre question, surtout sans en savoir davantage sur les données et la population concernées. Toutefois, la table que vous décrivez ne semble pas conforme aux exigences du référentiel de sécurité du SNDS, et ne paraît donc pas pouvoir être exportée du portail pour être traitée ailleurs.
Vous trouverez développé ci-dessous le raisonnement qui nous amène à cette conclusion.

Le cadre d’anonymisation applicable en France, évoqué dans le RGPD et le Référentiel de sécurité SNDS, est celui retenu par la CNIL, décrit dans cet article. Comme vous pouvez le voir, trois critères (issus des travaux du groupe de travail “Article 29”) permettent de s’assurer qu’un jeu de données est véritablement anonyme : individualisation, corrélation et inférence. Au vu des informations présentées dans votre question, il semble a priori que la table que vous souhaitez exporter ne remplit aucun de ces critères. Dans ce cas, comme l’indique la CNIL : “le responsable de traitement qui souhaite anonymiser un jeu de données doit démontrer, via une évaluation approfondie des risques d’identification, que le risque de ré-identification avec des moyens raisonnables est nul.”

Synthétiquement, une évaluation classique de ce risque consiste à étudier différents scénarios d’attaque (tentative de réidentification à partir des données prétendument “anonymes” par différents attaquants, e.g. : grand public, personne ayant participé à l’étude, proche d’une telle personne, professionnel de santé, cyberattaquant malveillant). Pour ces différents scénarios, la probabilité de réidentification d’un patient est croisée avec la gravité de la réidentification pour identifier le niveau de criticité de l’attaque. L’analyse doit révéler un risque résiduel de réidentification le plus proche possible de 0 afin de légitimer l’export des données. Typiquement, elle est validée par votre DPD et votre Responsable de Traitement.

Pour aider à structurer l’analyse, les définitions suivantes sont généralement utilisées :

  1. Identifiant direct : Donnée attribuable directement à un individu unique (e.g. NIR, Nom + Prénom, numéro de carte bancaire).
  2. Quasi-identifiant : Donnée qui permet, en la croisant avec des données extérieures, d’identifier un individu de façon unique (e.g. âge, sexe, code postal).
  3. Attribut sensible : Donnée qui porterait atteinte à l’individu si elle était rendue publique (e.g. diagnostic de maladie grave).

Sur la base de ces définitions, un certain nombre de techniques d’anonymisation sont évoquées dans les travaux du GT “Article 29”, qui nourriront votre réflexion. À un niveau intermédiaire, des bonnes pratiques peuvent également vous aider à orienter votre analyse :

  • Aucun identifiant direct ne doit être exporté.
  • L’ID patient doit idéalement être aléatoire, et non dérivé du NUM_ENQ_ANO.
  • Généralisez les quasi-identifiants (e.g. regrouper les âges par tranche), de manière à ce que croiser les différents quasi-identifiants ne permette pas de réidentifier une personne unique. Cela amène typiquement à constituer des groupes de patients partageant les mêmes quasi-identifiants (voir k-anonymat dans les travaux du G29). Il est généralement déconseillé d’exporter des données à l’échelle individuelle.
  • Les attributs sensibles doivent être protégés (voir l-diversité dans les travaux du G29).
  • L’identifiant des professionnels de santé doit être protégé.

D’autres paradigmes (e.g. ajout de bruit) sont possibles, et décrits par le GT. Pour votre information, les exports sur le portail Cnam sont contrôlés au cas par cas par un expert sécurité qui analyse si les données permettraient de remonter à l’individu. De même, le HDH travaille à un cadre général décrivant ce qui est autorisé ou non à l’export.

Une analyse de risque de réidentification dépend considérablement des données considérées, c’est pourquoi il est difficile de répondre plus précisément à votre question. Je prends deux exemples pour illustrer cette difficulté :

Cas 1 : Vous étudiez une population d’une centaine de personnes, entre 30 et 50 ans, tirées aléatoirement uniformément dans la population générale. Vous analysez dans cette population les évènements “consultation chez un généraliste” sur une séquence de 5 ans environ, avec l’exposition médicamenteuse au paracétamol. Dans ce cas, il paraît raisonnable de défendre le caractère anonyme des données.

Cas 2 : Vous étudiez la population des 100 personnes les plus âgées de France. Vous examinez dans cette population l’outcome “ hospitalisation pour décompensation cardiaque”, sur une séquence de 6 mois, avec l’exposition médicamenteuse aux antidépresseurs et l’obésité comme comorbidité. Dans ce cas, justifier du caractère anonyme des données paraît beaucoup plus périlleux.

Dans l’ensemble, les informations que vous décrivez ne semblent pas a priori présenter des garanties suffisantes pour garantir leur caractère anonyme. Exporter des données à l’échelle individuelle est généralement fortement déconseillé, et le fait de supprimer les données directement identifiantes ne suffit généralement pas à apporter un niveau de protection suffisant.

En espérant que cette réponse vous aura été utile,

L’équipe du HDH

1 « J'aime »

Bonjour,

Je vous remercie pour cette réponse très bien détaillée, cela répond à nos questions.
Nous suivrons les travaux entrepris par le HDH sur ce sujet avec intérêt.