Dossier autorisation CNIL: protocole scientifique pour une société privée (pas d'accès SNDS)

Bonjour,

Nous sommes une société privée de Deep Learning dans le domaine de l’imagerie medicale.

Je suis en cours de rédaction de la partie protocole scientifique de notre dossier CNIL.

Nous travaillons sur les données d’imagerie médicale (DICOM et compte-rendus).

Le pipeline de notre traitement de données:
Données de nos partenaires (PACS) => serveur local => anonymisation complète des données localement => récupération sur notre cloud => inference pour modèle de prédiction.

Ces données sont constitués:

  • d’un compte rendu anonymisé (sans nom patient, sans date de naissance, sans nom praticien, sans nom de la structure…).
  • d’un fichier DICOM dont les champs sensibles sont supprimés et les informations sensibles (nom patient etc…) sur les images le sont aussi.

Il est impossible de remonter jusqu’au patient (ou équipe soignante) avec nos données. En effet, même les numéros de liaison RIS-PACS sont hachés.
L’ensemble de ces données sortent du centre d’imagerie dans cet état d’anonymisation complet.

Nous ne souhaitons pas avoir accès au SNDS. Nous souhaitons récuperer les données d’imagerie médicales anonymisés de nos partenaires exclusivement.

Nous ne réalisons pas d’étude scientifique au sens propre. Nos recherches portent sur l’élaboration ou l’amélioraiton de nos algorithmes de prédiction de pathologie.

Questions:
Dans le protocole scientifique, le chapitre méthodologie ne correspond pas à nos recherches.

3.1 Design: Nous ne procédons pas à des études statistiques. Expliquer les principes de nos inférences?
3.2 Description et justification de la population d’étude: Nous n’avons pas de population.
3.3 Taille de la population: pas de population.
3.4 Sources de données: Pas de données du SNDS. Détailler le type de données?
3.5 Variables: Pas de variable type statistiques. Nous utilisons les images médicales.
3.6 Préparation de données: détaille de notre pipeline d’exportation ?
3.7: Méthodes, traitements et analyses des données: explication simple du principe de Deep Learning appliqué (les modèles sont protégés car c’est la valeur de notre société) ?
3.8 Limites de l’étude: Précision des modèles actuels ? (faux pos, faux neg etc )
3.9 Calendrier prévisionnel et faisabilité du projet: Les inférences sont opérationelles. C’est une démarche d’amlioration constante.

En vous remerciant par avance de vos retours,

Bonne journée,

Bonjour,

Merci pour ces précisions, vous pouvez par exemple remplir les différents chapitres de cette façon (proposition, à adapter bien entendu) :

3.1 Design : vous pouvez expliquer de manière synthétique les principes de vos inférences en terme de traitement de données, d’entraînement de vos modèles (Deep Learning ou autre…?), quels sont les objectifs (améliorer la performance des algorithmes…), le type d’approche (types de modèles ou algorithmes utilisés), les étapes de votre démarche (acquisition des données, anonymisation, pré-traitement, entraînement des modèles…), si vous fonctionnerez sur l’ensemble des imageries disponibles (critères d’inclusion/exclusion ?) ou par période/type d’image/pathologie…, quels sont les variables ou critères qui vous permettront de répondre à vos objectifs d’étude (= objectif principal et secondaires). Vous pouvez également mentionner les avantages de votre design pour répondre aux objectifs de votre projet.

3.2 Description et justification de la population d’étude : Plutôt que de parler de « population », indiquez si l’unité est l’imagerie médicale d’un patient, décrivez le type d’image médicale utilisée et la justification de leur utilisation dans ce projet (source d’information par rapport aux pathologies d’intérêt de l’étude…).

3.3 Taille de la population: décrivez la volumétrie des données dont vous disposerez ou que vous attendez pour réaliser vos travaux (exemple, des milliers ou dizaines de milliers d’images…) et leur implémentation (des 100 aines d’imageries supplémentaires par mois se rajouteront…).

3.4 Sources de données: Décrivez vos sources de données (organisme, base de données) en détaillant le type de données collectées dont vous disposerez, sur quelle période (années de début-fin), les méthodes d’anonymisation utilisées

3.5 Variables: plutôt que de variables, expliquez sur quelles caractéristiques des imageries et des comptes rendus vous baserez vos algorithmes (résolution d’image, texte dans les compte rendus, informations sur la pathologie….), quelle(s) pathologie(s) vous comptez prédire (pour répondre à votre objectif principal), si des données sensibles (nom, prénom, dates de naissance, décès, localisation précise…) sont contenues au départ et à l’arrivée de vos traitements d’anonymisation…

3.6 Préparation de données: Expliquez votre pipeline d’exportation et de préparation des données (récupération des données des PACS, anonymisation, traitement des images, transfert sur le cloud…). Un schéma synthétique sur votre circuit peut être proposé pour illustrer

3.7: Méthodes, traitements et analyses des données: expliquez de manière synthétique la méthode de Deep Learning que vous appliquez en mentionnant que les détails sont protégés par la propriété intellectuelle. Indiquez votre processus (entraînement, validation, évaluation des performances … ?), les méthodes des élection des information dans les modèles, quels sont les critères de performance évalués (indicateurs ?), comment vous comparerez les algorithmes testés et déterminerez le(s) meilleur(s) et s’ils sont adéquats (indicateurs ?)

3.8 Limites de l’étude: Discutez des limites liées à la précision de vos modèles (faux positifs et négatifs…) ou a un potentiel manque de puissance statistique, les biais potentiels (Ex : seulement un certain type d’image est recueilli sur une pathologie donnée…), la généralisation limitée (ou pas) de vos résultats (sur le plan national ou plus localement…), leur variabilité selon les types d’imageries et de pathologies analysées, les données importantes pouvant manquer à vos modèles…

3.9 Calendrier prévisionnel et faisabilité du projet: précisez que votre démarche est une amélioration continue, vous pouvez indiquer le temps que va prendre les aspects réglementaires de votre projet, le temps de récupération des données pour exécuter une actualisation des algorithmes, le temps jusqu’à l’obtention de résultats validés et l’édition d’un rapport d’analyse ou d’étude à chaque actualisation. Plutôt que de mettre des dates précises, vous pouvez aussi indiquer des délais sous la forme « T0 + x mois »… par rapport à un événement de départ de votre choix (autorisation CNIL, obtention des données…). Pour la faisabilité, indiquez quelles sont les ressources disponibles (humain, matériel…) dans votre équipe pour ce projet, son expérience dans ce type de traitement, votre expérience préalable avec les centres d’imagerie médicale, votre infrastructure technique dédiée, vos publications déjà faites sur le domaine éventuellement.

J’espère que cela vous aidera.

Bien cordialement,

Régis Lassalle - Health Data Hub