Quelles sont les différentes méthodes d’appariement possible avec les données du SNDS?

Discussion autour des modalités d’appariement des données externes avec les données du SNDS

Il existe différentes techniques d’appariement. Elles peuvent être combinées de manière à améliorer le taux d’appariement.

Quand le producteur de données possède déjà le NIR dans ses bases, l’appariement déterministe, en utilisant le NIR, est plus adapté. Si ce n’est pas le cas, il y a deux possibilités ainsi qu’une troisième, celle de combiner les deux précédentes.

Si le producteur à plusieurs informations sur les consommations de soins des personnes (dates d’hospitalisation, diagnostics, actes effectués, …) un appariement probabiliste peut être réalisé. Le taux de réussite dépendra du type d’information et de la qualité de ces informations. Les informations sur un séjour hospitalier quand elles viennent d’un entrepôt hospitalier sont très fiables. Elles seront plus ou moins univoques en fonction des séjours : appariement plus difficile sur des hospitalisations de jour ou dans les maternités.

Si le producteur a les informations pour « reconstruire » le NIR (nom de naissance, prénom, date de naissance, sexe, lieu de naissance) un appariement dit « déterministe » peut être réalisé. Mais en fait, il s’agit d’un premier appariement probabiliste avec le SNGI (système national de gestion des identités) de la CNAV pour retrouver le NIR et ensuite, un vrai appariement déterministe. La qualité de ce processus va dépendre de la qualité des informations permettant de retrouver ou non le NIR. Cette méthode est sensible au nom de naissance (et non au nom marital), au lieu de naissance (attention aux personnes nées à l’étranger ou dans les anciennes colonies).

Il faut connaitre la population d’étude pour choisir la meilleure méthode d’appariement.

Au vu d uvolume des données, je ne pense pas qu’une approche probabiliste soit faisable.
Une approche déterministe indirect pas-à-pas me semble plus appropriée.

Bonjour @cecile.couchoud merci pour votre message qui permet de nourrir les discussions et d’apporter des éléments de précisions. Bienvenue dans la communauté. N’hésitez pas à partager d’autres avis, des commentaires et vos questions sur le forum.

1 J'aime

Bonjour,

En définitive il faut juste se mettre d’accord sur la définition des termes utilisés.

Appariement direct déterministe : il s’agit bien de coupler deux bases de données sur un identifiant unique présent dans les deux sources. L’utilisation du BEN_NIR_PSA (NIR + date de naissance + sexe) pour coupler une cohorte avec le SNDS peut donc s’apparenter à un appariement direct déterministe malgré les aléas connus sur les remontées de cette information.

Appariement indirect déterministe : Il s’agit de coupler deux bases de données sur plusieurs variables non directement identifiantes communes aux deux sources. Ces techniques utilisent généralement des règles de décision pas à pas comme par exemple: Correspondance unique avec appariement total sur tous les champs, suivi d’une correspondance unique avec appariements partiels successifs sur n-1 champs et enfin un arbitrage « à dire d’expert » peut être proposé pour dissocier les doublons.

Ce sont principalement ces deux méthodes (ou une combinaison des deux) qui sont proposées à ceux qui souhaitent apparier leurs données au SNDS.

Le terme « appariement probabiliste » est très souvent employé à mauvais escient pour désigner les appariements indirects déterministes, selon l’idée que nous ne sommes jamais sûrs à 100% du couplage.

Il existe cependant bien des techniques d’appariement probabiliste ou également par apprentissage statistique, qui pourraient être utilisées. Vous pouvez consulter l’article (Bounebache et al. 2018) [ https://www.cepidc.inserm.fr/documentation/revue-bibliographique-des-methodes-de-couplage-des-bases-de-donnees-applications-et-perspectives-dans-le-cas-des-donnees-de-sante-publique] pour plus de précisions sur ces méthodes.

Dans le SNDS, la qualité de la remontée de l’information et de l’information elle-même évolue au cours du temps. Donc, dans tous les cas de figures, il faut bien appréhender le périmètre pour mettre au point la méthode ou la combinaison de méthodes d’appariement la plus appropriée.

Karim Bounebache et Claire Imbaud pour le CépiDc-Inserm

3 J'aimes