EGB: Acces et Import de données externes macroéconomiques

Bonjour,

Je suis doctorant au Luxembourg Institute of Socio-Economic Research (LISER). Nos recherches portent notamment sur le lien entre les conditions de vie des individus et leur santé. Nous voulons analyser les choses d’un point de vue spatial par commune via des régressions économétriques. L’EGB Simplifié semble être un atout important dans notre projet de recherche car il offre des données longitudinales sur 20 ans et l’approche économétrique prévue ne serait pas entravée par le fait que la représentativité est uniquement nationale. Nous avons quelques questions à poser :

  1. Pouvons-nous importer des données macroéconomiques pour les relier aux données EGB ? Par exemple, nous souhaiterions éventuellement ajouter le revenu moyen dans la commune de chaque individu contenu dans l’EGB, afin d’avoir un controle supplémentaire. Nous disposons de cette macro variable car elle est disponible en libre accès sur le site de l’INSEE. Il ne s’agit pas a priori d’un appariement de données micro.

  2. Dans le cadre de mes travaux, il y a potentiellement 3 personnes qui devront accéder aux données : mes 2 supérieurs hiérarchiques (promoteurs de these) et moi. En revanche, lors de la demande et du remplissage des formulaires via l’INDS, il nous est seulement demandé d’indiquer les responsables du traitement et de la mise en œuvre. Typiquement, mon superviseur est responsable de la mise en œuvre, mais aurai-je donc accès aux données puisque je ne suis mentionné nulle part ?

  3. En ce qui concerne les variables sensibles : Il est précisé que le croisement des identifiants potentiels du SNDS n’est pas autorisé dans l’application simplifiée. En règle générale, il n’est pas permis de croiser la période de naissance (mois et année) avec le code de la municipalité. Mais est-il permis de croiser l’année de naissance uniquement avec le code de la municipalité ?

  4. Finalement, sur le serveur de l’EGB, n’y a-t-il que SAS Enterprise ou R (libre) peut etre utilisé? Cela serait génial.

Je vous remercie infiniment pour les potentielles réponses apportées!

Bonjour,

Je réponds à vos interrogations.

Je tiens tout d’abord à vous préciser que l’Echantillon généraliste des bénéficiaires est une base de données représentatives des personnes protégées par les différents régimes de Sécurité Sociale. Celle-ci est représentative au niveau national et non par département, ni par commune.
Il n’est donc pas recommandé d’ajouter le revenu moyen de la commune de chaque individu dans l’EGB, puisque toutes les communes n’y figurent pas forcément.
Si vous souhaitez accéder à des données macro-économiques, le DCIR (données de consommations inter régime) pourra probablement répondre à vos attentes puisqu’y figure l’exhaustivité de la population protégée.
Il est cependant techniquement possible d’importer des données macro économiques pour les apparier dans l’EGB.

Dans le cadre de votre dépôt de dossier, il vous convient de définir un responsable de traitement ainsi qu’un responsable de la mise en oeuvre. Ceux-ci peuvent d’ailleurs être la même personne morale. Dans le cas où vos responsables hiérarchiques et vous-même dépendez du LISER, le LISER pourra être RT et RMO. En ce qui concerne l’accès aux données, lors de l’expression de besoins réalisée avec la Caisse Nationale d’assurance Maladie, il conviendra de determiner avec elle quelles sont les personnes physiques qui nécessitent d’y accéder.

Il est en effet possible de croiser l’année de naissance avec le code commune de résidence du patient, puisque vous n’utilisez ici qu’un seul identifiant potentiel du SNDS (en l’occurence la commune de résidence du patient)

Enfin, pour le moment il n’est pas encore possible d’utiliser R sur le portail de la Cnam, uniquement SASGuide, que ce soit pour la manipulation des données EGB ou DCIR.

Cordialement

Emmanuel Stranadica

Bonjour Emmanuel,

Je vous remercie pour ces précieuses réponses. Elles nous sont très utiles !

Cependant, je pense toujours que la représentativité des données de l’EGB d’un point de vue territorial n’est pas fondamentalement grave dans certains cas et n’aura que peu d’impact. Tout dépend de la finalité et je dois admettre que je n’ai pas révélé ici la finalité exacte. Toutefois, pour illustrer mon propos avec un exemple simple, quelqu’un pourrait valablement étudier le lien entre la santé des individus (et leurs dépenses de santé) et le revenu moyen dans la commune. Le lien montrerait alors simplement une corrélation agrégée (if any) parmi tous les individus de l’EGB que quelqu’un pourrait ensuite essayer de montrer causale par différentes techniques (médiation causale, etc.). Le résultat serait à mon avis déjà intéressant à observer avec l’échantillon.

En revanche, je suis d’accord avec vous : si l’objectif est de montrer des disparités entre régions, départements ou communes et donc de s’intéresser davantage à l’aspect spatial qu’à l’aspect linéaire, alors oui : l’exhaustivité de la DCIR est importante et l’EGB ne serait pas du tout souhaitable.

Question : Concernant le DCIR, confirmez-vous que l’accès est à une extraction des tables specifiquement nécessaires, contrairement à l’EGB qui donne un accès complet aux variables de l’echantillon ?

Merci encore !

Bonjour Arnaud,

Je trouvais important de vous faire ce petit point d’alerte, mais vous pouvez bien entendu choisir l’EGB si vous estimez qu’il peut répondre aux besoins de votre étude.

Pour répondre à votre dernier!re question, en effet, dans le cas où vous optez pour le DCIR, vous obtiendrez une extraction de bases par la Cnam. Celles ci seront mises à disposition dans un espace sécurisé qui vous sera dédié. Et effectivement, si vous demandez à accéder à l’EGB, cela se fera sans extraction. Vous disposerez de l’ensemble des tables de cet univers pour réaliser votre étude.

Bien cordialement

Emmanuel Stranadica