Biostatisticien / Statisticien / Data scientist en alternance (H/F)
Stage Suresnes (Hauts-de-Seine) Energie / Matériaux / Mécanique
Description de l'offre
Description du poste
Au sein du Département de Pharmaco-Epidémiologie et Real World Evidence, vous explorez des méthodes statistiques et de data science pour l'analyse de données de vie réelle.
Dans les études sur base de données médicales (registres, dossiers médicaux…), l’estimation de l’effet traitement se fait à partir de données collectées dans la vie réelle. Contrairement au essais cliniques randomisés, pour lesquels la randomisation assure la comparabilité des bras de traitement, les patients en vie réelle se voient attribuer un traitement en fonction de plusieurs caractéristiques personnelles. Ceci peut entraîner un biais de confusion dans l’estimation de l’effet traitement. La méthode des scores de propension qui permet d’agréger de multiple facteurs confondants en une seule mesure est la plus reconnue et utilisée pour équilibrer les bras de traitement et supprimer ce biais.
Les méthodes de machine learning (CART; BART; SuperLearner) semblent prometteuses pour se substituer à la régression logistique dans l’estimation des scores de propension et améliorer ainsi la qualité de l’estimation de l’effet traitement.
La mission d’alternance a pour principal objectif un benchmark des méthodes de machine learning applicables à l’estimation de scores de propension avec une mise en application sur la base CPRD.
Missions
· Recherche bibliographique et acquisition des différentes méthodes
· Programmation et évaluation des méthodes via des simulations
· Application sur une étude interne sur la base CPRD
Profil recherché
Étudiant(e) en dernière année de formation (équivalent BAC+5) en spécialité statistiques ou data science
Maîtrise de la programmation en SAS, R et Python
Très bon niveau en anglais