Post Doc Algorithmes d'apprentissage non discriminatoires (fairness data mining) F/H - Orange - Lannion

Description de l'offre

about the role

Votre rôle est d'effectuer un travail de post doc sur : « le datamining non discriminatoire (ou fair) »

Contexte global du sujet et état de l'art :

Contexte : Le nouveau règlement européen sur la protection des données personnelles, qui doit s'appliquer en 2018 (http://www.eugdpr.org/), renforce le principe de loyauté des processus de datamining et notamment des algorithmes de personnalisation. En effet, de plus en plus de décisions sont prises automatiquement par des algorithmes dans des domaines qui impactent la vie privée des individus (éducation, emploi, santé, aide sociale) et la ligne est parfois floue entre personnalisation et discrimination, comme par exemple recommander des postes prestigieux à des hommes et pas à des femmes, proposer des prix différents pour un même produit en fonction de la localisation. Autres exemples de discrimination potentielle : attribution d'un crédit bancaire, cout d'assurance variable, refus d'un emploi, etc.

On s'intéresse à construire des algorithmes qui respectent une contrainte d'impartialité. On doit s'assurer que la sortie de l'algorithme (de personnalisation, de classification, ..) n'est pas influencée par la valeur d'une variable sensible (genre, opinion politique ou religieuse, origine ethnique, etc) [1].

Etat de l'art : La littérature sur le sujet identifie différentes sources de biais que ce soit lors de la collecte des données ou encore une mauvaise performance de l'algorithme sur une partie spécifique de la population, et propose différentes catégories d'approches pour traiter le problème comme [2] :

· Prétraiter les données pour supprimer les biais de discrimination,
· Modifier l'algorithme pour qu'il devienne non discriminatoire même en présence de données biaisées,
· Post-traiter la sortie de l'algorithme pour réduire la discrimination.

On attend de ce post doctorat d'une part une synthèse des principales approches de la littérature et d'autre part la proposition et le développement d'algorithmes qui respectent le principe de non-discrimination tout en préservant une bonne utilité des données, ainsi que leur évaluation par rapport aux solutions de l'état de l'art.

Se référer à la section 3 « Le plus de l'offre » pour des informations détaillées sur la mission scientifique et les principales activités associées au post doc.

about you

Vous avez une double compétence statistiques et Machine Learning, et êtes titulaire d'un doctorat dans un de ces 2 domaines.

Des connaissances en apprentissage statistique et en protection des données personnelles ou en sécurité sont un réel plus.

Des compétences en programmation sont nécessaires: au minimum excellente maîtrise d'un langage de script dédié à l'analyse de données (R, Matlab, Python avec bibliothèque Scikit-learn…).

Une forte motivation, des capacités de synthèse, de rédaction (article de conférence ou de revue) et de présentation des travaux (anglais) et à s'intégrer dans une équipe sont également demandées.

Une expérience est souhaitée dans le domaine statistique et/ou machine learning et dans le développement informatique.

additional information

Objectif scientifique - verrous à lever :

De nombreuses approches récentes sont proposées dans la littérature pour résoudre le problème de non-discrimination comme évoqué dans la section «contexte global de l'étude et état de l'art » de ce document. L'objectif étant de proposer des algorithmes qui offrent un bon compromis entre non-discrimination et utilité des modèles produits. Les aspects communs à toutes ces approches sont :

· la définition des contraintes de non-discrimination,
· la transformation des données ou du modèle pour satisfaire les contraintes,
· la mesure de l'utilité des données ou du modèle produits.

Par contre, différentes notions de discrimination peuvent être considérées (de groupe ou individuelle, directe ou indirecte, etc.). L'un des premiers objectifs du post doctorat sera donc de synthétiser ces différentes notions ainsi que les métriques associées qui permettent de mesurer et de quantifier la discrimination [3].

Approche méthodologique-planning :

Un axe de recherche prometteur que l'on voit apparaitre est celui qui fait le lien entre les algorithmes « fair » et les algorithmes de traitement de données respectueux de la vie privée. Des travaux montrent notamment que les algorithmes d'anonymisation de type k-anonymat ou Privacy Différentielle (DP) sont des candidats intéressants pour les algorithmes de non-discrimination [4,5]. Ces travaux cherchent à adresser les deux problématiques simultanément en construisant des algorithmes qui soient à la fois respectueux de la vie privée et non discriminants ou en adaptant les algorithmes d'anonymisation existants [6]. On s'intéressera plus particulièrement à ces travaux, dans un contexte de classification supervisée. Le post doctorant devra proposer et développer des algorithmes et métriques appropriés aux informations de discrimination retenues.

department

Vous rejoindrez l'équipe de traitement statistique de l'information d'Orange Labs Lannion. Cette équipe, spécialisée en machine learning et data mining, comporte une vingtaine de permanents, sur des sujets allant de la recherche aux applications opérationnelles, ainsi qu'une demi-douzaine de doctorants, stagiaires et post-doctorants.

Qu'est ce qui fait la valeur ajoutée de cette offre ?

Vous travaillerez dans un grand centre de recherche international, au sein d'une équipe de recherche très active en data-mining et IA.

Vous serez en contact avec d'autres équipes de recherche d'Orange et des équipes de recherche universitaires.

La conformité avec le GDPR est un sujet majeur pour Orange, les résultats obtenus seront immédiatement valorisables.

Références :

[1] Algorithmic Bias: From Discrimination Discovery to Fairness-aware Data Mining. S. Hajian, F. Bonchi, and C. Castillo. In Proceedings of the 22nd ACM SIGKDD (KDD '16). ACM, New York, NY, USA, (2016), 2125-2126. DOI: https://doi.org/10.1145/2939672.2945386

http://francescobonchi.com/algorithmic_bias_tutorial.html

[2] Model-based and actual independence for fairness-aware classification. Kamishima, T., Akaho, S., Asoh, H. et al. Data Min Knowl Disc (2017), pp 1-29

[3] Fairness-aware machine learning: a perspective. I.Zliobaite. arXiv:1708.00754 (2017)

[4] Generalization-based privacy preservation and discrimination prevention in data publishing and mining. S. Hajian, J. Domingo-Ferrer, and O. Farras. Data Mining and Knowledge Discovery, 28(5-6), pp.1158-1188, (2014)

[5] Using t-closeness anonymity to control for non-discrimination. S. Ruggieri. Transactions on Data Privacy 7 (4) : 301-325, (2014)

[6] C. Dwork, M. Hardt, T. Pitassi, O. Reingold, and R. Zemel. 2012. Fairness through awareness. In Proceedings of the 3rd Innovations in Theoretical Computer Science Conference (ITCS '12)

contract

Post Doc

Les offres de “Orange”

Description de l'offre