30 days agoOrange

Stage : Inférence séquentielle par masquage F/H

  • Stage
  • Lannion (Côtes-d'Armor)
  • Studies / Statistics / Data

Job description



about the role

Les modèles prédictifs classiques (régression/classification) permettent d'aborder une vaste gamme de problèmes concrets (ciblage marketing, détection de fraude, prédiction de pannesdots) mais ils sont contraints à travailler sur des espaces cibles très limités (scores numériques pour la régression, ensembles réduits de classes pour la classification).

Les modèles prédictifs de type encodeur-décodeur, permettent de travailler sur des espace cible beaucoup plus riches et plus complexes. Par exemple ils sont beaucoup utilisés en traitement des langues naturelles pour étiqueter, traduire ou résumer des textes complexes (modèles seq2seq [Cho et al. EMNLP 2014]). On peut aussi les utiliser pour étiqueter des images (modèles Image2seq) ou pour produire des textes réalistes à partir de données formelles (vec2seq).

Ces modèles sont constitués de deux parties distinctes : l'encodeur qui produit une représentation interne de l'entrée X, et le décodeur qui permet d'inférer la sortie Y. Il existe de nombreuses variantes des ces modèles (RNN, Convolution, Attention...).

Le grand nombre de variables à prédire et leur interdépendance ajoute une difficulté : il est nécessaire de s'assurer que les variables produites par le modèle seront cohérentes entre elles. C'est le « décodage » ou l' « inférerence ». Le décodage exhaustif (en énumérant et en évaluant toutes les sorties possibles pour trouve la plus probable) est en général impraticable.

Le plus souvent, pour le texte, on utilise des algorithmes de décodage itératifs séquentiels de gauche à droite : on prédit le premier mot P(Y1|X), puis le second conditionnellement au premier P(Y2|Y1,X) et ainsi de suite jusqu'à produire toute la séquence.

Une amélioration de cet algorithme consiste à garder un ensemble de bonnes hypothèses à chaque étape: c'est le beam-search. Mais cet algorithme est en général assez coûteux à déployer.

Un autre problème est que la dépendance « de gauche à droite » n'est pas forcément pertinente pour les données sur lesquelles on travaille.

Une nouvelle approche intitulée Mask-Predict et proposée par [Ghazvininejad et al. EMNLP 2019], consiste à entraîner une réseau de neurones à reconstituer la sortie à partir d'une version « masquée » de cette sortie : plutôt que de décoder de gauche à droite, on entraîne le modèle pour « deviner » les mots masqués dans une séquence. Le décodage procède alors par démasquage successif de la séquence à produire. Cela permet d'accélérer le décodage en le parallélisant, et cela permet aussi de dépasser l'a priori d'une dépendance « de gauche à droite ».

L'objet de ce stage est l'étude des différents algorithmes de décodage de l'état de l'art (partie bibliographique), et l'évaluation expérimentale de l'algorithme Mask-Predict sur différent jeux de données textuelles donc certains issus de données Orange.

 

 

about you

Etudiant(e) en BAC+5 (informatique, mathématiques appliquées), vous êtes à la recherche d'un stage de 6 mois à partir de mars 2020.

Ce sujet requiert une bonne culture en informatique et mathématique appliquée.

La candidate ou le candidat doit être à l'aise sous linux,maîtriser python et au moins une librairie d'apprentissage profond (tensorflow/pytorch/mxnet).

La/le stagiaire devra également disposer d'un bon niveau en anglais.

Références :

« Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation » Cho et al. 2014

« Mask-Predict: Parallel Decoding of Conditional Masked Language Models » Ghazvininejad et al. EMNLP 2019

 

department

L'équipe d'accueil à Orange Labs, spécialisée en apprentissage statistique et analyse de données, compte actuellement 20 membres permanents et 4 doctorants. L'équipe est reconnue au sein du groupe pour son expertise. Nous publions régulièrement dans les meilleures conférences et revues internationales du domaine.

Vous contribuerez aux travaux de recherche en apprentissage statistique de l'équipe. Le travail demandé sera essentiellement expérimental mais il repose sur des fondements théorique solides et il requière une méthodologie rigoureuse.

Si les résultats sont probants, ils pourront faire l'objet d'une publication.

 

contract

Internship

Duration : 6 months

Level : Master 2