Les offres de “Orange”

Expire bientôt Orange

Post Doc Plongements de mots translingues / Représentation vectorielle de mots translingue F/H

  • CDD
  • Rennes (Ille-et-Vilaine)
  • Enseignement

Description de l'offre

about the role

Votre rôle est d'effectuer un travail de post-doc sur : « la représentation vectorielle des mots translingues ».

Contexte global du sujet de thèse et état de l'art

Contexte : Depuis quelques années, les « plongements de mots » (de l'anglais « word embeddings») se sont très massivement imposés comme représentation des mots, dans tous les systèmes de traitement automatique du langage naturel. Estimés de façon non-supervisée, et capturant des relations syntaxiques et sémantiques entre les mots, ils constituent la première couche de représentation, pour entraîner des classifieurs supervisés, pour toutes sortes de tâches du traitement du langage naturel. Cependant, les plongements de mots estimés sur une langue ne sont pas initialement compatibles avec les plongements des traductions de ces mots dans une autre langue. L'objectif du post-doc est d'obtenir un espace unifié des plongements de mots dans différentes langues, dans lequel des mots de sens proche, mais dans des langues différentes, se trouvent proches.
Idéalement, si on arrive à construire un espace unifiée de plongement de mots pour une paire de langues donnée, cela va bénéficier aux tâches intrinsèquement translingues (comme calculer des similarités sémantiques entre textes de différentes langues sans passer par une phase explicite de traduction qui peut dégrader le texte, ou trouver la traduction d'un mot lorsque celle-ci n'est pas disponible dans un dictionnaire), mais cela permet aussi de faire du transfert d'apprentissage. En effet, les systèmes entraînés de façon supervisée avec de nombreuses données annotées dans une langue, et prenant en entrée des plongements de mots, pourraient s'appliquer sur des données d'une autre langue, ou tout au moins pourrait initialiser un système dans l'autre langue, qui serait ensuite amélioré grâce à un petit volume de données annotées.

Etat de l'art :
L'unification de ces espaces passe généralement par l'utilisation de gros corpus parallèles dans les 2 langues, pour apprendre directement un espace unifié conjoint aux 2 langues [1]. Cependant, ces gros corpus parallèles ne sont pas aisément disponibles pour toutes les paires de langues, et dans tous les contextes applicatifs. Les enjeux de recherche sont d'estimer des espaces unifiés avec une quantité réduite de corpus parallèles. [2][3][4] proposent d'entraîner des plongements de mots monolingues, et de les unifier ensuite, grâce à un petit ensemble de phrases traduites ou de lexiques bilingues. Différentes stratégies d'unification sont étudiées, par exemple par l'estimation de projection pour convertir l'espace d'une langue vers une autre, ou par une phase d'apprentissage explicite pour continuer l'estimation des plongements de mots, dans un espace unifié.
Des campagnes d'évaluation internationale, dans le cadre de SemEval [5], ont eu lieu sur le sujet de la similarité lexicale translingue, et mettent ainsi à disposition de la communauté des corpus annotés et un cadre d'évaluation partagé.

Se référer à la section 3 « Le plus de l'offre » pour des informations détaillées sur la mission scientifique et les principales activités associées au post doc.

about you

Vous êtes titulaire d'une thèse de doctorat en Informatique (apprentissage automatique) ou Sciences du Langage (traitement automatique du Langage Naturel).

Compétences (scientifiques et techniques) et qualités personnelles souhaitées pour le poste :

développement logiciel (python, bash) et aisance à manipuler les outils open-sources
connaissances théoriques et pratiques en apprentissage automatique et méthodes neuronales
intérêt pour le traitement automatique des langues
anglais scientifique courant
capacité à travailler en équipe
rigueur et méthodologie
curiosité, créativité

additional information

Objectif scientifique - verrous à lever :

Il s'agit de développer une solution d'estimation de plongements de mots translingues, avec peu de ressources bilingues. C'est un sujet actuel de recherche en pleine effervescence.

Approche méthodologique-planning : 

Dans un premier temps, le postdoc fera l'état des lieux des solutions existantes, dans la littérature et identifiera les cadres les plus pertinents d'évaluation pour Orange, selon 2 axes :

-le transfert d'apprentissage : identifier la tâche spécifique et les paires de langues pour lesquelles on évaluera les solutions proposées
-les similarités sémantiques textuelles translingues : identifier les corpus applicatifs pertinents au sein d'Orange
De plus, pour se positionner par rapport à la communauté académique, il s'agira également de faire l'évaluation intrinsèque, sur des lexiques bilingues.

Il sélectionnera la ou les méthodes les plus appropriées, et cherchera à l'améliorer.
Tâches :
- Familiarisation avec le contexte applicatif, identification des tâches et corpus d'Orange spécifiques
- Evaluation et comparaison de différents algorithmes, sur les données académiques et sur les données d'Orange
- Proposition de la solution optimale et application dans le contexte applicatif ciblé
- Soumission d'article(s) dans des conférences et/ou revues internationales
- Rédaction d'un rapport d'étude sur les méthodes et algorithmes développés lors de cette étude et sur leur évaluation.

department

L'équipe DESKIN a en charge les travaux de recherche et de développement dans le domaine du traitement automatique des langues (analyse sémantique, extraction d'informations, requêtes en langage naturel, etc…) utilisant des techniques d'apprentissage automatique.

Qu'est ce qui fait la valeur ajoutée de cette offre ?

Vous intervenez dans un domaine qui fait l'objet d'intenses recherches dans la communauté scientifique mondiale, et dans le contexte industriel d'une entreprise qui intervient dans de nombreux pays, et doit traiter des langues différentes, avec une grande variabilité des ressources linguistiques disponibles par langue.

Références :

[1] Thang Luong, Hieu Pham, and Christopher D. Manning. (2015). Bilingual word representations with
monolingual quality in mind. In Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing. Association for Computational Linguistics, Denver, Colorado, pages 151-159. http://www.aclweb.org/anthology/W15-1521.
[2] Gouws, S., Bengio, Y., & Corrado, G. (2015). Bilbowa: Fast bilingual distributed representations without word alignments. In Proceedings of the 32nd International Conference on Machine Learning (ICML-15) (pp. 748-756).
http://proceedings.mlr.press/v37/gouws15.pdf
[3] Artetxe, M., Labaka, G., & Agirre, E. (2017). Learning bilingual word embeddings with (almost) no bilingual data. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Vol. 1, pp. 451-462).
[4] Ang Lu, Weiran Wang, Mohit Bansal, Kevin Gimpel, and Karen Livescu. (2015). Deep multilingual
correlation for improved word embeddings. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, Denver, Colorado, pages 250-256.
http://www.aclweb.org/anthology/N15-1028.
[5]Camacho-Collados, J., Pilehvar, M. T., Collier, N., & Navigli, R. (2017). Semeval-2017 task 2: Multilingual and cross-lingual semantic word similarity. In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval 2017). Vancouver, Canada.
http://www.pilevar.com/taher/pubs/SemEval2017-Task2.pdf.

contract

Post Doc

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements