Stage - Exploration des modèles de récompense pour améliorer le comportement des LLMs F/H - Orange - Lannion

Description de l'offre

votre rôle

Ce stage se concentrera sur l’entrainement et l’évaluation des modèles de récompense utilisés pour améliorer les modèles de langue (l’alignement avec des préférences humaines).

Nous avons implémenté un modèle de récompense, c'est à dire un modèle de régression, qui utilise l’approche d'adaptation de domaine par inversion du gradient [Ganin and Lempitsky 2015]. Cette approche est utilisée lorsqu’il y a très peu des données cibles disponibles et nous utilisons des données similaires qui proviennent des autres domaines. L’adaptation de domaine par inversion du gradient fait que le modèle est capable de généraliser entre les différents domaines sans être biaisé par le domaine qui a le plus de données.

Les étapes à mener pendant ce stage sont les suivantes :

· Se familiariser avec l’adaptation de domaine par inversion du gradient et comprendre le modèle de régression que nous avons déjà implémenté.

· Sélectionner un jeu de données et un critère d’évaluation (par exemple la fiabilité) pour évaluer les modèles de régression.

· Comparer la performance du modèle d’adaptation avec les modèles de régression classique.

· Se familiariser avec l’apprentissage par renforcement et notamment la bibliothèque python TRL de Huggingface pour améliorer les modèles de langue en utilisant le renforcement.

· Evaluer le modèle de récompense adapté par rapport aux modèles de régression classique dans TRL afin de déterminer s'il y a un gain observé.

Sous la responsabilité de votre maître de stage vous collaborez aux activités de Recherche de l'équipe NADIA axées sur l’amélioration des modèles de langue (l’alignement). Vous interagissez avec différents membres de l'équipe (chercheurs, doctorant, data-scientists, développeurs). Ce sujet de stage est en lien avec un thèse doctorale.

[Ganin and Lempitsky 2015]. Unsupervised domain adaptation by backpropagation. ICML 2015.

votre profil

Dans le cadre de votre formation bac+5 (école ingénieur ou master 2 informatique ou statistiques), vous êtes à la recherche d'un stage de 6 mois.

· Vous avez des connaissances en statistiques et informatique.

· Des connaissances en Python sont impératives.

· Des connaissances en apprentissage statistique sont requises.

· Vous êtes familiarisé avec PyTorch

· Vous connaissez les Transformers et vous êtes familiarisé avec le code OpenSource de Huggingface.

· Vous avez des connaissances sur les modèles de langue génératifs

· Vous pouvez lire les articles académiques en anglais.

entité

L’équipe NADIA « NAtural DIAlogue interaction » (NADIA) travaille - au sein de la direction DATA-IA dans la division Innovation. C’est une équipe pluridisciplinaire composée d’une vingtaine de chercheurs, data-scientists, ingénieurs logiciels, doctorants et apprentis.

Nous sommes spécialisés dans le traitement et l'analyse du dialogue, avec un focus sur le développement de solutions innovantes pour améliorer l'interaction homme-machine.

contrat

Stage

Durée : 6 mois

Date souhaitée de prise de poste : 02 févr. 2026

Niveau d’études préparé pendant le stage

Indemnité brute selon école

Bac+5

de 1621 € à 2162 € / mois

Seules vos compétences comptent

Quel que soit votre âge, genre, origine, religion, orientation sexuelle, neuroatypie, handicap ou apparence, nous encourageons la diversité au sein de nos équipes car c’est une force pour le collectif et un vecteur d’innovation
Orange est une entreprise handi-accueillante : n'hésitez pas à nous faire part de vos besoins spécifiques.

Les offres de “Orange”

Description de l'offre