Stage Recherche sur les Capacités de Raisonnement des Grands Modèles de Langage Génératif H/F
Stage FRANCE
Description de l'offre
Retour
Stage Recherche sur les Capacités de Raisonnement des Grands Modèles de Langage Génératif H/F
· SAFRAN
· Île-de-France
· 24 mars, 2026
79,710
Description
Safran est un groupe international de haute technologie, leader mondial dans les domaines de l'Aéronautique, de l'Espace, de la Défense et de la Sécurité. Au sein du centre de R&T du Groupe (Safran Tech), l'Unité de Recherche Safran Tech Artificial Intelligence Research (S.AI.R) développe des méthodes innovantes en collaboration avec des partenaires académiques dans des domaines tels que les Grands Modèles de Langage (Large Language Models, LLMs). En tant que stagiaire au sein l'unité S.AI.R, vous travaillerez en étroite collaboration avec des ingénieurs recherche pour améliorer les capacités de raisonnement des LLMs ou de systèmes agentiques sur des données internes et publiques. L'objectif principal du stage sera d'étendre les capacités de raisonnement multi-hop des LLMs. Ce type de raisonnement consiste à formuler une conclusion à travers une succession d'étapes logiques, où chaque étape s'appuie sur des informations ou des concepts intermédiaires pouvant provenir de différentes sources [1,2]. Pour atteindre cet objectif le candidat sera amené à explorer différents axes de recherche possibles tels que l'apprentissage par renforcement [3], le latent reasoning [4, 5], le causal learning [6,7], ou encore des méthodes de raisonnement fondées sur la création et l'exploitation de graphes de connaissance (représentant la mémoire de l'agent ou une base de données externes) [8]. L'étude pourra également s'appuyer sur les capacités de programmation des LLMs [9,10]. Ce stage allie à la fois des aspects informatiques (programmation) et des aspects mathématiques liés aux LLMs, et il pourra se poursuivre par une thèse CIFRE. Vos missions pendant le stage consisteront à : Conduire des recherches pour améliorer les capacités de raisonnement multi-hop des LLMs ; Réaliser une recherche bibliographique ; Implémenter et tester les différentes approches identifiées sur des cas d'usages spécifiques (publics et internes) ; Développer de nouvelles stratégies pour améliorer les capacités de raisonnement multi-hop des LLMs ; Publier les résultats de recherche dans des journaux/conférences (NeurIPS, ICLR, ICML, ACL, COLM). Bibliographie : [1] Yang, Zhilin, et al. "HotpotQA: A dataset for diverse, explainable multi-hop question answering." [2] Schnitzler, Julian, et al. "Morehopqa: More than multi-hop reasoning." [3] Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. [4] Chen, Xinghao, et al. "Reasoning beyond language: A comprehensive survey on latent chain-of-thought reasoning." [5] Yang, Sohee, et al. "Do large language models latently perform multi-hop reasoning?." [6] Schölkopf, Bernhard. "Causality for machine learning." [7] Jin, Zhijing. "Causality for natural language processing." [8] Chen, Ruirui, et al. "LLM-based multi-hop question answering with knowledge graph integration in evolving environments." [9] Zhang, et al. "Recursive language models. [10] Wang, et al. "Executable code actions elicit better llm agents.
Date de début
23 mars, 2026
Profil
Compétences requises : - Niveau d'étude : Master universitaire, Diplôme d'Ingénieur ou équivalent avec formations en Machine Learning, Natural Language Processing (NLP), Large Language Models (LLMs), Mathématiques ou dans un domaine technique pertinent. - Solides compétences en programmation Python. - Familiarité avec un ou plusieurs frameworks d'apprentissage profond (Transformers, Pytorch, Tensorflow, etc.). - Une première expérience recherche dans le NLP et les LLMs serait un plus.
Répartition du temps de travail
Full time
Durée (Mois)
6
Formation
RJ/Qualif/Ingenieur_B5
Secteur
Ind_aero