Les offres de “Edf”

Expire bientôt Edf

Stage IA avancée (LLM, RAG, ROG) pour extraire des informations dans les plans nucléaires d'EdF F/H (2024-98606)

  • Stage
  • Palaiseau (Essonne)
  • Développement informatique

Description de l'offre

Description de l'offre

Avec près de 1850 collaborateurs de 29 nationalités, EDF Lab Paris Saclay travaille sur plus de 250 projets de recherche et de développement qui visent à répondre aux enjeux du Groupe EDF d'aujourd'hui et aux évolutions de demain.
Dans ce cadre, au sein du Département PERICLES (PErformance et prévention des Risques Industriels du parC par la simuLation et les EtudeS), le groupe Réalité Virtuelle et Visualisation Scientifique (RVVS) réunit les compétences de modélisation / interaction 3D et d'analyse visuelle de données. Le projet IRENE (Intelligence artificielle et REalité virtuelle pour les chantiers du NucléairE) mène des activités de développement d’outils innovants pour rendre la documentation intelligente.

Cette documentation se compose de plans, essentiellement des documents images, organisés selon une architecture complexe, chaque plan faisant référence à une dizaine d’autres plans apportant des informations sur la continuité de celui-ci (plans voisins) ou des informations complémentaires localisées dans des plans de typologies multiples (schémas mécaniques, électriques, etc.). Les installations électronucléaires d’EDF ayant entre 20 et 40 ans, la documentation historique a été pensée pour une gestion papier et non informatique. Aujourd’hui, ces plans sont chronophages à exploiter. La ressaisie de toutes les informations en relation (localisation - bâtiment, local -, numéros de contrat, applicabilité sur les technologies ou sur les unités de production concernées, etc.) est variable en fonction de l’année d’édition du document. Et cette ressaisie n’a pas forcément été réalisée exhaustivement.

Une première avancée a été obtenue par le lot Intelligence Artificielle du projet IRENE sous la forme d’une IA capable d’extraire des plans les Repères Fonctionnels des différents composants (étiquettes indiquant un identifiant unique, l’immatriculation du dit composant). Au-delà de cette détection d’items isolés, l’idée est désormais de construire leurs relations au sein d’un même plans ainsi qu’au travers des différents documents rapprochables.

Des avancées prometteuses apparaissent dans la catégorie des algorithmes de type RAG (Retrieval Augmented Generation (1)) qui combinent des techniques de récupération de connaissances propres au domaine métier (le contexte, gros grain) avec les techniques d’attention qu’apportent les Large Language Models (LLM, comme LayoutML) (grain fin).

Les systèmes RAG constituent ainsi une voie permettant de corriger certains défauts des grands modèles de langage :
• Raisonnement à longue portée : un RAG contribue à relier des faits entre documents.
• Apprentissage continu : le récupérateur indexe les données en évolution, gardant ainsi les connaissances LLM à jour.
• Réduction des hallucinations : les LLM peuvent produire des faits incorrects. Les preuves récupérées étayent les LLM, réduisant ainsi les fausses allégations.

Exemple : https://github.com/shauncohere/cohere_rag-c

Profil souhaité

En parallèle, la mise en oeuvre de technique de Knowledge Graph (2) dans la phase de récupération des informations du domaine métier sont également un ingrédient clef pour améliorer les performances globales.
L’objectif du stage est de tester ces approches sur les données internes disponibles dans le but de proposer une preuve de concept apportant de la valeur au unités métier utilisant la documentation tous les jours.

1. https://www.oracle.com/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/
2. https://en.wikipedia.org/wiki/Knowledge_graph

 

Compétences requises

• Compétences en traitement d’image
• Utilisation de réseaux de neurones profonds pour les images
• Développement Python, bibliothèques de vision par ordinateur, bibliothèques de statistiques et apprentissage
automatique.

Profil souhaité

Bac+5, élève ingénieur ou étudiant en Master 2 en informatique, vision par ordinateur, machine learning.

 

Conditions matérielles

Lieu du stage : EDF Lab Paris-Saclay, 7 boulevard Gaspard Monge, 91120 PALAISEAU
Département PERICLES / Groupe I2C (Réalité Virtuelle et Visualisation Scientifique)
Durée : 5-6 mois, début souhaité en mars - avril 2024 ou en septembre 2024

Références
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks( 2020). Facebook AI Research, University College
London, New York University NeurIPS (Over 870 Citations).
LayoutLMv2 (2022). Multi-modal Pre-training for Visually-rich Document Understanding, Harbin Institute of
Technology, Microsoft Research Asia, Microsoft Azure AI, Soochow University.

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements