Expires soon Edf

Stage - Méthodes de type « Evolution strategies » pour l'optimisation des plans de chargement de centrales nucléaires - H/F

  • Stage
  • Meulan-en-Yvelines (Yvelines)
  • Master, Titre d'ingénieur, Bac +5
  • Studies / Statistics / Data

Job description

Problème industriel et contexte scientifique

 

Tous les douze ou dix-huit mois, les réacteurs nucléaires du parc français sont mis à l’arrêt pour rechargement. Dans un premier temps, tous les assemblages sont retirés du cœur. Puis, un nouvel ensemble d’assemblages, appelé recharge, est choisi. La recharge comporte, suivant les gestions, un tiers ou un quart d’assemblages neufs, ainsi que des assemblages usés, ayant déjà réalisé un ou plusieurs cycles d’irradiation. La position des assemblages dans le cœur doit être choisie judicieusement afin de respecter un ensemble de critères de sûreté. En particulier, il convient de s’assurer que la puissance est répartie de manière homogène dans le cœur et qu’elle le restera pour différentes configurations accidentelles.

 

Les ingénieurs EDF de l’Unité d’Ingénierie d’Exploitation (UNIE) sont chargés du choix de la disposition des assemblages usés dans le cœur ou « plan de chargement ». Pour cela, ils disposent d’une IHM qui leur permet de modifier un plan de chargement en réalisant des permutations de groupes d’assemblages.

 

Ce processus correspond exactement au formalisme de l’apprentissage par renforcement. Une équipe d’EDF-R&D travaille donc sur cette thématique. Des algorithmes de Deep-Q-learning et de Monte-Carlo-Tree-Search, qui ont été utilisés avec succès en particulier par Google Deepmind (voir [1] et [2]) sont actuellement testés. De premiers résultats encourageants ont été obtenus, mais les performances doivent encore être améliorées avant que ces nouveaux outils soient utilisables par les ingénieurs d’exploitation. En particulier nous souhaiterions évaluer des méthodes de type Evolution strategies [3] ou neuro-evolution [4] qui semblent constituer des alternatives intéressantes au Deep Q-learning

Objectif du stage

Le stagiaire aura pour première tâche de réaliser une revue bibliographique des méthodes alternatives à l’apprentissage par renforcement par méthodes de gradient. En particulier les articles [3] et [4] pourront guider sa recherche.

Dans un second temps il devra développer et tester la ou les méthodes sélectionnées et les évaluer en termes de temps de calcul, optimalité, quantité de données nécessaires pour converger.

Le travail nécessitera notamment de :


Comprendre la problématique métier ainsi que les méthodes déjà développées en interne


Maitriser rapidement la bibliographie


Implémenter une méthode avec les outils Python/Tensorflow/Keras en utilisant les moyens informatique d’EDF (GPUs, Cluster de calcul) en prenant bien en compte les problématiques d’échelle et de temps de calcul.

Le contenu du stage pourra être adapté en fonction de l’avancée des travaux en cours et des compétences du stagiaire.

 

Références :

[1] V. Minh (Google Deep Mind) et al., Human-level control through deep reinforcement learning, Nature, vol 518, pp 529-541, Février 2015

[2] D.Silver (Google Deep Mind) et al., Mastering the game of Go without human knowledge, Nature vol 550, pp 354-359, Octobre 2017

 [3] T. Salimans et al (Open AI), Evolution Strategies as a Scalable Alternative to Reinforcement Learning, Septembre 2017

[4] F. Such et al (Uber AI Labs), Deep Neuroevolution: Genetic Algorithms are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning, Avril 2018.

Ideal candidate profile

Sujets abordés par le stage: Intelligence artificielle, Physique des réacteurs nucléaires, Utilisation de langages scientifiques (Python, Keras, TensorFlow), Système d’exploitation Unix/Linux.

Compétences requises :  Une très forte motivation est souhaitée. Ce stage porte sur un sujet de R&D amont qui nécessite des qualités de réflexion et de créativité, ainsi que des capacités informatiques. Le stagiaire devra être d’être force de proposition pour améliorer la performance des algorithmes.