Offers “Edf”

days ago Edf

Stagiaire en Text Mining H/F (2020-16481)

  • Stage
  • Palaiseau (Essonne)
  • Studies / Statistics / Data

Job description



Description de l'offre

La R&D d’EDF (2000 chercheurs) a pour missions principales de contribuer à l'amélioration de la performance des unités opérationnelles du groupe EDF, d'identifier et de préparer les relais de croissance à moyen et long termes. Dans ce cadre, le département ICAME est un département pluridisciplinaire (sciences de l’ingénieur, sciences humaines et sociales) qui fournit un appui à l’élaboration et au portage des offres, des services et des outils de relation client aux directions opérationnelles du groupe EDF.  Au sein de ce département, ce stage sera rattaché au groupe « Statistiques et Outils d'Aide à la Décision » qui compte une vingtaine d'ingénieurs chercheurs spécialisés en text mining, informatique décisionnelle et data science ayant pour mission de construire et mettre en œuvre les méthodes d’analyse, de fouille et d’enrichissement de données volumineuses d’origines multiples, structurées ou complexes.

En effet, le volume des données numériques textuelles, disponibles sur l'Internet (forums, twitters etc.) ou relatives à des contacts client (enquêtes, centre d'appel etc.), augmente chaque année à un rythme exponentiel et l'analyse de ces informations, structurées ou non, est, aujourd'hui, un impératif stratégique pour une entreprise telle qu'EDF. Dans ce cadre, l'exploitation de ces documents implique l'utilisation de méthodes et d'outils adaptés. Au cœur de ces problématiques les outils de text mining sont de plus en plus nombreux et performants, ainsi nous souhaitons étudier les principaux outils évoluant sur le marché aujourd'hui.

Objectifs
Depuis 2003, les données textuelles sont traitées à la R&D via des solutions text mining propriétaires et open-source (XIP de Xerox, SpaCy de python etc.). Dans le cadre du suivi des évolutions des outils de text mining, nous souhaitons mener une évaluation continue des outils d'analyse de données contenant du texte.

L'objectif est donc d'évaluer un ou plusieurs outils/méthodes afin d'identifier le potentiel existant en fonction des besoins métiers actuels. De plus, il s'agira de mener des tests permettant d'estimer la performance de l'outil dans une chaîne de traitement similaire à celle aujourd'hui mise en place. Des briques plus spécifiques pourront également être testées (i.e. Tagger morphosyntaxique etc. ...).

Ce stage se décomposera en 3 parties :

Etat de l'art des outils text mining : il s'agira de mener une étude de marché des outils existants aujourd'hui, à la suite de l'étude menée en 2019-2020.
Evaluation : A partir des solutions émergentes du marché, il s'agira d'évaluer une sélection d'outils jugés a priori pertinents par rapport aux besoins d'EDF. Cette évaluation inclut des tests à l'échelle de la chaîne de traitement actuelle et portera sur différentes fonctionnalités de l'outil (extraction de connaissances, classification, annotation, etc.)
Comparaison des résultats avec l'outil actuellement en place à EDF.

 

Ideal candidate profile



Profil souhaité

Etudiant(e) en master 1 ou 2 ou équivalent école d’ingénieur.
M1 ou M2 en ingénierie linguistique / informatique & Linguistique.
Connaissances des problématiques et technologies du text mining.
Connaissances des méthodes de catégorisation et de clustering.
Connaissances en développement informatique (Python, Perl, Java).
Connaissances des bases de données (MySQL).
Notions en ontologie et web sémantique (SPARQL).
Connaissance des méthodes mathématiques, statistiques, de machine learning et deep learning.
Des connaissances en environnement Big Data serait un plus.
Des connaissances sur le secteur de l’énergie serait un plus.
Curieux(/se), ingénieux(/se) et motivé(e) pour le domaine de la recherche appliquée.
Bon niveau rédactionnel.