Thèse CIFRE sur la classification d'images radar avec peu de données d'apprentissage (H/F)
Stage Élancourt (Yvelines) Master, Titre d'ingénieur, Bac +5
Description de l'offre
CE QUE NOUS POUVONS ACCOMPLIR ENSEMBLE :
En nous rejoignant, vous vous verrez confier les missions suivantes dans le cadre de votre thèse :L'apprentissage profond (ou deep learning) est une technique en fort développement ces dernières années car elle a démontré qu'elle pouvait conduire à des performances excellentes quand il s'agit de faire réaliser une tâche spécifique à un ordinateur. Les progrès réalisés dans ce domaine sont dus à des avancées algorithmiques mais également à l'accès à de grandes masses de données et aux capacités de calculs accrues des ordinateurs (calculs parallèles par GPU notamment). L'apprentissage profond est actuellement surtout connu pour la classification automatiquement des images, pour détecter et reconnaître des objets dans des images, pour reconnaître la parole d'un locuteur, etc. Cependant il a été montré que cette technique pouvait être plus générale et contribuer à d'autres domaines. Ainsi, elle peut permettre par exemple de récupérer le « style » d'une image (d'un grand maître) et de l'appliquer sur une autre.L'application de ces techniques d'apprentissage profond pour la reconnaissance automatique de cibles à partir d'images radar, ont montré un potentiel intéressant. Cependant, pour atteindre des résultats optimaux, elles nécessitent la constitution de bases de données les plus exhaustives possibles. Or l'acquisition et l'étiquetage d'une telle base est une tâche très fastidieuse, coûteuse en temps, en ressources humaines et matérielles.D'un autre côté, des simulateurs de données radar ont été développés ces dernières années à des fins, par exemple, de planification de missions ou pour générer des images permettant de valider les algorithmes de détection, de classification et d'identification. Cependant les modèles utilisés ne permettent pas de représenter l'ensemble des phénomènes physiques mis en œuvre dans une liaison radar et les coûts de calculs peuvent eux aussi s'avérer trop importants. Ainsi, à ce jour, ces simulateurs ne sont pas satisfaisant car, bien que les images synthétisées semblent réalistes, leurs caractéristiques restent trop éloignées d'une image réelle. L'objet de ce travail de thèse est donc de tirer parti des modèles génératifs récemment développés dans le cadre des techniques d'apprentissage profond . Ces derniers consistent essentiellement à estimer la densité de probabilité associée aux données d'apprentissage, par maximum de vraisemblance. Un échantillonnage de la densité obtenue permet d'obtenir de nouveaux échantillons ayant la même loi que les échantillons d'apprentissage. Selon les approches, l'estimation peut être paramétrique (c'est-à-dire qu'on cherche des paramètres définissant une loi particulière dans une famille de lois de probabilité), ou non paramétrique.L'estimation paramétrique comprend par exemple les approches (Deep) Belief Network , ou des approches nécessitant des approximations pour estimer la loi de probabilité et/ou générer des échantillons : machines de Boltzmann , autoencodeurs varationnels .Les approches non paramétriques au contraire ne sont pas basées explicitement sur une famille de loi de probabilité, elles permettent plutôt d'entraîner le modèle par échantillonnage (sampling). Par exemple, les réseaux génératifs stochastiques constituent une approche non paramétrique reposant sur un échantillonnage par chaîne Markoviennes.Une classe de méthodes non paramétriques d'intérêt particulier pour la thèse est celle des réseaux adversaires génératifs (Generative Adversarial Networks, GAN). Ceux-ci semblent particulièrement intéressants pour la génération d'images SAR synthétiques :
* ils ont été conçus pour éviter d'avoir recours à l'échantillonnage par chaîne de Markov, ces dernières convergeant difficielement en grande dimension et ayant un coût calculatoire élevé
* contrairement aux méthodes variationnelles, ils ne font pas d'approximations relatives à une famille de lois de probabilité - ce qui explique partiellement la meilleur qualité des échantillons générés souvent constatée
* ils n'ont pas de contrainte sur la fonction de génération d'échantillons en dehors de la différentiabilité
L'idée sous-jacente aux GAN est de faire fonctionner un réseau neuronal générateur en concurrence avec un réseau discriminateur. Le discriminateur apprend de manière supervisée à distinguer les vraies images SAR des images synthétiques générées par l'autre réseau. Par ailleurs, le réseau générateur produit des images à partir d'échantillons de bruit issus d'un a priori - généralement uniforme. Ses paramètres sont estimés de manière à minimiser les performances du réseau discriminateur. Contrairement aux approches classiques d'apprentissage où les modèles sont entraînés via la minimisation d'un critère, l'entraînement d'un GAN nécessite de trouver un équilibre dit « de Nash » en théorie des jeux. L'apprentissage est ainsi plus complexe et sa convergence n'est pas toujours garantie.Un des objectifs principaux de la thèse est d'étudier l'apport des modèles génératifs en général, et des GAN en particulier, afin de synthétiser des bases de données réalistes d'images de cibles radar qui seront par la suite exploitées pour développer, valider et évaluer les algorithmes (basés sur des méthodes d'apprentissage profond ou non) de classification automatique d'images.Certains travaux récents ont commencé à appliquer les GAN à la génération d'images SAR synthétiques. Ils sont par exemple utilisés dans pour réduire le bruit multiplicatif (speckle) caractéristique des images SAR. Dans ils sont utilisés pour générer des images synthétiques permettant de réaliser l'appariement d'images optiques avec des images SAR dans un système multi-capteurs. Des premiers travaux encourageants sont reportés dans pour la génération de bases de données afin d'améliorer les performances de classification. Les enjeux de la thèse seront d'amplifier la portée de ces premières pistes à partir d'images réelles dans un premier temps, grâce au potentiel d'apprentissage non supervisé des GAN reporté dans par exemple ; Un autre enjeu principal sera d'étendre la capacité de génération à partir de modèles 3D de véhicules terrestres, de sorte à pallier au nombre limité de données réelles, et caractériser précisément les performances de classification. Il conviendra notamment de prendre en compte des critères spécifiques permettant d'obtenir des images réalistes tels que, par exemple, les pertes perceptuelles introduites dans le contexte du transfert de style et super-résolution .Un planning prévisionnel de la thèse est le suivant :1ere année : * Etude bibliographique et veille scientifique.
* Sélection et implémentation des techniques les plus pertinentes pour la génération d'images SAR synthétiques à partir de données réelles et comparaisons.
* Etude des performances de classification avec des discriminateurs indépendants du GAN, basés sur d'autres approches en vigueur à TDMS, ceux-ci étant entraînés sur des images synthétiques et/ou réelles et testés sur des données réelles.
2eme année : * Introduction d'un couplage entre données réelles et modèles 3D pour l'apprentissage.
* Etude de faisabilité pour la génération d'images synthétiques à partir de modèles 3D uniquement, pour des cibles dont on ne dispose pas d'images réelles.
* Etude de performances, publications.
3eme année : * Compléments d'étude et simulation pour caractériser finement les performances atteignables, notamment en fonction du rapport signal à bruit, de la résolution image, de la quantification des données
* Prise en compte du fouillis de sol.
* Rédaction du mémoire
La perspective de rejoindre un Groupe innovant vous motive ? Alors rejoignez-nous en postulant à cette offre.Vous souhaitez en savoir plus sur les activités Systèmes terrestres et aériens ? Cliquez ici ou ici.
Profil recherché
QUI ETES-VOUS ?
De formation supérieure (Ecole d'ingénieur ou université Bac + 5) vous possédez de fortes compétences en mathématiques appliquées, en traitement du signal et des images, en programmation et en machine learning. Des connaissances générales ou une première expérience en Deep Learning seront fortement appréciées.
Par ailleurs vous êtes autonome, créatif et avez le goût de la recherche.Vous aimez aussi travailler en équipe.Compétences clés :- Connaissance des modèles génératifs, méthodes d'optimisation, théorie des jeux.- Informatique : Python, Matlab- Bases sur le radar (imagerie)- Machine learning, data science}
À propos de Thales Dms France Sas
QUI SOMMES-NOUS ?
Rejoignez Thales, leader mondial des technologies de sûreté et de sécurité pour les marchés de l'Aérospatial, du Transport, de la Défense et de la Sécurité. Fort de 65 000 collaborateurs dans 56 pays, le Groupe bénéficie d'une implantation internationale qui lui permet d'agir au plus près de ses clients, partout dans le monde.
L'activité Systèmes de missions de défense fournit des équipements, des solutions et des services liés aux systèmes de combat électroniques, de surveillance et de reconnaissance, de combat naval, de surface et de lutte sous la mer.
Le site d'Élancourt est un centre de développement des hautes technologies, liées au domaine des Radars de conduite de tir et de surveillance, ainsi que des solutions de Guerre Électronique.
La Direction technique recherche un/une Ingénieur pour une thèse Cifre « sur la classification d'images radar avec peu de données d'apprentissage » (H/F)
Basé(e) à Élancourt.