Compression de données audio spatiales par réseau de neurones F/H
Stage Cesson-Sévigné (Ille-et-Vilaine)
Description de l'offre
votre rôle
Description du contexte du stage
Les contenus audio spatialisés permettent entre autres une plus grande immersion et leurs usages se développent particulièrement ces dernières années (AR/VR, cinéma, radio, etc.). Or, l’audio spatialisé nécessite la transmission de plusieurs canaux audio et il est nécessaire de compresser efficacement ces données pour rendre leur usage supportable sur le réseau.
Orange a une expertise de longue date sur la compression de données audio (codecs EVS, MPEG-H, IVAS). Ces dernières années, les méthodes de compression par réseau de neurones ont montré qu’il était possible de réduire grandement le débit tout en maintenant une qualité correcte en mono par rapport aux méthodes de traitement du signal classiques [1]. L’extension de ces méthodes en multicanal restent balbutiantes. En particulier, pour être entrainés, les codecs (codeur/décodeur) par réseaux de neurones ont besoin d’un critère de qualité de reconstruction appelé fonction de coût. Il n’est pas trivial d’établir un tel critère de qualité en adéquation avec notre audition et permettant d’entrainer efficacement un réseau de neurones.
En 2025, Orange a proposé une nouvelle métrique de qualité audio basée sur un réseau de neurones profond, spécialisée dans l'audio spatial (ambisonique et binaural), nommée QASTAnet (pour Quality Assessment for SpaTial Audio network) [2]. Une implémentation de cet algorithme est disponible en open-source [3]. Nous souhaitons entrainer un codec multicanal avec QASTAnet comme fonction de coût . Or, la version actuelle de QASTAnet souffre d’un certain nombre de limitations qu’il est nécessaire de surmonter pour atteindre cet objectif.
Description de la mission et des principales activités associées au stage
Le travail de stage (6 mois) se déroulera selon un calendrier décrit ci-dessous :
· Appropriation du sujet et étude bibliographique (1 mois),
· Adapter QASTAnet pour entrainer un codec multicanal : réduction de la complexité de QASTAnet, augmentation de la largeur de bande fréquentielle (2 mois),
· Modifier QASTAnet pour améliorer la qualité du signal reconstruit par le codec (2 mois),
· Rédaction (1 mois).
[1] Muller, Thomas, Stéphane Ragot, Laeticia Gros, Pierrick Philippe, et Pascal Scalart. « Speech quality evaluation of neural audio codecs ». In Interspeech 2024.
[2] Adrien Llave, Emma Granier, et Grégory Pallone. « QASTAnet: A DNN-based Quality Metric for Spatial Audio ». https://doi.org/10.48550/arXiv.2509.16715.
[3] Python implementation of QASTAnet, https://github.com/Orange-OpenSource/QASTAnet
votre profil
Formation souhaitée
· Vous êtes actuellement en Master 2 ou école d’ingénieur à dominante recherche et vous préparez une formation dans le domaine du traitement du signal, de l’apprentissage automatique et/ou de l’audio
Pré-requis techniques
· Maîtrise du traitement du signal audio
· Bonnes connaissances en théorie des probabilités et statistiques
· Connaissances en méthodes d’apprentissage automatique, si possible en réseaux de neurones
· Maîtrise de Python. Idéalement expérience avec PyTorch.
Aptitudes personnelles
· Forte appétence pour le traitement du signal et l’audio
· Maîtrise de l’anglais
le plus de l'offre
Vous travaillerez au sein d’une équipe orientée recherche sur le traitement de la parole et du son, composée de chercheurs permanents, post-docs et doctorant-es. Vous serez amené à échanger avec les différents membres de l’équipe, experts sur les domaines du traitement audio, le développement informatique et l’intelligence artificielle liés à l’audio.
Le stage s’insère dans un contexte historique d’amélioration de qualité audio dans les applications conversationnelles. En particulier, la qualité audio sur téléphone mobile s’est améliorée en 2009 avec les premiers déploiements mondiaux par Orange de la « voix HD » (pour Haute Définition) mobile. Orange a également contribué au développement de la « voix HD+ » (équivalente à la qualité hifi) qui est déjà présente dans différents pays depuis 2016. Le stage vient étudier la nouvelle génération de technologies qui est amenée à remplacer les méthodes actuellement déployées.
Vous contribuerez, au sein d’une équipe motivée, à la recherche en codage audio qui est actuellement un domaine en plein essor grâce aux avancées en Deep Learning.
Vous travaillerez ainsi sur des technologies qui seront de plus en plus utilisées dans le futur. Vous pourrez être amenés à déposer un ou plusieurs brevets, et à participer à la publication d’articles.
entité
Le département Audio et Telco Services a pour ambition d’offrir à nos clients la meilleure expérience digitale, en anticipant, développant et intégrant de bout en bout les services de communication temps réel multicanaux.
Le département porte également une expertise sur les devices mobiles et une expertise audio/voix, de la recherche au delivery.
3 équipes constituent le département :
· Equipe Rich Instant Messaging (RIM) qui porte le Skill center Google RCS et les activités de messaging
· Equipe Mobile Service and Sollicitation (MSS) qui assure le développement des services mobiles et des plateformes associées
· Equipe Immersive Communications and Audio Expertise (ICAE) qui travaille sur
les activités de recherche et de standardisation dans le domaine de l’audio
contrat
Stage
Durée : 6 mois
Date souhaitée de prise de poste : 02 févr. 2026
Niveau d’études préparé pendant le stage
Indemnité brute selon école
Bac+5
de 1621 € à 2162 € / mois
Seules vos compétences comptent
Quel que soit votre âge, genre, origine, religion, orientation sexuelle, neuroatypie, handicap ou apparence, nous encourageons la diversité au sein de nos équipes car c’est une force pour le collectif et un vecteur d’innovation
Orange est une entreprise handi-accueillante : n'hésitez pas à nous faire part de vos besoins spécifiques.