Les offres de “Orange”

Expire bientôt Orange

Thèse sur les techniques d'apprentissage pour la détection de fraudes F/H

  • Alternance
  • Lannion (Cotes-d'Armor)
  • Infra / Réseaux / Télécoms

Description de l'offre

about the role

effectuer un travail de thèse sur les "Techniques d'apprentissage pour la cyber sécurité/criminalité". Vous trouverez ci-dessous la description du contexte de la thèse.

Le contexte général est la sécurité et la cybercriminalité (détection des fraudes). Face à ces préoccupations, les systèmes de détection de fraudes, de comportements anormaux ou de recherche de signatures d'attaques sont l'une des pièces maîtresses des dispositifs actuels de protection des systèmes. Les tentatives de fraudes, d'intrusions ou d'attaques sont protéiformes, évolutives et rendues furtives par la simple volumétrie big Data du trafic et/ou des transactions. Dans la suite, nous qualifions la fraude, l'intrusion ou une attaque par acte frauduleux. La surveillance d'un réseau ou de transactions nécessite la prise en compte, d'une part de la spécificité d'actes frauduleux et d'autre part des contraintes liées au traitement de données variées, volumineuses et à haute vélocité. L'approche de détection par comparaison à une base de données de comportement dits normaux, par exemple à l'aide de règles métiers, présente des limites. L'établissement des règles est un travail complexe, puisqu'elles doivent suivre constamment les évolutions des fraudes connues. Par ailleurs, la détection de d'actes frauduleux non répertoriées n'est par essence pas possible avec cette méthode.

La sophistication des fraudeurs est constamment croissante. On peut même trouver en ligne des white paper essayant de donner une analyse des systèmes antifraudes et suggérant des politiques pour ne pas se faire pincer comme par exemple en essayant d'imiter un comportement humain [0].

Face à ces constats, les méthodes d'IA, par apprentissage automatique, élargissent le potentiel de détection des fraudes, qu'elles soient connues ou inconnues, et peuvent être associées à des technologies ou des mécanismes relatifs au Big Data. Elles jouent un rôle important dans la détection d'intrusion, de fraude, de comportements anormaux ou de recherche de signatures d'attaques. Les axes de recherche en cours portent sur des systèmes de sécurité en boucle fermée autour d'un expert (dans un domaine bien déterminé, expert de fraude, d'intrusion, etc) permettant un ajustement perpétuel. Ces systèmes comportent au moins les composantes suivantes qui font appel à l'IA : (i) une analyse comportementale (ii) des méthodes d'apprentissage qui vont produire des modèles permettant de prédire le caractère malveillant ou non d'un nouvel événement. Ces modèles sont construits à partir d'un recueil d'annotations (ou de qualifications du caractère malicieux d'évènements) par l'expert dans un processus continu d'apprentissage.

Il y a un gros défi à combiner ces techniques pour éviter certains écueils qui peuvent conduire à des actions couteuses. Différents types d'algorithmes d'apprentissage automatique existent (modes supervisé, non-supervisé, semi-supervisé, actif, architecture hybride et combinaison de classifieurs et/ou de méthodes). Lorsque ces algorithmes sont appliqués à la détection d'actes frauduleux on peut établir la un schéma fonctionnel sous forme d'une plateforme comportant:

·  une infrastructure big data en boucle fermée [1]
·  un module de construction d'une représentation adéquate au problème à traiter [2, 2 bis]
·  un module supervisé qui détermine le type de comportement [3]
·  un module dédié à prendre en compte le feedback de l'expert et améliorer le prédicteur au cours du temps [4] [5]
·  un module de découverte d'information [6]
·  un utilisateur dans la boucle qui permet un étiquetage des données...

Un bon système de prévention et détection de la fraude se doit de faire cohabiter intelligemment l'ensemble de ces modules.

about you

Le profil souhaité est BAC + 5, école d'ingénieur ou Master Recherche statistiques et/ou mathématiques appliquées et/ou informatique.

Une expérience est souhaitée sous la forme d'un stage dans le domaine statistique.
Vous avez acquis une bonne connaissance des statistiques et des mathématiques.

Des connaissances en apprentissage statistique sont un réel plus.

Des compétences en programmation sont nécessaires: maitrise d'un langage de script (à minima) dédié à l'analyse de données (R, matlab, python avec bibliothèque scikit-learn…). La connaissance d'un langage orienté objet serait appréciée.

Une forte motivation, des capacités de synthèse, à bien rédiger et présenter les travaux (anglais) et à s'intégrer dans une équipe sont également demandées.

Spécialité 1 : statistiquesPoids 1 : 0.75

Spécialité 2 : informatiquePoids 2 : 0.25

additional information

Pour plus de détails sur le sujet cliquez ici (ou suivez le lien):

http://vincentlemaire-labs.fr/SujetTheseFraudesExterne.pdf

Vous serez dans l'équipe de traitement statistique de l'information d'Orange Labs Lannion directement en lien avec des problématiques opérationnelles du groupe. Cette équipe comporte une vingtaine de permanents, sur des sujets allant de la recherche aux applications opérationnelles, ainsi qu'une demi-douzaine de thésards et post-doc. Cette équipe est l'une des entités à la pointe de la recherche du groupe Orange en matière de traitement statistique de l'information.

Références:

[0] : How to beat antifraud and start earning money?, Latvia, RIGA, White paper Antrax, (2015)

[1] AI2 : Training a big data machine to defund, Veeramachaneni et al., IEEE International conference on Big Data Security (2016)

[2] Towards Automatic Feature Construction for Supervised Classification”, Marc Boullé, European Conference on Machine Learning (ECML) (2014).

[2bis] Representation Learning: A Review and New Perspectives. Y. Bengio et al. IEEE Trans. PAMI, special issue Learning Deep Architectures.

[3] One-class classification: taxonomy of study and review of techniques, S. S. Khan et al. The Knowledge Engineering Review, vol. 29, pp. 345-374, 6 (2014).

[4] A survey on supervised classification on data streams, Vincent Lemaire et al, Lecture Notes in Business Information Processing (2015)

[5] Active Learning, Burr Settles, Synthesis Lectures on Artificial Intelligence and Machine Learning (2012)

[6] Outlier Detection Techniques”, Hans-Peter Kriegel, Tutorial Notes: SIAM SDM 2010

department

L'objectif de la thèse est de fournir des résultats sous forme de méthodologies et d'algorithmes, avec des preuves de principe sur des données pertinentes. Elle vise à améliorer la plate-forme présentée dans la section précédente pour avoir une chaîne complète de détection de fraudes (multi domaines applicatifs).

On visera particulièrement à développer des méthodes génériques pour :

·  le problème de la création d'une bonne représentation des données qui est couteux et difficile et parfois adressé à l'aide de technique d'apprentissage de représentation (feature learning). Les techniques d'apprentissage profond (deep learning) peuvent être mises ici à contribution pour la construction automatique de bons espaces de représentation ; utilisés comme input des méthodes de détection de comportements anormaux.
·  les problèmes où l'on ne possède qu'une seule classe du problème, exemple : je connais des cas avérés de fraudes (un nombre relativement limité) mais pour le reste des données je ne connais pas s'ils sont frauduleux ou pas et je ne connais pas le pourcentage éventuel de fraude
·  les problèmes de détection d'anormalité (et la problématique de la différence entre détection de changement et détection d'anormalité), par exemple des cas de fraudes non répertoriées
·  les problèmes liés à la qualité des modèles dans le cadre applicatif de la thèse : en effet le taux de fausses alarmes ou de faux positifs qui peuvent être rédhibitoires s'ils sont trop élevés
·  les problèmes liés à la non stationnarité : on peut en effet supposer une stationnarité à court terme mais il faudra aborder la question de la non-stationnarité à long terme
·  le dilemme / exploration des cas que l'on présente à l'expert pour étiquetage et le fait que ces exemples ne seront pas i. i. d par définition
·  l'estimation du coût lié à ce qu'on présente à l'expert et à sa surcharge

Trois types d'apprentissage seront présents : apprentissage supervisé, semi-supervisé et actif. Il faudra donc les faire cohabiter, dialoguer, intelligemment de manière à réguler la qualité globale de la plateforme (en terme par exemple de vrais et faux positifs) lors de son utilisation (déploiement).

L'exploitation thématique des méthodes est ouverte mais on pourra citer au moins deux cas applicatifs (pour lesquels on possède des données et des experts métiers) :

·  la fraude sur le trafic wholesale
·  la fraude sur Orange Money

A l'évidence la thèse devra consacrer un chapitre applicatif sur l'une de ces thématiques.

·  approche méthodologique-planning

Il s'agit de proposer une approche méthodologique envisagée, cheminement possible pour atteindre les objectifs de la thèse (par exemple modélisation, simulation, expérimentation …). Le planning permet d'identifier et de quantifier les grandes étapes de la thèse depuis l'état de l'art à la rédaction du manuscrit de thèse.

La première année sera consacrée à un état de l'art sur les méthodes de clustering prédictif les plus utilisées, de les décrire et d'inventorier leurs avantages et leur inconvénients. Il s'agira ensuite de proposer une feuille de route pour la thèse qui présenterait des pistes de travail pour résoudre les points clef de la thèse.

La suite du planning sera réalisée en collaboration avec le doctorant. A la fin de la première année : on doit savoir ce qu'on va faire en détail sur les deux années à venir. Typiquement, la deuxième année sera consacrée à l'approfondissement de la voie de recherche identifiée en première année. La troisième année consistera à finaliser ces travaux, à les valoriser sous formes d'articles scientifiques, et à la rédaction du manuscrit de thèse.

contract

Thesis

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements