Les offres de “Orange”

Expire bientôt Orange

Thèse sur la découverte des processus par l'analyse de logs des outils de communication F/H

  • Thèse
  • Châlons-en-Champagne (Marne)
  • Production Audiovisuelle

Description de l'offre

about the role

Ci-dessous le contexte de ce travail de recherche.

La mission et les principaux objectifs seront précisés sous le titre "Entité".

Contexte

Dans leur fonctionnement au quotidien les entreprises s'appuient d'une part sur une organisation qui confère autorité et responsabilité aux acteurs internes, d'autre part sur des processus opérationnels qui encadrent les interactions entre ces acteurs. La pertinence de ces processus peut être mesurée par des KPI ou par la tenue des objectifs. Il y a néanmoins une différence entre la réalité et celle que suggèrent les processus théoriques (processus détournés, initiatives personnelles, urgence, etc...).

Cet écart entre théorie et pratique est un enjeu pour le monde professionnel: d'une part la digitalisation s'accommode mal de processus suivis «plus ou moins», d'autre part la perspective de l'arrivée de l'intelligence au coeur de l'entreprise impose de mieux comprendre ce que l'on y fait. L'intelligence artificielle ne restera pas cantonnée à motoriser des chatbots aux fonctionnalités basiques, elle devra fournir aux acteurs d'une organisation une aide personnalisée et temps réel. Il y a donc un travail à réaliser afin de comprendre et décrire le mode de fonctionnement de ces organisations. L'enjeu est de comprendre l'activité professionnelle pour aider ses acteurs.

Le but du travail proposé est de remonter au fonctionnement réel de l'entreprise par l'analyse de ses flux de communication. Les données analysées incluront notamment le mail, la messagerie instantanée, les ponts téléphoniques et le réseau social d'entreprise. Le périmètre de l'étude se fera sur le Groupe en France et s'inscrit dans le projet "Orange Process Discovery". Il conviendra alors d'utiliser ces données, dans le respect des engagements Orange sur l'utilisation des données personnelles, pour arriver à identifier des processus en place dans l'entreprise. Néanmoins, le thésard devra s'appuyer sur des données publiques (e.g. https://www.kaggle.com/wcukierski/enron-email-dataset) pour prouver les concepts introduits dans la communauté scientifique.

Etat de l'art

La fouille de processus vise à étudier différentes techniques permettant la découverte de processus à partir des applications logicielles utilisées. L'idée est d'extraire des connaissances à partir des événements du SI. Les approches existantes dans la littérature permettent de découvrir le modèle de processus ou ses variantes, de détecter des modifications du modèle initialement conçu, de trouver des corrélations entre les données du processus et les différentes variantes du modèle [10], d'analyser et de prédire des aspects inefficaces [11]. Différents algorithmes ont été proposés dans la littérature. Cependant, tous agissent sur les journaux des applications dans un format standardisé, à savoir XES, MXML, CSV, etc.

Les outils de communication sont une source précieuse d'information pour les analystes métier [2]. Ils ont fait objet de plusieurs publications. Les processus [2], les modèles d'organisation [3,4,5], le réseau social d'entreprise [4,6] ainsi que les compétences [7,8] pourraient être découverts à partir de ces outils. Cela est particulièrement vrai à l'ère du management agile, de l'organisation horizontale et du travail collaboratif [9]. La thèse se situe dans ce contexte avec l'analyse des outils de communication à des fins de découverte des processus.

Pour modéliser et analyser des processus, l'utilisation des techniques de l'intelligence artificielle et de la fouille des données s'avère indispensable. Citant par exemple: le clustering [12,14], la classification supervisé [13], et le text mining, etc. Dans cette thèse, des collaborations avec les équipes respectives d'Orange Labs qui travaillent à développer ces différentes techniques sont envisageables.

about you

Connaissances spécifiques / aptitudes recherchées :

1ere expérience dans les domaines suivants :

·  probabilités / statistiques, machine learning, process mining.
·  text mining, analyse sémantique.
·  modèles graphiques, opérer dans la complexité.
·  programmation (Python, C/C++, Java,…).

Formation demandée :

Ingénieur en probabilités/statistiques et machine learning.

Expériences souhaitées :

Stage dans le domaine du big data.

Goût pour les travaux de recherche et la levée de verrous techniques ou technologiques.

Savoir être :

·  dynamisme et optimisme.
·  autonomie.
·  créativité.
·  capacité à travailler en équipe projet transverse, et à convaincre des interlocuteurs exigeants (décideurs, clients et partenaires internes et externes, utilisateurs finaux...).
·  force de conviction et capacité d'entrainement.
·  sens de l'écoute.
·  capacité à communiquer à l'écrit et à l'oral.

additional information

Thématique de recherche en croissance, en proximité de compétences diversifiées et sur un sujet nécessitant la mise en oeuvre et le développement de compétences et de technologies variées.

Enjeux intéressants puisqu'ils préfigurent une nouvelle façon de piloter les entreprises, basée sur l'analyse en temps réel des processus découverts automatiquement. D'où une réactivité accrue.

Le candidat va pouvoir bénéficier de la mise en place d'un processus juridique et technique pour la récupération de données. Cela permettra la création d'une infrastructure big data pour collecter les traces de communications et l'accompagnement juridique de ces travaux afin de s'assurer de leur compatibilité avec les engagements de l'entreprise envers l'utilisation des données personnelles.

Références

[1] Van Der Aalst, W.M., Al.: Process Mining Manifesto. Business Process Management Workshops 99, 169-194, (2012)

[2] Brander, S., Hinkelmann, K., Hu, B., Martin, A., Riss, U. V., Thönssen, B., Witschel, H. F.: Refining process models through the analysis of informal work practice. Business Process Management, 116-131, (2011) Springer Berlin Heidelberg

[3] Krulwich, B., Burkey, C., Consulting, A.: The ContactFinder agent: Answering bulletin board questions with re-ferrals. In AAAI/IAAI, Vol. 1. pp. 10-15, (1996)

[4] Viégas, F. B., Golder, S., Donath, J.: Visualizing email content: portraying relationships from conversational histories. In Proceedings of the SIGCHI conference on Human Factors in computing systems, pp. 979-988, (2006)

[5] Tyler, J. R., Wilkinson, D. M., Huberman, B. A.: Email as spectroscopy: Automated discovery of community structure within organizations, http://www.hpl.hp.com/research/papers/2003/email.pdf, (12/02/2016).

[6] Farnham, S., Portnoy, W., Turski, A.: Using email mailing lists to approximate and explore corporate social networks. In Proceedings of the CSCW (Vol. 4), 2004

[7] Dom, B., Eiron, I., Cozzi, A., Zhang.: Graph-based ranking algorithms for e-mail expertise analysis. In Pro-ceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery (DMKD '03). ACM, New York, NY, USA, 42-48, 2003.

[8] Christopher S. C., Paul P., Maglio, A. C., Byron D.: Expertise identification using email communications. In Proceedings of the twelfth international conference on Information and knowledge management (CIKM '03). ACM, New York, NY, USA, 528-531, (2003)

[9] Alimam, M., Bertin, E., Crespi, N.: Enterprise Social Systems: The What, the Why, and the How. In 17th Con-ference on Business Informatics (CBI), vol.2, no., pp.9-17, 13-16, (2015)

[10] P. Delias, D. Grigori, M. L. Mouhoub, A. Tsoukias, Discovering Characteristics that Affect Process Control Flow, LNBIP (Lecture Notes in Business Information Processing), Volume 221, 2015, pp 51-63

[11] Daniela Grigori, Fabio Casati, Malù Castellanos, Umeshwar Dayal, Mehmet Sayal, Ming-Chien Shan: Busi-ness Process Intelligence. Computer in Industry 53 (3): 321-343 (2004)

[12] Greco, G., Guzzo, A., Pontieri, L., Sacca, D.: Discovering expressive process models by clustering log traces. IEEE Transactions on Knowledge and Data Engineering 18(8), 1010-1027 (2006)

[13] Weijters, A.J.M.M., van der Aalst, W.M.P., de Medeiros, A.K.A.: Process Mining with HeuristicsMiner Al-gorithm. BETA Working Paper Series, WP 166, Eindhoven University of Technology, Eindhoven (2006)

[14] Jain, A.K., Murty, M.N., Flynn, P.J.: Data clustering: a Review. ACM Computing Surveys 31(3), 264-323 (1999).

department

Equipe pluridisciplinaire travaillant dans le domaine des applications d'entreprises. L'équipe se compose de 15 personnes avec des métiers différents (architectes, développeurs, chefs de projets, UX...). Des projets de Delivery et de Recherche y sont traités. Le porteur du projet de recherche Entreprise 4.0 dans lequel est intégré le projet Orange Process Discovery fait partie de l'équipe.

Verrous à lever

Le verrou principal consiste à qualifier les communications provenant de sources diverses (mail, chat, pont téléphonique, RSE), de nature mixte (textes, numériques, catégorielles), non structurées et en grand volume afin d'en déduire les processus, voir les étapes des processus.

Objectif scientifique de la thèse

En s'appuyant sur l'état de l'art dans les domaines de l'intelligence artificielle et de la gestion des processus métiers dans les entreprises, la thèse vise à proposer une méthode permettant de détecter automatiquement les processus dans l'entreprise, des dérives et des changements éventuels en analysant les données des outils de communication. Ceci nécessite :

·  le filtrage et regroupement des données par processus et par étape de processus : ceci fera appel aux différentes techniques d'apprentissage automatique tel que le clustering, la classification supervisée, et le texte mining.
·  la généralisation de la méthode à de gros volumes de données.

Les résultats de la thèse enrichiront probablement les deux communautés scientifiques relatives respectivement à l'intelligence artificielle et à la gestion des processus métiers.

Approche méthodologique-planning

Année 1 :

·  Bibliographie sur la fouille de processus de données non structurées.
·  Définition d'une typologie de processus recherchés et identification des caractéristiques/métriques associés pouvant être récupérés par l'analyse des différents outils de communications.
·  Evaluation des prérequis à l'analyse, des technologies nécessaires pour arriver à regrouper les communications appartenant à un même processus, séquencer et détecter les actions intégrées dans ce processus. Définir le périmètre d'application de ces techniques. Définir les données externes nécessaires. Valider la méthode avec les instances organisationnelles compétentes.
·  Proposition de méthode pour le filtrage et regroupement des données par processus et par étape de processus.

Année 2 :

·  Développement de la méthode sur des données de même nature.
·  Test auprès d'un échantillon de communications restreint : valider le niveau de confiance du filtrage et du regroupement.
·  Proposer une méthode d'apprentissage automatique permettant de traiter les données mixtes.
·  Valorisation à travers des publications dans des conférences internationales.

Année 3

·  Etendre par pallier l'échantillon d'analyse quand l'apprentissage et les résultats obtenus sont jugés performants.
·  Valorisation à travers une publication dans un journal international.
·  Rédaction.

contract

Thesis

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements