Alternant - Administrateur Big data - H/F
Alternance France Administration
Description de l'offre
A propos de Schneider Electric
Schneider Electric est le spécialiste mondial de la gestion de l'énergie et des automatismes et a réalisé près de 27 milliards d'euros de chiffre d'affaires en 2015. Nos plus de 160 000 collaborateurs répondent aux besoins de clients dans plus de 100 pays en les aidant à gérer leur énergie et leurs processus de manière sûre, fiable, efficace et durable. Des interrupteurs les plus simples aux systèmes d'exploitation les plus complexes, nos technologies, logiciels et services permettent à nos clients d'optimiser la gestion et l'automatisation de leurs activités. Nos technologies connectées contribuent à repenser les industries, à transformer les villes et à enrichir les vies de leurs habitants.
Chez Schneider Electric, nous appelons cela : Life Is On ( La vie s'illumine ).
www.schneider-electric.fr
Contexte :
AAP soutient les Business de Schneider Electric dans le développement de nouveaux services à valeur ajoutée à travers des composants et modèles analytiques complexes, combinant les flux des flux de données IT et OT.
La qualité des modèles dépend de la qualité et de la richesse des données.
AAP a récemment ouvert un projet, pour créer une « bibliothèque de données analytiques » en mettant en œuvre, personnalisant, documentant, un environnement sur notre plate-forme cloud pour:
• Accroître la créativité et l'efficacité d'AAP.
• Permettre le calcul de métriques sur la quantité et la qualité des données disponibles
• Préparer la publication de certains jeux de données en OPEN DATA.
Mission:
Le candidat prend le poste en début du projet.
L'objectif sera de traiter nos sources de données, de A à Z, et de documenter les meilleures pratiques pour l'organisation de la bibliothèque.
Le candidat interagira quotidiennement avec des scientifiques, des étudiants en doctorat et nos fournisseurs de données dans l'entreprise, ceux-ci dans le monde entier.
• Collecter
Connectez les sources de données à la plate-forme.
Différents types de données sont disponibles, y compris Oracle, MySQL, SQL Server, mais aussi : XLS, CSV, XML, JSON, fichiers binaires, COMDATA, ...
Impliquant à la fois des séries temporelles et des métadonnées.
• Analyser
Analyser la structure des données.
Identifiez les objets et les clés.
Identifiez les ensembles de données qui pourraient être créés à partir des sources
Calculez les métriques quantitatives et qualitatives.
Documenter la structure des données afin qu'elle soit facilement accessible aux scientifiques.
• Prétraitement
Créer des jeux de données à partir des sources de données, par nettoyage, jointure, anonymisation
• Partager
Présenter la bibliothèque et collecter les commentaires / suggestion
Prendre en compte l'amélioration des processus et de la documentation.
• Documenter
Documenter les bonnes pratiques pour la collecte, l'analyse, le prétraitement afin que nous puissions "industrialiser" le processus et déployer plus largement.
Compétences
• Etre familier avec la manipulation de Big data
• Base de données relationnelles et langage SQL
• Programmation pour le prétraitement des données de (Python ou R)
• API REST
• Microsoft AZURE
• Excellentes compétences rédactionnelles
• Bonne compréhension des techniques d'analyse et de machine learning
Apprenticeship offered at "Analytics Application Programs" department (AAP) of Schneider Electric,
Within the Global Technology / Digital Service Factory division.
Language : Working language is English, French is a plus.
Context :
AAP is supporting Schneider Electric businesses in developing new added value services thru complex analytic components or models, combining OT & IT Time series streams & events.
Good quality models require huge quantity of good quality data + data scientist's expertise
AAP has recently opened a project, to build an "Analytics Data Library" by implementing, customizing, documenting, an environment on our cloud platform to:
· Boost AAP creativity & efficiency.
· Allow KPI's & value of the Data Assets calculation
· Enable selection & publishing of datasets as OPEN data.
Assignment :
The candidate will take the position at early stages of the project.
The objective will be to process our data sources, from A to Z, and document the best practices for organizing the library of Data.
The candidate will interact with our Data scientits, PhD students, and with businesses data providers, worldwide and on daily basis.
· Source
Connect the Data Source to the platform.
Various types of data sources are in focus, including Oracle, MySQL, SQL server data bases
but also : XLS, CSV, XML, JSON, Binary files, COMDATA, …
involving both Time series & Meta data.
· Analyze
Analyze the data structure.
Identify the objects and keys.
Identify the Data sets that could be created form the data source
Calculate metrics on the quantity & quality of observations.
Document the data structure so that it's easily accessible to the Data scientist.
· Preprocess
Create Data Sets from the Data sources, by cleaning, joining, anonymizing
· Share
Present to data scientists the outcomes, & get their feedback
Take into account for process & documentation improvement.
· Document
Document best practices for sourcing, Analyzing, Preprocessing so that we can "industrialize" the process further, and deploy wider.
Profil recherché
Qualifications :
· Big data manipulation
· Relational Data Base & SQL
· Good programming skills for preprocessing data (Python or R)
· REST API's
· Microsoft AZURE
· Excellent writing skills
· Good undertanding of Analytics & Machine learning technique