Stage - Data Engineer H/F
Stage Palaiseau (Essonne)
Description de l'offre
Description
Au sein du Data & IA Hub SOCOTEC, vous rejoignez une équipe pluridisciplinaire chargée de concevoir, déployer et maintenir l'architecture Data du groupe à l'échelle internationale. Vous contribuerez à la modernisation du Lakehouse SOCOTEC, coeur de la plateforme analytique mondiale, et participerez à des projets concrets de valorisation des données, de la conception à la data visualisation. Vous travaillerez sur troismissions principales : - Développer des pipelines de données de bout en bout (ingestion, transformation, modélisation, exposition) et contribuer à la mise en place de visualisations dans Power BI ou Databricks SQL. - Améliorer en continu le Lakehouse SOCOTEC, notamment sur les volets gouvernance, qualité, et pseudonymisation des données. - Expérimenter des solutions d'IA générative appliquées à la data, comme GenIE de Databricks, pour transformer des requêtes textuelles en insights exploitables. Le stack technique utilisée : - Amazon Web Services (AWS) - Databricks - Fivetran - Spark pour les pipelines ETL - Gitlab pour versionner les sources - S3 - Power BI, l'outil de BI, géré avec les équipes BI Chez SOCOTEC, les carrières sont construites avec vous vers ce qui vous correspond le mieux : expertise technique, management d'une équipe (lead data), etc. Vous aurez la possibilité d'interagir à l'international (US, UK, ITA, ESP, NL) et des opportunités de mobilité internationale sont possibles. Vous ferez preuve d'autonomie, de sagacité et de qualités certaines dans la rédaction et la communication de son code. L'offre peut déboucher sur un CDI à la fin du stage.
Date de début
02 nov., 2025
Expérience
Inf_1
Profil
- Master en Big Data, Informatique, ou Ingénierie logicielle avec une forte spécialisation ou appétence pour la data et les architectures distribuées. - Solide maîtrise des bases de données SQL et NoSQL (modélisation, requêtes optimisées, intégrité et performance). - Bonne compréhension des architectures Big Data et des outils de traitement distribués (Spark, Hadoop, Airflow, Kafka, Delta Lake). - Expérience avec les environnements de développement collaboratif : Git, GitLab, Jupyter Notebooks, VS Code. - Connaissances appréciées des services cloud AWS (S3, Lambda, EMR, Glue, Redshift). - Familiarité avec les principes d'ETL/ELT, de Data Lakehouse et de DataOps (CI/CD, monitoring, qualité de données). - Intérêt pour les technologies émergentes, notamment l'IA Générative et son intégration dans les plateformes Data. - Esprit d'équipe, rigueur et sens de la collaboration dans un environnement agile. - Curiosité technique et capacité à apprendre rapidement de nouveaux outils et paradigmes. - Autonomie, sens du service et goût pour la résolution de problèmes complexes. - Anglais courant et technique, à l'écrit comme à l'oral.
Répartition du temps de travail
Full time
Fonction
Informatique_syst_info
Formation
RJ/Qualif/Ingenieur_B5
Secteur
Qualité, sécurité, santé, environnement