Data Engineer – Plateforme GenAI - Freelance
Freelance Paris (Paris)
Description de l'offre
Contexte
Grand groupe pharmaceutique international qui fait évoluer sa plateforme GenAI interne pour automatiser et fiabiliser la production documentaire à grande échelle. Dans un environnement fortement réglementé, l'enjeu est de construire des fondations data robustes et scalables pour alimenter les workflows d'intelligence artificielle en production.
Missions
Parsing & ingestion : développer et maintenir des parsers multi-formats (DOCX avec styles, tables et track changes ; Excel avec cellules fusionnées, multi-feuilles et formules)
Modèle de données intermédiaire : définir un format normalisé post-parsing, compatible avec les workflows Data Science en aval
Traçabilité & qualité des données : implémenter la traçabilité source à travers les pipelines d'ingestion ; assurer les contrôles de complétude (doublons, métadonnées manquantes, cohérence)
CI/CD & déploiement : concevoir et déployer des pipelines CI/CD via Terraform ; mettre en place des smoke tests et workflows de validation post-ingestion
Stack & compétences attendues
Python avancé, notamment sur le parsing documentaire (DOCX, Excel)
Data pipelines, CI/CD et infrastructure cloud (AWS, Terraform)
Qualité des données, robustesse et scalabilité
Interface régulière avec des équipes Data Science
Modalités
Démarrage : dès que possible
Localisation : Paris – 3j/semaine sur site
TJM : selon profil
Durée : mission longue durée
Profil recherché
5 ans d'expérience minimum en tant que Data Engineer
Parsing documentaire avancé — maîtrise de python-docx, openpyxl ou équivalents, avec gestion des cas complexes (styles, track changes, cellules fusionnées, formules)
Data pipelines & qualité — expérience en ingestion, transformation, traçabilité et contrôles de complétude en environnement de production
Infrastructure cloud AWS + Terraform — capacité à concevoir et déployer une infra from scratch, pas juste l'utiliser
CI/CD appliqué à la data — smoke tests, validation post-ingestion, automatisation des déploiements pipelines
À propos de Collective.work
Collective.work est la plateforme de recrutement nouvelle génération pour trouver votre prochain emploi.
Fort d'une grande expertise dans l'IA, Collective.work permet de mieux cibler les offres et leurs candidats correspondants, créant ainsi un système beaucoup plus fluide que les acteurs traditionnels.
Plus de 10,000 recruteurs utilisent Collective, permettant à des dizaines de milliers de candidats de trouver leur futur emploi chaque jours