Data Engineer - Migration Data Lake - Freelance
Freelance Paris (Paris)
Description de l'offre
Contexte
Le Cluster lance l'étude d'un potentiel nouveau Data Lake afin de remplacer l’infrastructure legacy par une plateforme moderne, scalable et pleinement gouvernée. Le nouveau lake s’appuiera sur une architecture Medallion et intégrera les technologies suivantes : TrinoDB, Apache Iceberg, Parquet, dbt, Argo Workflows, Apache Superset, Metabase et OpenMetadata.
Missions
Analyse de l’existant & migration
Cartographier les sources, pipelines et jeux de données actuels (legacy, SQL, fichiers plats...).
Définition de la stratégie de migration vers le nouveau lake (bronze -> silver -> gold).
Conception des plans de bascule tout en minimisant les interruptions de service.
Architecture & ingestion
Conception des couches Bronze / Silver / Gold du nouveau Data Lake avec TrinoDB, Apache Iceberg et Parquet.
Création de pipelines d’ingestion (batch & near-real-time) depuis les systèmes de crédit.
Modélisation & transformation
Développement des modèles de transformation dans dbt : scripts SQL, tests automatisés, documentation et versionning.
Harmonisation des schémas (normes de nommage, typage, PK/UK) avec les exigences du domaine crédit.
Orchestration
Implémentation des workflows de migration et de rafraîchissement des données avec Argo Workflows (planification, gestion des dépendances, monitoring).
Self-service & visualisation
Déploiement des espaces de travail Apache Superset et Metabase pour que les analystes métier puissent créer leurs propres dashboards à partir du nouveau lake.
Rédaction des guides d’utilisation et accompagnement de la montée en compétence des équipes.
Gouvernance, catalogue & lineage
Intégration OpenMetadata pour le catalogage automatique, le suivi du lineage et la gestion des métadonnées (description, propriétaire, sensibilité).
Mise en place des processus de data ownership, de versionning et de validation.
Qualité & validation
Implémentation, dans les modèles dbt, des tests de qualité (not-null, unicité, règles métiers spécifiques au crédit).
Mise en place des indicateurs de suivi (freshness, complétude, anomalies) et des alertes automatiques.
Sécurité & conformité
Application des standards de sécurité du groupe (RBAC, data-masking).
Contribution aux audits internes et aux revues de conformité réglementaire.
Collaboration inter-équipes
Travail en étroite coordination avec les équipes métiers.
Participation aux cérémonies projets et aux ateliers de design.
Compétences techniques
TrinoDB (SQL fédéré) — Intermédiaire
Apache Iceberg & Parquet — Intermédiaire
Dbt (modélisation, tests, documentation) — Intermédiaire
Argo Workflows (orchestration) — Intermédiaire à avancé
Apache Superset / Metabase (BI) — Intermédiaire
OpenMetadata (catalogue, lineage) — Intermédiaire
Architecture Medallion (Bronze-Silver-Gold) — Expérience démontrée
Migration / refonte d’un Data Lake existant — Expérience significative
Gestion de versions (Git), CI/CD (GitHub Actions, GitLab, Jenkins) — Intermédiaire
Scripting (Python, Bash) — Intermédiaire
Profil recherché
- Compétences intermédiaires en TrinoDB (SQL fédéré)
- Compétences intermédiaires en Apache Iceberg et Parquet
- Compétences intermédiaires en Dbt (modélisation, tests, documentation)
- Compétences intermédiaires à avancées en Argo Workflows (orchestration)
- Compétences intermédiaires en Apache Superset et Metabase (BI)
- Compétences intermédiaires en OpenMetadata (catalogue, lineage)
- Expérience démontrée en architecture Medallion (Bronze-Silver-Gold)
- Expérience significative en migration/refonte d’un Data Lake existant
- Compétences intermédiaires en gestion de versions (Git) et CI/CD (GitHub Actions, GitLab, Jenkins)
- Compétences intermédiaires en scripting (Python, Bash)
À propos de Collective.work
Collective.work est la plateforme de recrutement nouvelle génération pour trouver votre prochain emploi.
Fort d'une grande expertise dans l'IA, Collective.work permet de mieux cibler les offres et leurs candidats correspondants, créant ainsi un système beaucoup plus fluide que les acteurs traditionnels.
Plus de 10,000 recruteurs utilisent Collective, permettant à des dizaines de milliers de candidats de trouver leur futur emploi chaque jours