Développeur Data Senior Hadoop Spark – Expertise Cloudera & Optimisation @ Lyon - Freelance
Freelance Entre 7 et 12 mois Lyon (Rhône)
Description de l'offre
Taux journalier (TJM): 460-480 € selon profil
Nous recherchons en priorité un Développeur Data Senior disposant d’une expérience concrète sur plateforme Hadoop Cloudera pour intervenir sur une plateforme Big Data en production à forts enjeux.
👉 Attention : profil très technique requis – toute compétence clé manquante sera éliminatoire.
🎯 Contexte de la mission
Au sein d’une équipe Big Data, vous interviendrez sur une plateforme Hadoop Cloudera existante, avec des enjeux forts autour de :
l’alimentation du Data Lake
l’optimisation des traitements
la reprise d’existant complexe
le support et l’accompagnement des utilisateurs
Il s’agit d’un environnement technique, exigeant, orienté production.
🛠️ Missions principales
Reprendre et faire évoluer les développements d’alimentation du Data Lake
Développer et optimiser des traitements Spark / Hive existants
Mettre en place des extractions de données performantes
Intervenir sur des sujets de reverse engineering dans un SI complexe
Assurer un support niveau 2
Participer à la structuration technique (revue de code, bonnes pratiques, documentation)
Garantir la performance, la maintenabilité et l’exploitabilité de la plateforme
📍 Conditions de la mission
Localisation : Lyon (proximité Part-Dieu)
Télétravail : 2 jours / semaine (non négociable)
Démarrage : mi-avril
Durée : mission longue (jusqu’à 3 ans)
Mobilité : présence locale requise (ou installation rapide impérative)
Sous-traitance : possible (à préciser)
⚠️ Important
👉 Les compétences suivantes sont strictement requises :
Hadoop Cloudera
Spark / PySpark
Shell Linux
Hive (optimisation)
compréhension YARN
👉 Tout profil ne maîtrisant pas ces éléments ne sera pas retenu.
Profil recherché
🔥 Compétences techniques indispensables (éliminatoires)
🧱 Hadoop / Cloudera (INDISPENSABLE)
Expérience réelle sur cluster Hadoop Cloudera
Maîtrise de :
Hive (optimisation, tables externes vs managées, parquet)
Impala (lecture / exploitation)
Bonne compréhension de l’écosystème Hadoop
⚙️ Spark / PySpark (INDISPENSABLE)
Développement de pipelines Spark (jointures, transformations, paramétrage)
Maîtrise des optimisations :
broadcast
repartition / coalesce
Capacité à lancer et tuner des jobs (spark-submit)
🐧 Shell / Linux (INDISPENSABLE)
Lecture et écriture de scripts Shell avancés
Manipulation HDFS :
création d’arborescences
copie de fichiers vers Hadoop
Compréhension des traitements batch
🧠 YARN / Exploitation Hadoop (INDISPENSABLE)
Compréhension du fonctionnement de YARN
Capacité à :
analyser des logs
diagnostiquer des erreurs de jobs
comprendre les problématiques de ressources
🐍 Python (INDISPENSABLE)
Scripting (automatisation, nettoyage de données)
🧮 SQL (REQUIS)
Niveau intermédiaire minimum :
compréhension de requêtes complexes
utilisation de CTE
lecture et adaptation de code existant
➕ Compétences appréciées
Kafka
Zeppelin
Expérience en environnement legacy / SI complexe
🧩 Profil recherché
+7 ans d’expérience en data / développement data
Expérience concrète en environnement Big Data Hadoop en production
Capacité à intervenir sur des environnements complexes existants
Forte autonomie et capacité d’analyse
Bon relationnel et capacité à vulgariser des sujets techniques
À propos de Collective.work
Collective.work est la plateforme de recrutement nouvelle génération pour trouver votre prochain emploi.
Fort d'une grande expertise dans l'IA, Collective.work permet de mieux cibler les offres et leurs candidats correspondants, créant ainsi un système beaucoup plus fluide que les acteurs traditionnels.
Plus de 10,000 recruteurs utilisent Collective, permettant à des dizaines de milliers de candidats de trouver leur futur emploi chaque jours