Développeur Data Senior Hadoop Spark – Expertise Cloudera & Optimisation @ Lyon - Freelance - Collective.work - Lyon

Description de l'offre

Taux journalier (TJM): 460-480 € selon profil

Nous recherchons en priorité un Développeur Data Senior disposant d’une expérience concrète sur plateforme Hadoop Cloudera pour intervenir sur une plateforme Big Data en production à forts enjeux.

👉 Attention : profil très technique requis – toute compétence clé manquante sera éliminatoire.

🎯 Contexte de la mission

Au sein d’une équipe Big Data, vous interviendrez sur une plateforme Hadoop Cloudera existante, avec des enjeux forts autour de :

l’alimentation du Data Lake
l’optimisation des traitements
la reprise d’existant complexe
le support et l’accompagnement des utilisateurs

Il s’agit d’un environnement technique, exigeant, orienté production.

🛠️ Missions principales

Reprendre et faire évoluer les développements d’alimentation du Data Lake
Développer et optimiser des traitements Spark / Hive existants
Mettre en place des extractions de données performantes
Intervenir sur des sujets de reverse engineering dans un SI complexe
Assurer un support niveau 2
Participer à la structuration technique (revue de code, bonnes pratiques, documentation)
Garantir la performance, la maintenabilité et l’exploitabilité de la plateforme

📍 Conditions de la mission

Localisation : Lyon (proximité Part-Dieu)
Télétravail : 2 jours / semaine (non négociable)
Démarrage : mi-avril
Durée : mission longue (jusqu’à 3 ans)
Mobilité : présence locale requise (ou installation rapide impérative)
Sous-traitance : possible (à préciser)

⚠️ Important

👉 Les compétences suivantes sont strictement requises :

Hadoop Cloudera
Spark / PySpark
Shell Linux
Hive (optimisation)
compréhension YARN

👉 Tout profil ne maîtrisant pas ces éléments ne sera pas retenu.

Profil recherché

🔥 Compétences techniques indispensables (éliminatoires)

🧱 Hadoop / Cloudera (INDISPENSABLE)

Expérience réelle sur cluster Hadoop Cloudera
Maîtrise de :
- Hive (optimisation, tables externes vs managées, parquet)
- Impala (lecture / exploitation)
Bonne compréhension de l’écosystème Hadoop

⚙️ Spark / PySpark (INDISPENSABLE)

Développement de pipelines Spark (jointures, transformations, paramétrage)
Maîtrise des optimisations :
- broadcast
- repartition / coalesce
Capacité à lancer et tuner des jobs (spark-submit)

🐧 Shell / Linux (INDISPENSABLE)

Lecture et écriture de scripts Shell avancés
Manipulation HDFS :
- création d’arborescences
- copie de fichiers vers Hadoop
Compréhension des traitements batch

🧠 YARN / Exploitation Hadoop (INDISPENSABLE)

Compréhension du fonctionnement de YARN
Capacité à :
- analyser des logs
- diagnostiquer des erreurs de jobs
- comprendre les problématiques de ressources

🐍 Python (INDISPENSABLE)

Scripting (automatisation, nettoyage de données)

🧮 SQL (REQUIS)

Niveau intermédiaire minimum :
- compréhension de requêtes complexes
- utilisation de CTE
- lecture et adaptation de code existant

➕ Compétences appréciées

Kafka
Zeppelin
Expérience en environnement legacy / SI complexe

🧩 Profil recherché

+7 ans d’expérience en data / développement data
Expérience concrète en environnement Big Data Hadoop en production
Capacité à intervenir sur des environnements complexes existants
Forte autonomie et capacité d’analyse
Bon relationnel et capacité à vulgariser des sujets techniques

À propos de Collective.work

Collective.work est la plateforme de recrutement nouvelle génération pour trouver votre prochain emploi.

Fort d'une grande expertise dans l'IA, Collective.work permet de mieux cibler les offres et leurs candidats correspondants, créant ainsi un système beaucoup plus fluide que les acteurs traditionnels.

Plus de 10,000 recruteurs utilisent Collective, permettant à des dizaines de milliers de candidats de trouver leur futur emploi chaque jours

Les offres de “Collective.work”