Expert Kubernetes /IA H/F
CDI Fontenay-aux-Roses (Hauts-de-Seine)
Description de l'offre
Nous recherchons pour notre client un(e) Expert Kubernetes /IA (H/F).
Rôle principal : Garantir la disponibilité, performance et stabilité du cluster IA (GPU/CPU/réseau/stockage), automatiser son exploitation et assurer le support.
Vos missions :
- Maintien en condition opérationnelle (MCO) du cluster IA, incluant la gestion des nœuds GPU/CPU, du stockage et du réseau.
- Administration des systèmes Linux : installation, configuration et optimisation.
- Exploitation et gestion des environnements Kubernetes : déploiement, montée en charge (scaling) et haute disponibilité (HA).
- Supervision et monitoring des infrastructures à l’aide d’outils tels que Prometheus et Grafana.
- Gestion des incidents techniques, analyse post-mortem et mise en place de plans d’action correctifs.
- Automatisation des tâches opérationnelles via Ansible et scripts Bash/Python.
- Gestion des jobs : ordonnancement des tâches GPU, gestion des quotas et priorités.
- Pilotage des mises à jour des systèmes d’exploitation, des pilotes NVIDIA et des composants Kubernetes.
- Gestion des incidents liés à l’infrastructure et coordination des interventions.
- Rédaction et mise à jour de la documentation d’exploitation pour assurer la traçabilité et la continuité des opérations.
Profil recherché
Vous êtes certifié Kubernetes, justifiez d’une expérience professionnelle minimum de 8 ans dans un poste similaire, et maîtrisez les environnements suivants :
- Infrastructure : Linux Ubuntu, Kubernetes, Docker, GPU NVIDIA (drivers, CUDA, MIG), Ansible, gestion des environnements distribués.
- Observabilité : Prometheus, Grafana
- Stockage : systèmes de fichiers distribués, stockage haute performance et stockage objet
- Réseau : comprendre l’architecture réseau d’un cluster (VLAN, Load balancing...)
- Méthodes : ITIL/ITSM, gestion des incidents et des changements, documentation d’exploitation.
À propos de INFIDIS
La BU ASSISTANCE TECHNIQUE de SPIE ICS est une ESN spécialisée dans les technologies d'infrastructure DATACENTER, Cybersécurité, End User Computing, Smart Data.
La BU Assistance Technique accompagne et conseille ses clients sur la délégation de consultants à travers nos offres de :
- Assistance Technique (Temps plein / Temps partagé)
- Projet au forfait
- Expertise à la demande
- Centre de services