Description de l'offre

Dans le cadre d’un programme stratégique d’industrialisation de l’IA Générative à l’échelle Groupe, nous recherchons un Senior DevOps / Platform Engineer capable de concevoir, sécuriser et scaler les infrastructures supportant les plateformes Mistral AI et Prisme AI dans un environnement bancaire critique et fortement réglementé.

Le programme IA Gen vise à construire une plateforme souveraine d’IA générative et agentique capable de supporter des cas d’usage massifs, avec de fortes contraintes :

haute disponibilité
scalabilité GPU
sécurité enterprise
observabilité avancée
conformité réglementaire
optimisation des performances et des coûts

Vous rejoindrez une équipe transverse composée d’AI Engineers, Platform Engineers, Security Engineers, Architects, MLOps et équipes Infrastructure.

Enjeux techniques du programme

Déploiement enterprise-scale de plateformes LLM
Orchestration de workloads IA intensifs CPU/GPU
Industrialisation de pipelines MLOps / LLMOps
Scalabilité Kubernetes multi-environnements
Observabilité temps réel des systèmes IA
Sécurisation des infrastructures GenAI
Déploiement hybride AWS + On-Prem
Automatisation complète des déploiements IA
Optimisation inference serving & consommation GPU

Vos responsabilités

Infrastructure & Platform Engineering

Concevoir et maintenir des infrastructures cloud et on-prem hautement disponibles pour les plateformes IA générative
Déployer et administrer des clusters Kubernetes dédiés aux workloads IA et LLM
Optimiser l’allocation des ressources :
- CPU
- GPU
- mémoire
- stockage
- networking
Gérer la scalabilité horizontale et verticale des plateformes IA
Participer à l’architecture des plateformes de serving LLM et inference APIs

DevOps / CI-CD / Automation

Construire et industrialiser des pipelines CI/CD pour :
- modèles IA
- APIs IA
- applications agentiques
- composants MLOps
Automatiser les déploiements et rollback sécurisés
Mettre en place des stratégies GitOps et Infrastructure as Code
Garantir :
- reproductibilité
- traçabilité
- auditabilité
- résilience des déploiements

Kubernetes / Container Platform

Administrer des environnements Kubernetes complexes et distribués
Déployer des architectures containerisées haute performance
Optimiser :
- scheduling
- autoscaling
- GPU allocation
- pod resiliency
- service mesh
Travailler sur :
- Helm
- Operators
- ingress
- networking policies
- workload isolation

Observabilité / Monitoring / Reliability

Mettre en place des stacks d’observabilité avancées :
- Prometheus
- Grafana
- ELK
- OpenTelemetry
- distributed tracing
Définir des métriques de performance spécifiques aux workloads IA :
- latency
- inference throughput
- GPU utilization
- token generation rate
- uptime
Implémenter :
- alerting
- incident response
- anomaly detection
- capacity planning

Sécurité & Conformité

Implémenter les standards sécurité enterprise :
- IAM
- RBAC
- secrets management
- encryption
- network segmentation
Garantir la conformité :
- RGPD
- AI Act
- auditabilité
- traçabilité
Participer à la sécurisation des plateformes GenAI et des flux de données sensibles

Stack technique cible

Cloud / Infra

AWS
Hybrid Cloud
On-Prem Infrastructure

Container & Orchestration

Docker
Kubernetes
Helm
Kustomize

CI/CD & Automation

GitLab CI
GitHub Actions
ArgoCD
Terraform
Ansible

Monitoring & Observability

Prometheus
Grafana
ELK
Loki
OpenTelemetry

AI / LLM Platform

Mistral AI
Prisme AI
LLM serving infrastructure
GPU workloads
Inference APIs

Profil recherché

5+ années d’expérience en DevOps / Platform Engineering / SRE
Très forte expertise Kubernetes en production
Expérience solide AWS + environnements hybrides
Maîtrise des pipelines CI/CD et Infrastructure as Code
Expérience sur des plateformes critiques à forte volumétrie
Bonne compréhension des problématiques MLOps / LLMOps
Expérience workloads GPU ou IA fortement appréciée
Background banque / finance / environnement réglementé apprécié

Très gros plus

Expérience plateformes IA Générative
Déploiement de modèles LLM self-hosted
GPU scheduling / NVIDIA stack
Kubernetes GPU operators
Serving haute performance
Infrastructure IA souveraine
SRE / Reliability Engineering
Sécurisation plateformes IA enterprise

À propos de Collective.work

Collective.work est la plateforme de recrutement nouvelle génération pour trouver votre prochain emploi.

Fort d'une grande expertise dans l'IA, Collective.work permet de mieux cibler les offres et leurs candidats correspondants, créant ainsi un système beaucoup plus fluide que les acteurs traditionnels.

Plus de 10,000 recruteurs utilisent Collective, permettant à des dizaines de milliers de candidats de trouver leur futur emploi chaque jours

Les offres de “Collective.work”

Senior DevOps Engineer – AI Platform / Kubernetes / AWS / GPU Infrastructure - CDI

Description de l'offre

Enjeux techniques du programme

Vos responsabilités

Infrastructure & Platform Engineering

DevOps / CI-CD / Automation

Kubernetes / Container Platform

Observabilité / Monitoring / Reliability

Sécurité & Conformité

Stack technique cible

Cloud / Infra

Container & Orchestration

CI/CD & Automation

Monitoring & Observability

AI / LLM Platform

Profil recherché

Profil recherché

Très gros plus

À propos de Collective.work