Les offres de “Collective.work”

Nouveau Collective.work

Senior DevOps Engineer – AI Platform / Kubernetes / AWS / GPU Infrastructure - CDI

  • CDI
  • Montrouge (Hauts-de-Seine)

Description de l'offre

Dans le cadre d’un programme stratégique d’industrialisation de l’IA Générative à l’échelle Groupe, nous recherchons un Senior DevOps / Platform Engineer capable de concevoir, sécuriser et scaler les infrastructures supportant les plateformes Mistral AI et Prisme AI dans un environnement bancaire critique et fortement réglementé.

Le programme IA Gen vise à construire une plateforme souveraine d’IA générative et agentique capable de supporter des cas d’usage massifs, avec de fortes contraintes :

  • haute disponibilité

  • scalabilité GPU

  • sécurité enterprise

  • observabilité avancée

  • conformité réglementaire

  • optimisation des performances et des coûts

Vous rejoindrez une équipe transverse composée d’AI Engineers, Platform Engineers, Security Engineers, Architects, MLOps et équipes Infrastructure.

Enjeux techniques du programme

  • Déploiement enterprise-scale de plateformes LLM

  • Orchestration de workloads IA intensifs CPU/GPU

  • Industrialisation de pipelines MLOps / LLMOps

  • Scalabilité Kubernetes multi-environnements

  • Observabilité temps réel des systèmes IA

  • Sécurisation des infrastructures GenAI

  • Déploiement hybride AWS + On-Prem

  • Automatisation complète des déploiements IA

  • Optimisation inference serving & consommation GPU

Vos responsabilités

Infrastructure & Platform Engineering

  • Concevoir et maintenir des infrastructures cloud et on-prem hautement disponibles pour les plateformes IA générative

  • Déployer et administrer des clusters Kubernetes dédiés aux workloads IA et LLM

  • Optimiser l’allocation des ressources :

    • CPU

    • GPU

    • mémoire

    • stockage

    • networking

  • Gérer la scalabilité horizontale et verticale des plateformes IA

  • Participer à l’architecture des plateformes de serving LLM et inference APIs

DevOps / CI-CD / Automation

  • Construire et industrialiser des pipelines CI/CD pour :

    • modèles IA

    • APIs IA

    • applications agentiques

    • composants MLOps

  • Automatiser les déploiements et rollback sécurisés

  • Mettre en place des stratégies GitOps et Infrastructure as Code

  • Garantir :

    • reproductibilité

    • traçabilité

    • auditabilité

    • résilience des déploiements

Kubernetes / Container Platform

  • Administrer des environnements Kubernetes complexes et distribués

  • Déployer des architectures containerisées haute performance

  • Optimiser :

    • scheduling

    • autoscaling

    • GPU allocation

    • pod resiliency

    • service mesh

  • Travailler sur :

    • Helm

    • Operators

    • ingress

    • networking policies

    • workload isolation

Observabilité / Monitoring / Reliability

  • Mettre en place des stacks d’observabilité avancées :

    • Prometheus

    • Grafana

    • ELK

    • OpenTelemetry

    • distributed tracing

  • Définir des métriques de performance spécifiques aux workloads IA :

    • latency

    • inference throughput

    • GPU utilization

    • token generation rate

    • uptime

  • Implémenter :

    • alerting

    • incident response

    • anomaly detection

    • capacity planning

Sécurité & Conformité

  • Implémenter les standards sécurité enterprise :

    • IAM

    • RBAC

    • secrets management

    • encryption

    • network segmentation

  • Garantir la conformité :

    • RGPD

    • AI Act

    • auditabilité

    • traçabilité

  • Participer à la sécurisation des plateformes GenAI et des flux de données sensibles

Stack technique cible

Cloud / Infra

  • AWS

  • Hybrid Cloud

  • On-Prem Infrastructure

Container & Orchestration

  • Docker

  • Kubernetes

  • Helm

  • Kustomize

CI/CD & Automation

  • GitLab CI

  • GitHub Actions

  • ArgoCD

  • Terraform

  • Ansible

Monitoring & Observability

  • Prometheus

  • Grafana

  • ELK

  • Loki

  • OpenTelemetry

AI / LLM Platform

  • Mistral AI

  • Prisme AI

  • LLM serving infrastructure

  • GPU workloads

  • Inference APIs

Profil recherché

Profil recherché

  • 5+ années d’expérience en DevOps / Platform Engineering / SRE

  • Très forte expertise Kubernetes en production

  • Expérience solide AWS + environnements hybrides

  • Maîtrise des pipelines CI/CD et Infrastructure as Code

  • Expérience sur des plateformes critiques à forte volumétrie

  • Bonne compréhension des problématiques MLOps / LLMOps

  • Expérience workloads GPU ou IA fortement appréciée

  • Background banque / finance / environnement réglementé apprécié

Très gros plus

  • Expérience plateformes IA Générative

  • Déploiement de modèles LLM self-hosted

  • GPU scheduling / NVIDIA stack

  • Kubernetes GPU operators

  • Serving haute performance

  • Infrastructure IA souveraine

  • SRE / Reliability Engineering

  • Sécurisation plateformes IA enterprise

À propos de Collective.work

Collective.work est la plateforme de recrutement nouvelle génération pour trouver votre prochain emploi.

Fort d'une grande expertise dans l'IA, Collective.work permet de mieux cibler les offres et leurs candidats correspondants, créant ainsi un système beaucoup plus fluide que les acteurs traditionnels.

Plus de 10,000 recruteurs utilisent Collective, permettant à des dizaines de milliers de candidats de trouver leur futur emploi chaque jours

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements