Prédiction du taux de dé-duplication pour du stockage massif de données
Stage Paris (Paris) Développement informatique
Description de l'offre
Détail de l'offre
Informations générales
Entité de rattachement
Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
. la défense et la sécurité
. l'énergie nucléaire (fission et fusion)
. la recherche technologique pour l'industrie
. la recherche fondamentale (sciences de la matière et sciences de la vie).
Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.
Référence
2018-7721-1177Description du poste
Domaine
Mathématiques, information scientifique, logiciel
Contrat
Stage
Intitulé de l'offre
Prédiction du taux de dé-duplication pour du stockage massif de données
Sujet de stage
Prédiction du taux de dé-duplication pour du stockage massif de données
Durée du contrat (en mois)
6 mois
Description de l'offre
R&D du laboratoire en matière de stockage massif de données en environ-nement HPC. Les supercalculateurs du CEA produisent d'immenses quantités de données (dizaines de pétaoctets) à des débits extrêmes (centaines de gigaoctets par seconde). Pour stocker ces données de manière robuste et performante, le CEA développe un logiciel de stockage de données parallèle et distribué. Face à l'explosion de la quantité de données à stocker, la dé-duplication peut s'avérer une stratégie efficace pour gagner en capacité mais également en performance. Les objectifs du stage sont de : - développer un outil permettant de prédire le taux de dé-duplication d'un très large ensemble de données pouvant excéder plus de 10 millions de fichiers pour plusieurs pétaoctets, Cet outil devra être optimisé en temps d'exécution et en ressources néces-saires. Pour cela, on pourra s'inspirer d'une part des dernières avancées et algorithmes statistiques récemment proposés dans ce domaine [1][2] et d'autre part du parallélisme largement utilisé au sein des environnements HPCs. - tester et valider cet outil sur des jeux de données représentatifs des centres de calculs du CEA un design de mécanisme adapté aux besoins du CEA, - contribuer au développement de mécanismes de dé-duplication au sein des logiciels parallèles et distribués de stockage massif de données déve-loppés au CEA.
Profil recherché
Profil du candidat
MASTER/INGENIEUR
C C++ Pyhton Linux SQL
BAC + 5