Stage-Extension de Framework de Datascience pour Différents Formats H/F
Stage Caouënnec-Lanvézéac (Côtes-d'Armor) Développement informatique
Description de l'offre
Description
"Vous rêvez de contribuer à un projet open source autour de l'IA, rejoignez-nous !" Bruno managerAvec Khiops [1] l'apprentissage automatique sur des données tabulaires devient un jeu d'enfant. Comme les données proviennent de sources et processus très divers, il est temps pour Khiops d'accueillir et donc de supporter en entrée de nouveaux formats de données. Ce stage consiste à étudier le format Parquet qui permet un accès rapide aux données et à déterminer les évolutions nécessaires de l'interface d'entrée/sortie de Khiops pour permettre son intégration.Le principal verrou est la nature compressée et structurée du format Parquet, tandis que Khiops manipule habituellement des fichiers de type CSV au format texte. Avec Khiops de nombreux traitements sont possible, impliquant des indexations et conversions des données vers des types natifs. Cette différence de format implique qu'il faudra chercher des solutions afin que Khiops puisse accéder aléatoirement et efficacement au contenu mais également bénéficier des métadonnées contenues dans les fichiers Parquet afin de convertir correctement les enregistrements.Dans un premier temps le support de ce format sera prototypé sous forme de module indépendant, afin de valider la faisabilité de l'extraction des informations nécessaires à Khiops. Ce module s'appuiera sur le SDK Apache Arrow [3] et pourra servir de base à l'implémentation finale. Dans une seconde phase, il s'agira de faire évoluer le composant chargé de l'interfaçage avec les différents service de stockage des principaux clouds (Google, Amazon, Azure) afin de permettre toutes les combinaisons [ cloud x format de données ], ceci afin de permettre l'intégration future de nouveaux formats de données.[1] Khiops https://khiops.org[2] Apache Parquet https://parquet.apache.org,[3] Apache Arrow https://github.com/apache/arrow
Date de début
14 mai, 2025
Expérience
Inf_1
Profil
Profil souhaité :. Bac +5, Master informatique ou école d'ingénieur.Compétences :- Connaissances en C/C++- Génie logiciel- Une connaissance du Big Data et des stockages associés serait un plus"Ce stage dans un cadre exceptionnel, est une opportunité de découvrir une magnifique région, à 5km de la mer, pour pratiquer des sports nautiques ou sous-marins. Il faut avoir son permis B obligatoirement ! "Bruno, manager
Répartition du temps de travail
Full time
Fonction
Informatique_dev
Durée (Mois)
6
Formation
RJ/Qualif/Ingenieur_B5
Secteur
Télécom