Stage Data Scientist
- Mesures de performance web et amélioration de la navigation sur Internet
Technologies: R, PostgreSQL, Secure Shell
Mon approche était dirigée vers les bases de données, dans laquelle j’exploitais des ensembles de données déjà disponibles chez IP-Label, entreprise qui propose des solutions pour mesurer la Qualité de Service et collecte périodiquement des mesures de performances Web (ou métriques: Page Load Time, DNS Time, etc.) pour des sites Web populaires.
- Nettoyer les donnés (qui sont brutes) après acquisition chez IP Label et une fois ces données prétraitées, les transférer sur un serveur à distance avec le protocole SSH.
- Traduire les mauvaises performances web par les valeurs aberrantes (outliers) des métriques suivantes: le Page Load Time (PLT) et le Time To Interact (TTI).
- Pour détecter les outliers, élaborer une démarche qui combine la méthode en statistique de la fenêtre glissante (the sliding window) et la méthode de Tuckey univariée.
- Classifier les mesures avec les arbres de décision en machine learning. Si une mesure est classifiée comme étant un outlier alors il s'agit d'une mauvaise performance, sinon c'est une bonne performance web.
- Pour expliquer une mauvaise performance et avec 7 variables de prédiction telles que le navigateur web, le fournisseur d'internet, la localisation..., créer et entraîner 35 modèles de prédiction sur la base de la validation croisée (Cross Validation) pour choisir le meilleur modèle en termes de précision.
- Avec ces 7 variables, construire une courbe ROC pour évaluer les performances du modèle. La valeur de l'AUC (Area Under the Curve) était de 74,51% malgré le nombre réduit de variables à la fois entrant en compte dans une navigation internet et disponibles dans la base de données.