Le Père Noël ne mettant pas à disposition sa data à travers une API dédiée, nous avons dû renoncer à l’idée de prévoir les cadeaux que nous allions recevoir à Noël. Nous nous sommes alors intéressés à un autre sujet tout aussi important, à savoir prévoir : Qui sera notre prochaine Miss France 2018 ?
L’idée lancée, nous avons formé une équipe de volontaires motivés, compétents et bizarrement majoritairement masculins avec comme objectif d’obtenir un modèle performant et donc des prévisions fiables avant le soir de l’élection le samedi 16 décembre 2017.
Pour y parvenir nous avons récolté et regroupé toutes sortes de données :
- Sur les Miss : âge, taille, région, métier, classement au concours miss France (Source : Wikipédia)
- Sur le Jury : Nombre de jurés, répartition des hommes/femmes, âge moyen des jurés hommes et femmes (Source : Wikipédia)
- Sur les régions des miss et la région où se déroule l’élection : données socio démographique, nombres d’habitants, répartition par âge, par niveau d’étude, par csp… (Source : données publiques INSEE)
- Sur les réseaux sociaux associés aux hashtags Miss : nombre de tweets, de retweets, de like, de follower … avec une analyse de sentiments sur les tweets pour les classer en positif/négatif (Source : données API twitter)
- Données d’images génériques servant de référentiel pour la couleurs des yeux, couleurs des cheveux, … (Source : Google Image + algorithme de Deep Learning pour le traitement d’images)
Nous avons ainsi créé notre base d’analyse avec des données allant de 2009 à 2017 et nous avons pu lancer nos modèles. Le projet a été réalisé avec la plateforme de Data Science Dataiku, qui permet de réaliser de manière simple et collaborative des projets de DataScience. L’outil permet d’intégrer facilement des scripts R et Python, de faire du Datamanagement et de la Modélisation avec les nœuds dédiés.
Le projet a été mené en mode agile avec des résultats chaque semaine enrichis au fur et à mesure de l’intégration de nouvelles sources de données. Sur la partie purement algorithmique, nous avons pu tester pas mal de type d’algorithmes différents.
Au fur et à mesure des itérations et intégration de nouvelles données, notre modèle a évolué dans ses prévisions :
- Itération 1 : Miss Provence (Prévisions basées uniquement sur les données concernant les Miss)
- Itération 2 : Miss Limousin (Prévisions basées sur les données de l’itération 1 + intégration de la composition du jury)
- Itération 3 : Miss Midi-Pyrénées (Prévisions basées sur les données de l’itération 2 + intégration des informations sur les régions)
- Itération 4 : Miss Côte d’Azur (Prévisions basées sur les données de l’itération 3 + intégration des réseaux sociaux)
Ainsi en date du 15 décembre 2017 nous annonçons les miss suivantes comme étant sur le podium samedi :
- Miss ayant la plus grande probabilité d’être gagnante à partir des données récoltées : Miss Côté d’Azur
- Miss ayant la plus grande probabilité d’être dans le TOP 3 à partir de nos données :
- Miss Côte d’Azur
- Miss Provence
- Miss Île de France
A noter que les données Twitter explosant le jour de l’élection, nous vous proposons donc une 1ere estimation, que nous remettrons à jour avec les dernières réactions à chaud au cours de l’émission.
Nous sommes conscients qu’il existe pas mal de facteurs exogènes qui peuvent influencer les résultats de l’élection … mais nous sommes joueurs et confiant en notre modèle ! Et quoi qu’il en soit de nos prévisions nous sommes contents d’avoir pu monter rapidement un projet complet, innovant et amusant.
Verdict samedi soir !