Suite à la réussite de l’édition 2019, nous nous sommes relancés dans une 3ème édition sur la prédiction de la prochaine Miss France 2020 !
Lors de l’édition 2019, notre modèle de Machine Learning avait bien identifié la veille de l’élection la miss Tahiti en tant que Miss France 2019. Le jour des élections, le modèle avait fait encore mieux … en identifiant la 1ère Dauphine (Miss Guadeloupe) !
Avec une team passionnée par l’atmosphère des élections de miss France, nous avons mis à jour notre modèle de Machine Learning en reprenant notre outil (la plateforme collaborative Data Science Studio de Dataiku) et les bases ci-dessous.
Grâce à l’API Twitter, nous avons aspiré les données sur nos miss en créant des indicateurs simples tels que le nombre de tweets, de retweets & de likes.
Pour rendre le modèle plus fin et connaître l’avis des utilisateurs de Twitter, nous avons :
- Créé un score analysant le sentiment de chaque tweet afin d’identifier les miss qui sont appréciées des internautes.
- Utilisé des techniques de Topic Modeling (package LSA de Python) pour classer les tweets en 20 topics revenant le plus souvent comme par exemple la beauté. Cela nous permet de connaître l’avis des utilisateurs de Twitter sur la miss mais également sur leurs raisons ou intentions de vote.
GOOGLE IMAGES
En réalisant un scraping des images Google des miss, nous avons obtenu une banque d’images avec presque 11 000 photos de miss depuis 2009.
Sur celles-ci, nous avons utilisé le package “Deep Learning Image” de Dataiku pour appliquer le Deep Learning à nos images, voici comment :
- Utilisation d’un modèle pré-entrainé (basé sur les données ImageNet) afin de tirer profil de la puissance de calcul et de recherche d’entreprises comme Google/Facebook.
- Réapprentissage sur plus de 100K images de femmes (jeu de données CelebA) avec le package de Dataiku.
- Prédiction de la couleur de cheveux, des yeux et la taille du nez.
- Incorporation de ces features dans notre modèle de prédiction (l’idée est que les caractéristiques du visage des miss peuvent influer sur leur classement).
WIKIPEDIA
Et bis repetita … nous avons aussi scrappé les données de Wikipedia afin de collecter des données sur les miss depuis 2009, avec des informations sur :
- La miss : la taille, l’âge et le classement des anciennes élections.
- Le Jury : âge moyen, majorité femme/homme dans le jury.
INSEE
L’INSEE met à disposition différents jeux de données que nous avons intégrés à notre outil par région, avec par exemple le niveau de chômage, la démographie, l’enseignement et la richesse.
LE PETIT PLUS
Ce petit plus est très pratique, à savoir l’automatisation du flux avec les scénarios de Dataiku afin d’obtenir les données les plus récentes de Twitter.
Une fois le scénario terminé, les résultats sont envoyés avec les packages httplib2 & json de Python de manière automatique dans notre outil interne Google Chat pour nous communiquer le dernier top 3.
ET MAINTENANT NOS PRÉDICTIONS
Ainsi, en date du 13 décembre 2019, en exclusivité AVISIA, nous projetons les miss suivantes étant sur le podium samedi :
- Miss ayant la plus grande probabilité d’être gagnante à partir des données récoltées : Miss Provence
- Miss ayant la plus grande probabilité d’être dans le TOP 3 à partir de nos données :
- Miss Provence
- Miss Picardie
- Miss Côte d’Azur
Source : © Bertrand Noël / SIPA/ ENDEMOLSHINE/ TF1
Ceci est une première estimation que nous remettrons à jour samedi plusieurs fois dans la soirée pour vous donner les toutes dernières tendances. Etant donné que nous estimons le podium 1 journée avant l’élection, la prédiction que nous faisons aujourd’hui peut différer de celle de demain.
Nous sommes conscients qu’il existe de nombreux facteurs exogènes qui peuvent influencer les résultats. Nous n’avons notamment pas accès au test de culture générale qui est primordial lors de la première sélection des miss. Mais nous sommes confiants dans notre modèle qui a déjà prouvé sa fiabilité l’année dernière ! 🙂
Nous vous invitons à vous rendre demain sur notre compte Twitter pour être au courant des dernières prédictions !
À vos votes !