Cela faisait 24 ans que l’Île-de-France n’avait pas remporté la si convoitée couronne de Miss France. Depuis le début du concours de beauté, 15 Miss de la région francilienne avaient obtenu le titre, faisant ainsi de Diane Leyre la 16ème Miss de cette région à être sacrée Miss France, le 11 décembre, succédant à la normande Amandine Petit.
RETOUR SUR CETTE ÉLECTION RICHE EN ÉMOTIONS
Pour bien comprendre ce qui va suivre, nous vous invitons, si ce n’est déjà fait, à lire notre précédent article : Qui sera la prochaine Miss France 2022.
Pour les personnes n’ayant pas pu suivre sur Twitter l’évolution de nos prédictions le soir de l’élection, vous pouvez en retrouver le détail dans le tableau récapitulatif ci-dessous:
Miss France | 1ère dauphine | 2ème Dauphine | 3ème Dauphine | 4ème Dauphine | |
J – 1 avant l’élection | Miss Martinique | Miss Picardie | Miss Provence | Miss Rhône-Alpes | Miss Alsace |
Après les portraits à 22h20 | Miss Martinique | Miss Alsace | Miss Provence | Miss Nord-Pas-de-Calais | Miss Bourgogne |
Après l’annonce du top 15 à 23h45 | Miss Martinique | Miss Alsace | Miss Île-de-France | Miss Côte d’Azur | Miss Nord-Pas-de-Calais |
Nous avions créé un scénario sur Data Science Studio de Dataiku qui permettait de récupérer les tout derniers tweets et d’analyser l’opinion des téléspectateurs adeptes de Twitter. Ensuite, la prédiction était mise à jour à partir de ces dernières informations.
D’après ce tableau, notre modèle a prédit, à chaque mise à jour, que la grande gagnante serait Miss Martinique. Notre modèle s’avère donc performant puisque, avant même la cérémonie, nous avions réussi à identifier la 1ère Dauphine de Miss France (et la favorite du public).
Parmi les Miss que nous avions prédit dans le top 5 à la suite des portraits, seules 3 d’entre elles se trouvaient dans le top 15 (composé des Miss présélectionnées par le jury), Miss Provence et Miss Bourgogne n’ayant pas été sélectionnées. Malheureusement, ces dernières n’ont pas été retenues par le jury ; en raison de nombreux critères comme les résultats du quizz de culture générale, l’éloquence, la démarche, le savoir-vivre ou encore l’intégration sociale. Ces données n’étant pas accessibles en amont de la compétition, il nous est difficile de prédire avec précision la future Miss avant l’annonce des 15 demi-finalistes. Seule l’information sur les 3 Miss ayant le mieux répondu au quizz, nous est donnée.
Une fois l’annonce du top 15, le modèle s’est montré stable et performant en identifiant Miss Martinique et Miss Alsace dans le top 5 (déjà présentes dans nos précédents top 5).
Les prédictions ont évolué avec la comptabilisation des tweets en temps réel et donc des réactions des personnes sur Twitter.
BREAKING NEWS : RIEN NE PRÉDESTINAIT MISS ÎLE-DE-FRANCE À ÊTRE COURONNÉE
Miss Île-de-France ne ressortait pas sur Twitter et avait peu de followers sur Instagram avant l’élection (14k abonnés) : elle s’est démarquée durant l’élection par son aisance à l’oral lors des discours et a ainsi su séduire le jury. Très compliqué donc de prédire sa victoire… Elle a tout de même été intégrée dans notre top 3 suite aux toutes dernières réactions des personnes sur Twitter qui ont, tout comme le jury, apprécié la candidate.
ET POUR CAUSE, LA MÉTHODE DE COMPTABILISATION DES VOTES A CHANGÉ !
Rappelons tout d’abord que la méthode de vote a changé depuis 2020 et que le public n’a plus entièrement le pouvoir sur le choix de notre Miss. Les résultats sont partagés à 50% entre les votes des membres du jury et du public.
Ainsi, notre dernière prédiction du top 3 correspond parfaitement aux votes du public comme le montre le tableau ci-dessus contenant les résultats officiels. Le public (de même que nos prédictions) avait placé Miss Martinique sur la première marche du podium, suivie de Miss Alsace à la deuxième place et Miss Île-de-France en troisième position. Cela montre, cette année encore, la cohérence de notre projet et une bonne fiabilité de nos résultats.
ALORS, COMMENT AVONS-NOUS PRÉDIT LES RÉSULTATS ?
1 – Démarche
Dans un premier temps, nous avons constitué une base d’apprentissage avec un historique de toutes les candidates à l’élection depuis 2009. Pour chacune d’elle, nous avions réuni les différentes données dont nous avons parlées dans le précédent article. C’est-à-dire à la fois les informations issues du scrapping des pages Wikipédia (jury, âge, taille, classement), les données INSEE, les résultats du modèle de Deep Learning obtenu à partir des images (informations physiques sur le visage de la Miss prédite par le modèle).
La base de données test contenait les 29 candidates de l’élection 2022 et les mêmes informations que sur les autres Miss : le modèle de Machine Learning a été appliqué sur cette base pour prédire la probabilité qu’elles appartiennent au top 5. La probabilité que la candidate soit élue nous donnait une première information.
Nous avons utilisé un modèle de classification supervisée, le modèle des forêts aléatoires (ou Random Forest en anglais) qui consiste à combiner des arbres de décision. Pour mieux comprendre les résultats du modèle, on peut utiliser des méthodes XAI (eXplainable Artificial Intelligence). Nous nous sommes appuyées sur la méthode des valeurs de Shapley afin de comprendre l’importance des variables de manière fiable dans notre modèle de Machine Learning :
Légende : image du haut : importance des variables
image du bas : valeurs de Shap (triées selon l’ordre d’importance de chaque variable : les points rouges représentent des valeurs élevées de la variable et les points bleus des valeurs basses de la variable)
La plupart des variables importantes sont issues de l’application du Deep Learning sur nos images, c’est-à-dire liées au physique avec par exemple la hauteur des pommettes, la taille des lèvres ou encore le type de nez.
Le détail physique le plus déterminant dans le modèle est la hauteur des pommettes (“No_High_Cheekbones_ratio”), représentant le pourcentage de photos d’une Miss avec des pommettes basses. D’après les valeurs de Shapley, plus une miss a les pommettes hautes plus elle a de chances d’être élue.
Dans notre modèle de Machine Learning, un autre détail physique important est le fait d’avoir des petites lèvres (« Little Lips ratio ») : ce dernier diminue la probabilité d’être élue.
De plus, le fait d’avoir des cheveux ondulés (« Wavy Hair ratio ») influe négativement sur la probabilité que la candidate soit élue Miss France.
Ainsi, il a été possible d’identifier, en utilisant des images de Miss récupérées sur Google et un modèle de Deep Learning, les caractéristiques physiques des candidates pour des critères de beauté dits « subjectifs ».
2 – Intérêt d’ajouter Instagram
La deuxième information était le nombre de posts sur le nombre de likes sur Instagram, obtenue en récupérant les données avec le package instaloader. Ce package permet d’accéder uniquement aux comptes publics et de récupérer leurs posts. C’est ce que nous avons fait pour les candidates de l’élection 2022. L’utilisation des données d’Instagram nous a permis de placer Miss Alsace dans notre top 5, un jour avant l’élection. En effet, Cécile Wolfrom était très suivie sur Instagram, avec plus de 84k abonnés.
Sans l’intégration de ces données, nous ne l’aurions pas retrouvée dans le top 5 car elle ne faisait pas beaucoup parler d’elle sur Twitter.
3- Et Twitter dans tout ça
Twitter est le réseau social qui représente majoritairement le mieux l’avis du public et s’avère être l’indicateur le plus discriminant. Nous avons établi un score réunissant les différents indicateurs récupérés grâce au Scrapping de Twitter, à savoir le nombre de tweets, de retweets & de likes. Pour obtenir une analyse plus fine des avis des utilisateurs de Twitter, nous avons intégré un modèle de topic modeling. A partir d’une base de données contenant presque 12 000 mots et leur polarité (avis positif, négatif, neutre) et des tweets contenant les hashtags des Miss régionales, nous avons évalué pour chaque Miss le nombre de tweets favorables ou défavorables.
Le volume important de tweets positifs pour Miss Martinique, même la veille de l’élection, a permis d’anticiper qu’elle était la favorite du public. Cela n’a pas suffit puisque le jury lui a préféré Miss Île-de-France.
Enfin, en pondérant ces trois indicateurs, cela a permis d’obtenir un score. Le principe est simple : plus le score est élevé, plus la Miss a de chances d’être élue.
POUR ALLER PLUS LOIN…
Pour conclure sur cette édition 2022, nous avons constaté que les principales erreurs de prédiction provenaient d’une faible capacité à prédire les choix du jury, en raison d’un manque d’informations en amont de la compétition ; là où Twitter et Instagram sont des outils quasi-indispensables pour une très bonne prédiction des choix du public, avec des mises à jour en temps réel. Voici les principales pistes d’optimisation que nous avons pu identifier pour la prochaine édition :
- Développer d’autres méthodes/indicateurs pour analyser la partie qualitative de Twitter
- Améliorer nos modèles de Machine Learning (autres algorithmes, nouvelles données)
- Analyse des discours pendant l’élection (speech-to-text)
Nous clôturons désormais cette 92ème édition, en espérant que notre sujet a suscité autant d’intérêt et de curiosité chez vous que chez nous. Rendez-vous l’année prochaine pour l’élection de Miss France 2023, et d’ici-là, don’t forget : data is fun !
À bientôt et passez de bonnes fêtes !
L’équipe : Analia GHELFI, Marie GIRARD, Amélie POILVERT, Ophélie TOURLAN