In Tribune expert

La semaine dernière, nous annoncions Miss Guadeloupe comme étant la grande gagnante du célèbre concours Miss France. Et ce samedi 17 décembre ce fut chose faite, une fois de plus notre modèle avait vu juste.

Trois ans après le règne de Clémence Botino, la Guadeloupe ramène une fois de plus la couronne à la maison. La réalité de notre prédiction ne s’arrête pas seulement à Miss France 2023, nous avions également bien prédit deux de ses dauphines : Miss Nord-Pas-de-Calais et Miss Martinique.

RETOUR SUR CETTE ÉLECTION A SUCCES

Pour bien comprendre ce qui va suivre, nous vous invitons, si ce n’est déjà fait, à lire notre précédent article : Qui sera la prochaine Miss France 2023.

Si vous n’étiez pas sur Twitter pour l’évolution de nos prédictions le soir de l’élection, vous pouvez en retrouver le détail dans le tableau récapitulatif ci-dessous:

Au-delà de notre modèle de prédiction, nous avions une partie d’analyse des réseaux sociaux comme Twitter. Nous avons récupéré près de 100 000 tweets sur nos Miss régionales 5 jours avant le jour J. Ces tweets ont été ensuite analysés pour dessiner l’intention de votes des téléspectateurs.  A noter que la qualité de notre modèle est plus représentative le soir de l’élection avec un nombre de tweets multipliés par 9 par rapport à la veille.

Si nous suivons le tableau ci-dessous, 3 Miss régionales figuraient parmi le Top 5 final : 

Miss Guadeloupe est la grande gagnante et sa première dauphine est Miss Nord-pas-de-Calais. Ces deux Miss se trouvaient dans notre top à chaque mise à jour de notre modèle, ce qui confirme la stabilité et performance de ce dernier.

ALORS, COMMENT AVONS-NOUS REUSSI A BIEN PREDIRE MISS FRANCE ?

 

1 –  Démarche

Notre démarche se découpe en 2 grandes phases :

  1. La préparation des données et Feature Engineering : Cette phase consiste à recueillir un maximum de données issues de diverses sources pour ensuite les préparer afin de maximiser la quantité d’informations qu’elles peuvent apporter au modèle. Trois grandes familles de données sont traitées : – Réseaux sociaux : L’analyse des réseaux sociaux repose principalement sur les réactions des internautes sur Twitter. – Caractéristiques physiques des Miss : Un premier modèle de Deep Learning est entraîné pour extraire automatiquement les détails physiques de chaque Miss. Ces variables viennent de nouveau enrichir la base d’informations. – Données socio-démographiques de la région à laquelle est rattachée la miss.
  2. Modélisation : Après retraitement et optimisation des variables, un ultime modèle agrège l’ensemble de ces variables pour classer les miss selon leur probabilité d’être élue.

2- Réseaux sociaux

C’est le média où tout se passe, les tweets défilent sur nos Miss régionales. Ce réseau social nous permet de dégager le mieux les intentions de vote du public. Pour analyser les données issues de Twitter, nous avons recours au Topic Modeling pour classer par thème les tweets revenant le plus souvent comme celui de la beauté. Un score est établi à l’aide de différents indicateurs récupérés grâce au Scrapping de Twitter, à savoir le nombre de tweets, de retweets & de likes. Plus le score est élevé, plus la Miss a de chances d’être élue. Afin de juger du ton du tweet, nous faisons appel à une technique de Topic Modeling avec laquelle on obtient sur une base de mots leur polarité (positive/neutre/négative). Tous les hashtags des Miss régionales sont scrutés pour prédire le plus tôt possible le visage de Miss France. En effet, sur une semaine c’est 100 000 tweets collectés et analysés. Cinq jours avant l’élection nous avions déjà le nom de Miss Guadeloupe comme favorite du public et Nord-Pas-de-Calais en première dauphine. Le volume important de tweets positifs pour Miss Guadeloupe 5 jours avant l’élection puis confirmé le soir de l’élection ne faisait aucun doute sur son couronnement. 

3- Wikipedia et Insee

Wikipedia nous permet de récupérer des informations sur les Miss et le jury. Il faut savoir que plusieurs points du règlement ont été revus cette année. En effet, durant les années précédentes, seules les femmes sans enfant, officiellement célibataires, âgées entre 18 et 24 ans, sans tatouage, et mesurant au moins 1.70 m, pouvaient prétendre au titre de Miss France.

A partir de cette année, pour y participer, il faut être majeure mais sans limite d’âge, avoir un état civil féminin (le concours est donc ouvert aux transgenres), les candidates peuvent être mariées, avoir ou non des enfants, elles peuvent aussi avoir des tatouages.

Nous avons pu voir ces changements samedi pour la grande finale. En effet, parmi les 30 candidates en lice, trois candidates sont âgées de plus de 24 ans, et deux candidates sont tatouées dont Agathe Cauet, miss Nord-Pas-de-Calais qui n’oublions pas a terminé 1ère Dauphine.

Le scraping web facilite la récupération des données démographiques des régions comme le nombre d’habitants, le PIB, etc. nous permettant ainsi de comprendre le comportement de chaque région vis-à-vis du vote et d’établir un historique.

4- Analyse d’images

On parle de Scraping Image lorsqu’on récupère des photos à partir d’une page web. Le Deep Learning permet, sur un historique de 100k images de femmes, d’extraire la taille du nez, le type/ couleur de cheveux ou bien la couleur des yeux. La base de données test contenait les 30 candidates de l’élection 2023 et les mêmes informations que sur les autres Miss : le modèle de Machine Learning a été appliqué sur cette base pour prédire la probabilité qu’elles appartiennent au top 5. La probabilité que la candidate soit élue nous donnait une première information.

Le modèle retenu par notre étude est celui des forêts aléatoires qui combine différents arbres de décision. Ce modèle s’appuie sur les variables les plus importantes, déterminées grâce à la méthode des valeurs de Shapley.

La plupart des variables importantes sont des critères physiques évalués lors de  l’application du Deep Learning sur nos images.

Les détails physiques les plus déterminants dans le modèle sont le fait d’avoir des cheveux ondulés (« Wavy Hair ratio ») mais aussi la finesse du nez (« Pointy_Nose_Ratio »). Ces deux indicateurs influent positivement sur la probabilité que la candidate soit élue Miss France.

La hauteur des pommettes (“No_High_Cheekbones_ratio”) et la taille des lèvres (“Little_lips_ratio”) seraient aussi des facteurs de réussite. Dans notre modèle, le pourcentage de photos d’une Miss avec des pommettes basses et des lèvres fines augmenteraient sa probabilité d’être élue.

Si vous souhaitez de plus amples informations sur les modèles utilisés, nous vous invitons à consulter notre article de l’édition précédente : Retour sur l’élection de Miss France 2022

RETOUR SUR NOS RESULTATS

Parmi les Miss que nous avions prédit dans le top 5 à la suite des portraits, seule Miss Champagne-Ardenne ne se trouvait pas dans le top 15. Malheureusement, cette dernière qui était appréciée par le public avant l’élection ne semblait pas avoir passé la présélection des 15. Il est compliqué de prédire les 15 demi-finalistes compte tenu de nombreux critères exogènes comme les résultats du quizz de culture générale, la présentation devant le jury de présélection qui prend en considération l’éloquence, la démarche, le savoir-vivre ou encore l’intégration sociale dont font preuve les Miss pendant le voyage. 

Miss Guadeloupe et Nord-Pas-de-Calais étaient au coude à coude sur Instagram bien que la première était plus mentionnée sur Twitter.  Elles se sont démarquées durant l’élection par leur aisance à l’oral lors des discours et ont ainsi su séduire le jury. Il faut rappeler que les résultats sont partagés à 50% entre les votes des membres du jury et du public. 

POUR ALLER PLUS LOIN…

Pour préparer d’ores et déjà l’édition 2024, nous continuerons d’apporter des améliorations au modèle comme intégrer une analyse des choix du jury, augmenter la vitesse et le volume de récupération des tweets et enfin développer de nouveaux indicateurs pour évaluer la qualité des tweets. Nous restons à l’écoute d’éventuelles modifications de règlement que pourraient mettre en place le Comité Miss France suite au changement de direction.

Nous clôturons désormais cette 93ème édition avec beaucoup d’émotions, merci à toutes les équipes ayant travaillé sur ce sujet. Rendez-vous l’année prochaine pour l’élection de Miss France 2024 et de nouvelles prédictions !

À bientôt et passez de bonnes fêtes !

L’équipe : Myriam ATTAR, Matthieu BROCHARD, Analia GHELFI, Elise LAZURE, Amélie POILVERT, Ophélie TOURLAN

Recent Posts
AVISIA