In Tribune expert

Miss France 2020 est … (roulement de tambour) Miss Guadeloupe !!

Voilà plusieurs jours que l’élection de Miss France 2020 est terminée et nous voulions revenir sur ce qui s’était passé.

CONSTAT

Pour les personnes n’ayant pas suivi la mise à jour de nos pronostics le jour de l’élection sur Twitter, voici un tableau résumant l’évolution de nos prédictions automatiques réalisées grâce au Data Science Studio de Dataiku :

Comme vous le constatez, notre modèle a ressorti Miss Provence en tant que Miss France 2020 à chaque mise à jour, à l’exception du début de soirée. Cela montre une très bonne performance de notre modèle, puisqu’avant même la cérémonie, nous avons réussi à identifier la 1e Dauphine de Miss France. Avant l’annonce des 15 dernières prétendantes, nous avons constaté une évolution significative du volume de tweets (x10) pour Miss Provence & Miss Nord Pas De Calais. Malheureusement, cette dernière n’a pas été retenue par le jury selon de nombreux critères – non identifiables car nous n’en avons pas l’accès – comme l’éloquence, la démarche, le savoir-vivre ou encore l’intégration sociale. Une fois l’annonce du top 15,  notre modèle s’est montré stable et performant en identifiant Miss Provence & Miss Guadeloupe dans le top 3.

Sur la twittosphère, de nombreux twittos se sont demandés pourquoi Miss Provence n’a pas été la grande gagnante de cette édition. Pour vous l’illustrer, nous avons extrait quelques tweets synthétisés dans l’image ci-dessous :

Avant de vous expliquer les résultats de notre modèle, je vous invite à lire cet article pour bien comprendre la suite  : Qui sera la prochaine Miss France 2020.

ANALYSE 

Twitter est le réseau social qui représente majoritairement le mieux l’avis du public. Mais comment le mesurer ? le qualifier ? Pour répondre à ces questions, nous avons utilisé l’API Twitter en créant des indicateurs simples tels que le nombre de tweets, de retweets & de likes. Pour rendre le modèle plus fin et connaître l’avis des utilisateurs de Twitter, nous avons créé des scores sur 20 topics déterminés grâce au Topic Modeling & l’analyse de sentiment. Après analyse, nous avons constaté que Miss Provence était la candidate la plus représentée en terme de volume de tweets – variable qui a le plus de poids dans notre score final – au contraire de Miss Guadeloupe qui arrive seulement 10ème. Concernant l’avis du public, le score sur l’analyse de sentiment est le plus élevé pour Miss Guadeloupe. En d’autres termes, Miss Guadeloupe est la plus appréciée sur la twittosphère, mais Miss Provence est la miss qui génère le plus de discussions (elle obtient le 5ème score le plus élevé en terme de sentiment).

INTERPRETATION DES RESULTATS

Actuellement, de plus en plus d’entreprises ont besoin d’interpréter des modèles complexes (ou encore des modèles dits “Black Box”) tels que XGBoost ou Random Forest. Elles s’appuient sur de l’IA explicable ou XAI (eXplainable Artificial Intelligence) permettant de mieux comprendre les relations que le modèle a trouvées. Nous nous sommes appuyés sur la méthode des valeurs de Shapley afin de comprendre l’importance des variables de manière fiable dans notre modèle de Machine Learning :

Légende : image de gauche : importance des variables
image de droite : valeurs de Shap (triées selon l’ordre d’importance de chaque variable : les points rouges représentent des valeurs élevées de la variable et les points bleus des valeurs basses de la variable)

Le modèle que nous voulons interpréter contient toutes les variables citées auparavant, excepté les indicateurs liés aux tweets. La plupart des variables importantes sont issues de l’application du Deep Learning sur nos images, c’est-à-dire liées au physique avec par exemple la hauteur des pommettes, la taille des lèvres ou encore le type de nez. 

Dans notre modèle de Machine Learning, le détail physique le plus important est la hauteur des pommettes (“No_High_Cheekbones_ratio”), représentant le pourcentage de photos d’une Miss avec des pommettes basses. Nous avons décidé de l’utiliser puisqu’elle est fiable avec une précision de plus de 80% sur plus de 10 000 images non vues par notre modèle. En analysant les valeurs de Shapley, cette variable possède un impact négatif sur le fait d’être Miss France quand la valeur de cette variable est élevée : plus une Miss a des pommettes hautes, plus elle a de chances d’être élue Miss France. Sans vouloir rentrer dans ce débat, il nous semble qu’une pommette haute correspond à un standard de beauté. (https://www.lexpress.fr/styles/beaute/je-veux-des-pommettes-hautes-et-rebondies_2070019.html)

Pour vous l’illustrer, nous avons comparé Miss France 2014 (Flora Coquerel) avec des pommettes hautes et Miss France 2020 (Clémence Botino) avec des pommettes basses dans l’image ci-dessous : 

Nous remarquons que Miss France 2020 avait moins de chance d’être élue puisque sur 70% de ses photos elle est considérée avec des pommettes basses, versus 46% parmi la moyenne des candidates. À noter que l’impact de cette variable a été légèrement positif pour Miss Provence avec un pourcentage de 45%.

Une autre variable fiable et importante dans notre modèle est la taille des lèvres (“Little_Lips_ratio”), qui représente le pourcentage de photos avec des petites lèvres. La taille des lèvres a un impact positif sur le fait d’être Miss France quand le pourcentage est faible, versus négatif quand le pourcentage est élevé. Nous remarquons que Miss France 2020 (66%) et Miss Provence (72%) ont été influencées positivement puisque leur pourcentage est plus bas que la moyenne des candidates (88%). 

Pour terminer sur cette partie, la variable sur la taille des Miss a un impact positif sur le fait d’être Miss France quand la Miss est grande, versus négatif quand la Miss est plus petite. Depuis 2009, une Miss France mesure environ 2 cm de plus par rapport à la moyenne de toutes les candidates (174,7 cm). Nous remarquons que Miss France 2020 a été influencée peu positivement avec une taille de 175 cm alors que Miss Provence a été influencée négativement avec une taille de 170 cm. 

L’ensemble de ces éléments permettent d’identifier de façon pragmatique des critères subjectifs des “standards de beauté” recherchés chez une MissFrance. Si des régions veulent mieux figurer dans les prochaines elections, nous pouvons les aider à identifier les candidates ayant le plus de chances.

Si vous êtes intéressés pour en savoir plus sur  les méthodes d’interprétation des modèles, je vous invite à lire notre article ci-dessous : https://www.avisia.fr/news/tribune-expert/interpreter-modeles-machine-learning/

CONCLUSION

Le modèle n’a pas identifié la Miss France 2020 mais s’est montré stable et performant en identifiant Miss Provence & Miss Guadeloupe dans le top 3 au moment de l’annonce du top 15.

Nous remarquons que Twitter a influencé Miss France 2020 positivement sur la qualité des tweets avec notre analyse de sentiment mais à tort sur le nombre de tweets/retweets/likes. La variable sur les pommettes hautes (la plus importante) a influencé négativement Miss France 2020 mais les autres indicateurs l’ont influencé plus positivement comme le type de lèvres et la taille. Quand nous avons choisi d’incorporer des variables sur l’image pour essayer de prédire la nouvelle Miss France, nous avons voulu être objectifs en les ajoutant telles quelles, sans incorporer notre avis subjectif. Cependant, nous remarquons que l’algorithme de Machine Learning n’est pas parfait et qu’une variable comme la beauté d’une Miss n’arrivera pas à prédire totalement la bonne performance au classement Miss France. La force de notre algorithme avec les données Twitter est de mixer les différentes sources de données, les agréger entre elles, les modéliser avec des branches de l’Intelligence Artificielle et d’en sortir une probabilité de qualité sur le classement.

NEXT STEPS

Pour clôturer cette édition 2020, nous avons identifié plusieurs pistes d’optimisation, à savoir :

  • Brancher d’autres sources de données (ex : API Instagram)
  • Développer d’autres méthodes/indicateurs pour analyser la partie qualitative de Twitter
  • Optimiser nos modèles de Machine Learning (autres algorithmes, ajout Twitter)
  • Analyse des discours pendant l’élection (speech-to-text)

Nous espérons que notre sujet vous a plu et que vous serez là l’année prochaine pour nous suivre lors de la 91ème élection de miss France.

Recent Posts
Nous contacter

AVISIA