In Tribune expert

Suite à la réussite de l’édition 2018, nous nous sommes relancés sur un sujet qui nous tient à cœur chez AVISIA : la prédiction de la prochaine Miss France 2019 !

Avec la même équipe que lors de la précédente édition, nous avons remis le bleu de chauffe. En effet, pour rendre notre modèle plus performant avec des prévisions plus fiables, nous avons été plus loin dans notre méthode pour rendre le projet tout aussi innovant.

Mais avant de rentrer dans le vif du sujet, voici quelques rappels sur ce qui avait déjà été fait :

Data

 → Création d’une base d’analyse avec des données allant de 2009 à 2018 !

Le projet est resté fidèle au même outil, à savoir la plateforme collaborative Data Science Studio de Dataiku.
Cet outil nous a permis d’intégrer des scripts R / Python mais aussi d’utiliser des techniques de Machine Learning.

Ensuite, nous sommes allés plus loin dans l’analyse pour être au top le 15 décembre prochain en s’appuyant sur des fondamentaux :

Deep Learning

Ici, nous avons utilisé une fonctionnalité intégrée dans Dataiku pour appliquer le Deep Learning aux images des miss, afin de prédire la taille du nez, type de cheveux, couleur de cheveux et des yeux.

Analyse des tweets

Grâce au package LSA de Python, nous avons classé les différents tweets en 20 topics revenant le plus souvent comme par exemple la beauté. Cela permettra de connaitre l’avis des utilisateurs de Twitter sur la miss mais également leur intention de vote. Par exemple, s’ils parlent beaucoup de ce qui est lié aux appels, nous pourrons identifier un engouement des français qui sera déterminant lors du vote.

Automatisation

La dernière partie a consisté à automatiser le flux avec les scénarios de Dataiku afin d’obtenir les données les plus récentes de Twitter.
Cerise sur le gâteau … nous avons utilisé le package Slacker de Python pour nous communiquer le dernier top 3 de manière automatique, sur notre outil interne de discussion interne Slack.

Ainsi en date du 14 décembre 2018, nous annonçons exclusivement les miss suivantes étant sur le podium samedi :

  • Miss ayant la plus grande probabilité d’être gagnante à partir des données récoltées : Miss Tahiti
  • Miss ayant la plus grande probabilité d’être dans le TOP 3 à partir de nos données :
    • Miss Tahiti
    • Miss Languedoc-Roussillon
    • Miss Picardie

À noter que la représentativité des tweets est plus significative le jour des élections avec un volume de données Twitter explosant.

Ceci est une première estimation que nous remettrons à jour samedi plusieurs fois dans la journée pour vous donner les toutes dernières tendances.

Nous sommes conscients qu’il existe de nombreux facteurs exogènes qui peuvent influencer les résultats … mais nous sommes confiants dans notre modèle qui avait déjà prouvé sa fiabilité l’année dernière.

Breaking news

Nous avons notre 1er jury exclusivement féminin qui sera présidé par Line Renaud. C’est un événement assez rare même s’il y a déjà eu 3 jurys avec une majorité de femmes sur les 11 dernières élections.

Peut-être que vous vous posez plusieurs questions : Est-ce que le jury 100% féminin aura un impact ? Va-t-il y avoir un miss France Leaks ? Est-ce que la Data va parler ? La réponse samedi soir !

À vos votes !

Recommended Posts
AVISIA