Les réseaux sociaux prédisent Miss France

Chaque année, le concours Miss France passionne des millions de Français. Mais si le soir de l’élection ce sont le public et le jury qui tranchent, les réseaux sociaux, eux, livrent souvent leurs pronostics bien avant.

Avec plus de 60 % de la population mondiale présente sur les plateformes sociales en 2024, ces dernières sont devenues de véritables baromètres d’opinion. Entre likes, partages et commentaires, elles regorgent de données précieuses pour anticiper les tendances… et peut-être même deviner le nom de la future reine de beauté.

Chez AVISIA, chaque année depuis 2017 nous relevons un défi : prédire les résultats de l’élection Miss France grâce à l’Intelligence Artificielle. À travers ce projet interne original, dont vous trouverez les détails dans cet article, les données issues des réseaux sociaux Instagram, X et Tiktok sont exploitées pour capter l’opinion du public, mesurer la notoriété des candidates, et analyser les signaux révélateurs des préférences du public. Cette popularité est complétée d’une analyse de sentiment, via de la GenAI, qui a pour but d’évaluer une tonalité des conversations autour de chaque Miss.

Comment collecter les données issues des réseaux sociaux ?

Pour collecter automatiquement les données issues des réseaux sociaux, il existe trois méthodes principales :
  • Les API sont des interfaces fournies par des plateformes ou des services web et permettent aux développeurs d’accéder aux données de manière structurée et sécurisée.
  • L’utilisation de packages spécialement conçus pour l’extraction de contenu et d’informations issues de sites web.
  • Des sites spécialisés, qui proposent une solution clé en main, avec des services qui automatisent le processus de collecte de données, souvent via une interface utilisateur simple et sans besoin de codage.
Chacune de ces méthodes comportent des avantages et des inconvénients, que l’on retrouve dans le tableau ci-dessous :

Utilisation des API

Les API sont des interfaces fournies par des plateformes ou des services web et qui permettent aux développeurs d’accéder aux données de manière structurée et sécurisée. Dans cette partie, les procédures pour accéder aux API de Meta, X et TikTok seront détaillées.

API Graph – Meta : Instagram, Facebook, WhatsApp, etc

L’API Graph de Meta permet d’insérer et de récupérer des données dans les plateformes Meta : Instagram, Facebook, WhatsApp… Elle utilise le protocole HTTP pour interroger un point de terminaison sous forme de requête HTTP, qui en retour récupère des données structurées et formatées, principalement au format JSON ou XLM.
Cette API exploite 2 points de terminaisons : 
  • Hashtag IG, qui collecte des données liées à un hashtag : nombre de commentaires, de likes, etc.
  • Business Discovery, qui collecte des données liées à un profil : nombre de followers, de posts, de likes, de commentaires, etc.
En ce qui concerne les préalables à l’utilisation de cette API, il est nécessaire de créer une application Meta App à partir de ce lien : Graph API Explorer. Cela permettra une authentification et l’obtention d’une clé d’accès valide pour utiliser l’API.

API X v2 – X (anciennement Twitter)

Depuis l’acquisition de X par Elon Musk en octobre 2022,  les politiques d’utilisation de l’API X ont beaucoup évolué et sont devenues plus restrictives. Pour obtenir l’accès à l’API, il faut détenir un compte Développeur qui permettra d’accéder à l’API X v2.Cependant, si l’on souhaite scraper, un compte payant sera nécessaire. En effet, la version gratuite est très limitée et permet seulement de poster jusqu’à 1 500 posts par mois. Pour pouvoir lire des tweets, une version payante est obligatoire avec un coût pouvant aller jusqu’à plus de 5 000$ par mois. 

API TikTok

TikTok dispose de plusieurs API, avec chacune des fonctionnalités distinctes qui répondent à différents besoins : 
  • Display API, qui permet l’affichage de vidéos TikTok
  • Content Posting API pour la publication de contenu sur le réseau social
  • Research API, qui permet d’accéder à des données analytiques et des informations détaillées sur les tendances, les performances des vidéos, et les comportements des utilisateurs.
Ces API disposent également de certains quotas définis par TikTok, qui limitent le nombre de  requêtes sur une certaine période donnée. Par exemple, pour récupérer les informations sur les utilisateurs, il est possible d’effectuer jusqu’à 20 000 appels par jour, sachant qu’un appel peut renvoyer jusqu’à 100 enregistrements.

Combinaison des API avec des approches ELT (Extract, Load, Transform) à travers des plateformes spécialisées

Afin d’automatiser la collecte et la synchronisation des données provenant de différentes sources, certaines plateformes combinent les API des réseaux sociaux avec des approches ELT (Extract, Load, Transform). Pour cela, les API sont utilisées pour extraire des données provenant de différents systèmes. Ensuite, les données brutes sont chargées dans des entrepôts de données avant d’être transformées pour des analyses avancées. Cette intégration fluide des API dans les plateformes simplifie la gestion des pipelines de données, réduit les efforts manuels et permet de maintenir la collecte des données à jour. 
Ces plateformes, telles que Funnel ou encore Fivetran, sont souvent payantes et sont utilisées par les entreprises pour intégrer les données de leurs réseaux sociaux. Pour cela, il est nécessaire de connecter ses comptes de réseaux sociaux à la plateforme afin que celle-ci puisse récupérer toutes les informations disponibles. L’avantage de cette méthode est qu’il n’y a pas de limitation sur l’intégration des données et que les évolutions des API sont directement prises en charge par la plateforme. En revanche, certaines informations spécifiques, comme les posts contenant un certain hashtag, peuvent ne pas être entièrement récupérables, en fonction des restrictions et des permissions des API des réseaux sociaux.

Utilisation de packages spécialisés

Scraping avec Selenium et BeautifulSoup

L’utilisation de bibliothèques Python telles que BeautifulSoup et Selenium permet d’ extraire directement les données des pages web ou réseaux sociaux.
Sélénium est un package permettant de contrôler les actions d’un navigateur. En exécutant du JavaScript, il peut interagir avec des pages web de manière similaire à un utilisateur humain en effectuant des actions telles que ouvrir et fermer les navigateurs, naviguer vers des URLs, cliquer sur des éléments, remplir des formulaires, etc. Pour cela, Selenium est composé d’un webdriver qui lui permet d’interagir avec les navigateurs (Chrome, Firefox, Safari,etc.)en envoyant des commandes et en recevant des réponses.
BeautifulSoup est une bibliothèque Python utilisée pour analyser des documents HTML et XML et permet ainsi d’extraire des données d’une page web.
En combinant Selenium et BeautifulSoup, il devient alors possible de scraper des pages web dynamiques, comme c’est le cas sur les pages des réseaux sociaux. Selenium permet en effet de charger la page et exécuter JavaScript, tandis que BeautifulSoup peut être utilisé ensuite pour extraire les données une fois la page complètement chargée.

Scraping Instagram avec Instaloader

Instaloader est unebibliothèque open-sourceécrite en Python qui permet detélécharger des publications avec leurs légendes et autres métadonnées d’Instagram. Ce package est principalement utilisé pour effectuer des opérations de web scraping sur Instagram et extraire des informations à partir de comptes d’utilisateurs, de publications, de stories, etc.

Exemples de packages spécialisés dans le scapring

Voici également quelques exemples de librairies Python permettant de scraper les réseaux sociaux : 
  • Minet est une librairie Python développée par le Médialab de Science Po. Ce package a été conçu dans le but de collecter et extraire une grande variété de sources web, y compris les données des réseaux sociaux tel que Facebook, X, Instagram, etc.
  • Gazouilloire, également développé par le Médialab de Science Po, permet de collecter des tweets.

Utilisation de sites spécialisés

Certains sites spécialisés, tels que Apify ou Octoparse par exemple, proposent également des solutions clé en main, en fournissant des outils et services qui automatisent le processus de collecte et de structuration des données. L’utilisation de ces sites est souvent assez simple, avec des interfaces conviviales et ne nécessitent pas de compétences avancées en programmation.

Apify

C’est une plateforme de web scraping en JavaScript permettant aux développeurs d’extraire des données structurées et d’automatiser des flux. Ses principales fonctionnalités incluentl’extraction de données de divers sites web et applications, le téléchargement des données en différents formats (CSV, XML, Excel, JSON via API), des intégrations avec des outils comme Zapier et Airbyte ainsi que des langages comme Python et PHP, et l’utilisation d’un proxy rotatif pour éviter les blocages IP. Apify propose une formule gratuite avec 5$ de crédits et une assistance Discord, ainsi que plusieurs options payantes pour obtenir plus de crédits.

Octoparse

C’est un outil de scraping web convivial et puissant, permettant d’extraire des données structurées sans nécessiter de compétences en programmation. Il propose une interface intuitive avec des fonctionnalités de glisser-déposer, la possibilité de créer des flux de travail de scraping sans code, et peut extraire des données de divers types de sites, y compris les dynamiques et ceux utilisant JavaScript. Les tâches de scraping peuvent être planifiées pour s’exécuter automatiquement, et les données extraites peuvent être exportées dans plusieurs formats. Octoparse inclut également des options de rotation de proxy et offre des capacités de scraping sur le cloud pour une exécution plus rapide et fiable.
Cependant, il convient de noter que la plupart de ces services proposent un quota gratuit limité. Une fois ce quota dépassé, il peut être nécessaire de souscrire à un abonnement payant.

Comment analyser les réseaux sociaux et faire ressortir les tendances ?

Analyser les conversations en ligne autour des candidates du concours Miss France est un exercice aussi passionnant que complexe

Initialement centré sur X (anciennement Twitter), notre modèle a su évoluer pour s’adapter aux nouveaux usages des réseaux sociaux. L’intégration d’Instagram, puis de TikTok a permis de mieux refléter les dynamiques d’interaction et de popularité auprès d’un public plus jeune et diversifié.

Ces plateformes se distinguent par un mode d’expression spontanée et créative : abréviations, emojis, utilisation de nouvelles expressions, multilinguisme… Des caractéristiques qui rendent l’analyse des sentiments et des intentions particulièrement complexe pour des modèles traditionnels, souvent basés sur des règles fixes ou des dictionnaires.

Mesurer la notoriété des Miss grâce à l’IA Générative

L’introduction de l’IA générative, et plus spécifiquement des LLM (Large Language Models), a profondément transformé notre capacité à analyser les commentaires issus des réseaux sociaux. Contrairement aux modèles traditionnels, les LLM sont capables de saisir les subtilités du langage naturel, même lorsqu’il est informel, créatif ou hybride.

En intégrant directement les commentaires dans ces modèles, nous pouvons interpréter avec bien plus de justesse des nuances complexes : ironie, double sens, phrases multilingues, ou encore combinaisons de texte et d’emojis. Là où une analyse classique aurait échoué, un LLM comprend par exemple que le commentaire «OMG, c’est le Feuce concours» reflète une opinion positive.

Cette capacité d’analyse fine permet de mieux qualifier les sentiments exprimés et, in fine, d’améliorer la fiabilité de nos prédictions. En enrichissant notre modèle avec des outils de GenAI, nous adaptons notre approche à l’évolution du langage en ligne… et restons au plus près de la voix du public.

 

Conclusion

Dans un monde où les réseaux sociaux façonnent de plus en plus l’opinion publique, leur analyse est devenu un enjeu clé. Notre projet Miss France démontre comment la data science, enrichie par l’IA générative, permet non seulement d’analyser des volumes massifs de données sociales, mais aussi d’en extraire du sens.

Ce cas d’usage illustre notre capacité à combiner nouvelles technologies, expertise métier et compréhension des usages digitaux pour anticiper les tendances et prédire les préférences du public. Plus qu’un exercice technique, il s’agit d’un véritable laboratoire d’innovation, où chaque édition Miss France nous pousse à adapter nos outils et affiner nos modèles.

 

Ophélie TOURLAN & Solène VENEZIA

Articles en lien

Data contact

Avec notre expertise, faites parler vos données