L’élection Miss France rassemble chaque année plusieurs millions de Français derrière leur petit écran. Le système de vote, qui a souvent été source de controverses, a évolué ces dernières années pour permettre aujourd’hui au public de voter par SMS. Le jury et le public contribuent ainsi chacun à 50 % du résultat final.
L’élection Miss France vue depuis Twitter
La question que je me suis posée : qui vote ? Qui va dépenser 0,5€ en SMS surtaxé pour donner un coup de pouce à sa favorite ? De ces interrogations m’est venue l’idée d’analyser cette élection au travers d’un réseau social gratuit et public. Avec une question simple : « Quelle Miss aurait été élue par Twitter ? »
Analyse globale des tweets
Périmètre
- 21h00: démarrage de l’émission
- 22h00: fin de la présentation de toutes les candidates
- 22h45: sélection des 12 demi-finalistes
- 23h15: interview des candidates
- 23h35: sélection des 5 finalistes
- 00h10: Deuxième interview
- 00h15: clôture des votes
- 5 – Réunion
- 4 – Provence
- 3 – Tahiti
- 2 – Martinique
- 1 – Nord Pas de Calais
Sur la soirée, j’ai récupéré près de 400 000 tweets émis par 77 000 utilisateurs. Les tweets ont été collectés avec un filtre sur le hashtag officiel #MissFrance2016 puis traité via Spark. Le logiciel d’analyse Qlik Sense a ensuite été utilisé pour visualiser les résultats.
Comme on le voit, les tweets ont réellement démarré vers 21h au début de l’émission. On remarque également que les hashtags sont relativement peu utilisés. On ne dénombre ainsi que 4 000 tweets pour le hashtag le plus populaire : #missmartinique.
Twitter est l’outil de prédilection des professionnels qui s’en servent généralement pour communiquer sur des événements ou des publications intéressantes : les tweets sont formatés et usent (ou abusent) des hashtags ou des mentions (@).
Le soir de l’élection de Miss France, les utilisateurs ont plutôt engagé des conversations, délaissant au passage les habituels outils de publication en masse.
Suite à ce constat, j’ai donc privilégié l’analyse des tweets à partir des mots-clés, au détriment des hashtags. Pour ce faire, j’ai décomposé les mots clés en deux groupes. Le premier groupe se rapporte aux Miss (provence, missprovence, etc.) et me servira à raccrocher les tweets aux différentes miss. Les termes précédents ont été retirés du deuxième groupe de mots-clés, qui ne servira alors qu’à qualifier les messages.
Miss Provence est la Miss France 2016 Twitter
Les premiers résultats sont éloquents : Miss Provence se détache très nettement avec près de 24 000 tweets qui la citent.
Comparatif détaillé du top 5
Une analyse sémantique permet également d’aller plus loin et d’analyser plus finement le texte des messages. Les qualificatifs ont été regroupés en 5 grandes catégories, présentées dans le tableau ci-dessous.
Commentaires (2)
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.
Tres belle analyse ! Je ne savais pas qu'on pouvait faire cela avec les tweets!
Je voudrais savoir s'il est possible de savoir la position géographique depuis lesquelles les tweets ont été emis? Cela permettra de savoir aussi la province était très active durant l'élection de Miss France.
Oui et non :)
Théoriquement, tous les tweets peuvent être localisés (pays, ville, voir coordonnées GPS) mais nécessitent une action de l'utilisateur. Dans la pratique, c'est peu utilisé.
Il existe également une zone "location" qui permet à chaque utilisateur de renseigner son emplacement habituel. Mais cette zone est facultative ET libre. Dans bien des cas, elle n'est pas renseignée et ceux qui la renseigne font souvent preuve d'originalité ("à Nice et Paris","Partout et nulle part", "Dans ma piscine", etc.)
Du coup, ce n'est pas simple à exploiter dans un traitement de masse.
Il existe enfin une zone plus intéressante qui se nomme "time_zone". Elle est standardisée et la plupart du temps renseignée par les utilisateurs (pour s'assurer de recevoir les tweets avec la bonne heure). On peut facilement faire correspondre la time_zone avec un pays et localiser géographiquement les tweets.
C'est la technique que j'ai utilisé lors d'une étude précédente : https://blog.businessdecision.com/bigdata/2015/04/tutoriel-visualiser-donnees-twitter-avec-qlik-sense/
Evidemment, une analyse par pays était moins pertinente ici pour l'étude sur les Miss. A noter toutefois que de nombreux tweets ont été émis hors de France.
Par exemple: USA (+16 000 tweets, + 5000 utilisateurs), Brésil (289 tweets, 74 utilisateurs)