Après avoir vu dans l’article précédent comment récupérer les données Twitter avec Flume et Hive, j’ai voulu aller jusqu’à la visualisation des données.
Pour se faire, j’ai utilisé Hive pour calculer quelques indicateurs de sentiment. Le principe repose sur l’utilisation d’une table de mots clés classés comme positif, neutre ou négatif. Il suffit ensuite d’analyser la syntaxe (dans le jargon on parle souvent de parser les tweets, un anglicisme issu du verbe to parse) des tweets pour repérer les mots clés utilisés et calculer le sentiment du tweet. La limite de cette approche est cependant évidente car elle ne tient pas compte des tournures grammaticales. Le sujet est complexe et il existe un saut technique important pour passer d’une analyse lexicale à une analyse sémantique. De nombreux laboratoires ont lancé des recherches dans ce domaine, comme l’ANR par exemple.
Heureusement, Twitter nous facilite la vie avec les hashtags et les informations que l’on peut récupérer comme le nombre de followers par exemple. Il devient aisé alors d’identifier les thématiques et la portée des tweets en fonction de l’audience potentielle.
J’ai utilisé également Hive pour identifier le pays d’origine des tweets à partir des indications sur les fuseaux horaires. Mon objectif était de pouvoir mettre en œuvre les nouvelles fonctions cartographiques intégrées dans Qlik Sense.
Visualisation des données avec Qlik Sense
L’objectif de l’application Qlik Sense est de mettre en évidence les informations des messages envoyés sur Twitter.
Dans un premier temps, l’outil permet d’avoir une vue d’ensemble sur les principaux indicateurs de Twitter avec le nombre de tweets, le nombre d’impression pour déterminer l’audience maximale et l’engagement pour savoir si les tweets ont suscité des réactions. Sur cette première page ont visualisera aussi les hashtags les plus utilisés.
Twitter étant mondial, on s’intéresse à l’origine géographique des tweets. Le Big Data est par exemple particulièrement utilisé en Amérique du nord, en Europe et en Inde. Dans ces pays, il est associé à des notions d’analytics, d’internet des objets (IoT), de datascience et d’Hadoop… Si on zoome sur la Chine, on parle majoritairement d’offre d’emploi. Fait notable, quand on regarde les tendances en France, on voit que le mot clef #BlogBD que nous utilisons pour parler de ce blog sur Twitter apparaît dans les tendances associées au Big Data (promis, la récupération des tweets a été réalisée sans trucage !)
Qlik Sense permet de faire des analyses macro, mais aussi d’aller plus en détail sur chaque tweets. Un community manager pourra identifier plus facilement la valeur des tweets ayant eu le plus d’impact.
Enfin, Qlik Sense permettra de croiser des données sémantiques et des données techniques des tweets. Dans l’exemple présenté en vidéo, on met en évidence que les utilisateurs intéressés par le thème des objets connectés utilisent majoritairement un iPhone ou un client web pour Twitter. Si on veut vendre des produits ou des services, ces canaux seront donc à privilégier pour optimiser la communication.
Merci pour votre lecture et à très bientôt pour un nouveau tuto !
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.