Méthodologie
Comme l'a dit James Carville, un stratège de la campagne politique de Bill Clinton en 1992, "it’s the economy stupide", ce qui implique qu'il est nécessaire d'avoir une économie forte lorsqu'un candidat veut être réélu pour un second mandat. Cela a été confirmé par nos analyses qui ont démontré que le PIB et la consommation privée étaient les variables économiques expliquant la plupart des écarts du vote sur la base de l'analyse en composantes principales. Par conséquent, la prise en compte de l'évolution économique en temps réel est nécessaire pour saisir les variables expliquant les votes. Cependant, les données économiques sont nécessaires mais pas suffisantes. L'ajout de ces données macroéconomiques à haute fréquence est complémentaire de notre expérience en matière d'analyse des médias sociaux. En effet, l'analyse des médias sociaux capture l'aspect "émotionnel" du vote en analysant les réactions aux événements importants de la campagne.
Pour notre analyse des réseaux sociaux, nous utilisons une méthodologie alliant analyse des hashtags utilisés dans les tweets et analyse de sentiments sur le contenu des tweets. Chaque jour, nous récupérons des centaines de milliers de tweets.
Dans un premier temps, nous classons les hashtags selon qu’ils soient proBiden ou proTrump. Par exemple, le hashtag #MAGA va être classé pro-Trump et le hashtag #votebluetosaveamerica indique une préférence partisane pour les démocrates. Comme chaque jour, nous captons de nouveaux individus, plus la date des élections se rapproche, plus le nombre d’utilisateurs détectés sera important. Ensuite sur les utilisateurs pour lesquels nous ne sommes pas parvenus à détecter l’affiliation partisane avec les hashtags, nous effectuons une analyse de sentiment pour savoir si l’utilisateur est pro-Biden ou pro-Trump. Au final, les scores de Biden et Trump sont obtenus en comptant le nombre d’individus dans chacun des camps.
Comme l’élection présidentielle se joue au niveau des Etats, nous construisons le score des candidats au niveau de chacun d’entre eux. Lors de notre collecte de données, nous conservons la localisation des individus. Cela nous permet de savoir quelles sont les tendances dans les différents Etats, en particulier dans les Swing States.
Nous prenons également en compte les différents biais qui peuvent exister. Certaines études montrent que les partisans démocrates sont plus actifs sur les réseaux sociaux. Pour éviter de surestimer le candidat démocrate, nous ajustons les résultats. De plus, nous prenons également en compte les biais géographiques dans chacun des Etats. En effet, dans de nombreux Etats, les campagnes sont pro-Trump alors que les centres-villes sont acquis aux démocrates. Or, comme nous risquons d’avoir plus d’utilisateurs urbains que ruraux, nous pouvons encore une fois surestimer le score de Joe Biden. Pour cela, nous localisons les individus au niveau du comté et pondérons nos observations.
Comme l'a dit James Carville, un stratège de la campagne politique de Bill Clinton en 1992, "it’s the economy stupide", ce qui implique qu'il est nécessaire d'avoir une économie forte lorsqu'un candidat veut être réélu pour un second mandat. Cela a été confirmé par nos analyses qui ont démontré que le PIB et la consommation privée étaient les variables économiques expliquant la plupart des écarts du vote sur la base de l'analyse en composantes principales. Par conséquent, la prise en compte de l'évolution économique en temps réel est nécessaire pour saisir les variables expliquant les votes. Cependant, les données économiques sont nécessaires mais pas suffisantes. L'ajout de ces données macroéconomiques à haute fréquence est complémentaire de notre expérience en matière d'analyse des médias sociaux. En effet, l'analyse des médias sociaux capture l'aspect "émotionnel" du vote en analysant les réactions aux événements importants de la campagne.
Pour notre analyse des réseaux sociaux, nous utilisons une méthodologie alliant analyse des hashtags utilisés dans les tweets et analyse de sentiments sur le contenu des tweets. Chaque jour, nous récupérons des centaines de milliers de tweets.
Dans un premier temps, nous classons les hashtags selon qu’ils soient proBiden ou proTrump. Par exemple, le hashtag #MAGA va être classé pro-Trump et le hashtag #votebluetosaveamerica indique une préférence partisane pour les démocrates. Comme chaque jour, nous captons de nouveaux individus, plus la date des élections se rapproche, plus le nombre d’utilisateurs détectés sera important. Ensuite sur les utilisateurs pour lesquels nous ne sommes pas parvenus à détecter l’affiliation partisane avec les hashtags, nous effectuons une analyse de sentiment pour savoir si l’utilisateur est pro-Biden ou pro-Trump. Au final, les scores de Biden et Trump sont obtenus en comptant le nombre d’individus dans chacun des camps.
Comme l’élection présidentielle se joue au niveau des Etats, nous construisons le score des candidats au niveau de chacun d’entre eux. Lors de notre collecte de données, nous conservons la localisation des individus. Cela nous permet de savoir quelles sont les tendances dans les différents Etats, en particulier dans les Swing States.
Nous prenons également en compte les différents biais qui peuvent exister. Certaines études montrent que les partisans démocrates sont plus actifs sur les réseaux sociaux. Pour éviter de surestimer le candidat démocrate, nous ajustons les résultats. De plus, nous prenons également en compte les biais géographiques dans chacun des Etats. En effet, dans de nombreux Etats, les campagnes sont pro-Trump alors que les centres-villes sont acquis aux démocrates. Or, comme nous risquons d’avoir plus d’utilisateurs urbains que ruraux, nous pouvons encore une fois surestimer le score de Joe Biden. Pour cela, nous localisons les individus au niveau du comté et pondérons nos observations.
Résultats
Au 1er novembre 2020, le modèle prédit une victoire de Joe Biden avec 279 grands électeurs, 193 pour Trump ; les 66 grands électeurs restants sont localisés dans des États très serrés (Iowa, Arizona, Ohio , Caroline du Nord, Géorgie)
De plus, l’analyse des réseaux sociaux permet de saisir l’impact des grands événements de campagne sur les intentions de vote. Ainsi, les évènements marquants de cette campagne ont été la mort de Ruth Bader Ginsburg, juge progressiste de la Cour Suprême, la publication des déclarations fiscales de Donald Trump ou l’article du New York Post sur Hunter Biden.
Comme l’élection se joue au niveau des Etats, il est essentiel de comprendre comment évoluent les courbes dans ces swing states. Par exemple, l’indicateur Quantcube permet de voir que les scores sont très serrés en Caroline du Nord et en Ohio, deux Etats clés pour Donald Trump, qu’il a remportés avec respectivement une avance de respectivement 3 % et 8.1 % en 2016.
L’avantage de notre indicateur réside dans le fait qu’il fournit une analyse en temps réel de l’opinion et est donc un leading indicator.
L’avantage de notre indicateur réside dans le fait qu’il fournit une analyse en temps réel de l’opinion et est donc un leading indicator.
Au niveau national, nous parvenons à détecter rapidement l’impact de la publication des différents articles sur le fils de Joe Biden alors que les sondages mettent plus de temps à le détecter