Petite montée de lait en cette journée où j’ai découvert que j’étais une experte1: les projections ne sont pas des sondages! (Si vous le savez déjà, mais voulez comprendre comment ça marche, une projection, vous pouvez vous rendre tout de suite à la section de ce billet où j’en parle.)
C’est Martin qui a encerclé ce paragraphe dans son journal local. «[L]es plus récents sondages» au 4 septembre donnaient Jean-François Lisée loin derrière François Legault et Philippe Couillard alors qu’un seul le plaçait devant Vincent Marissal: celui commandé par le Parti québécois dont on n’a jamais vu le rapport.
Vous avez bien lu: la vaste majorité des sondages sont nationaux. Le Parti québécois a publié des sondages locaux dans les circonscriptions de Rosemont et de Joliette, où se présentent le tandem Jean-François Lisée/Véronique Hivon. Mainstreet commence à mener des sondages dans certaines circonscriptions ciblées (dont Rosemont) pour son Baromètre Élections 2018, mais ils ne sont pas encore publiés.
Le journaliste voulait donc sans doute dire «les projections basées sur les plus récents sondages», en parlant de Qc125 et de Too Close To Call. (Il y a un troisième modèle qui m’était jusqu’à aujourd’hui inconnu: j’en parle plus bas.)
Des exemples à suivre et à éviter
Un exemple à mes yeux encore bien pire est paru samedi dernier dans le HuffPost:
Il y a quelques semaines, les sondages disponibles laissaient entrevoir une course à quatre dans Rosemont. La candidate de la CAQ Sonya Cormier récoltait 24% d’appuis, autant que MM. Lisée et Marissal, alors que la libérale Agata La Rosa suivait de près à 21%.
Depuis, le chef péquiste et le candidat solidaire se sont détachés quelque peu du lot, mais Mme Cormier estime qu’elle incarne une option intéressante.2
La candidate de la CAQ Sonya Cormier ne «récoltait» pas des appuis, on lui projetait plutôt 24% d’appuis. De plus, les seuls mouvements d’opinion publique mesurés ont été nationaux puisqu’il n’y a pas encore eu deux sondages locaux publiés pour la même circonscription: on ne peut donc pas dire que «le chef péquiste et le candidat solidaire se sont détachés […] du lot». On pourrait au mieux dire que la légère baisse de la CAQ à l’échelle nationale risque de se répercuter sur sa candidate dans Rosemont.
L’article de CTV auquel réfère le lien dans le HuffPost s’exprime mieux, en ne distinguant pas entre les trois «meneurs», quoique j’aurais ajouté un petit «All three are projected to have» au dernier paragraphe:
The QC125.com projection shows Lisée has about the same amount of support as Quebec Solidaire candidate and former journalist Vincent Marissal, and the CAQ’s Sonya Cormier, the director of the Movement to end homelessness in Montreal (MMFIM).
All three have from 24.2 to 24.6 percent support, while Liberal candidate Agata La Rosa, a school commissioner with the Pointe de L’Ile school board, has 21.3 percent support.3
Comme je l’ai dit dans l’entrevue qui a consacré mon statut d’experte (j’espère que vous constatez à quel point je trouve ça drôle):
Il y a beaucoup de gens qui pensent que les projections sont basées sur des sondages locaux. Non! Ce sont des sondages nationaux qui sont traduits en résultats locaux sur la base des résultats à la dernière élection, sur les changements démographiques du recensement, et d’autres informations si possible, comme Nate Silver aux États-Unis qui évalue le financement des candidats, la présence de scandales, l’avantage d’être un élu sortant qui se représente.4
Comment ça marche, une projection?
La section «Données, sondages et projections» dans notre b.a.-ba des élections donne un aperçu de la différence entre sondages et projections.
Je propose dans ce billet d’entrer dans la boîte noire des modèles de projection avec un nouveau modèle produit par des chercheurs universitaires, une collaboration entre un prof de McGill, Benjamin Forest, et un diplômé de l’Université de Montréal maintenant post-doctorant à Berkeley en Californie, Eric Guntermann. C’est un ami qui travaille aux communications à McGill qui m’en a glissé un mot.
Ce modèle a le net avantage de décrire de manière complètement transparente sa méthodologie. Pour vous donner une idée de comment fonctionnent les modèles, je vais en extraire les étapes.
Des choix à faire
Tous les modèles utilisent les sondages pour évaluer comme les résultats changeront par rapport à l’élection précédente. Voici, donc, les quatre questions auxquelles doivent répondre les modèles:
- Comment se traduisent les résultats de 2014 sur la carte de 2017?
- Comment ont bougé les appuis de chaque parti depuis les dernières élections?
- Comment ça se traduit dans chaque circonscription?
- Qu’est-ce que ça donne en termes de nombre de sièges?
Les modélisateurs peuvent choisir différentes façons plus ou moins sophistiquées d’y répondre. Comme Benjamin Forest est géographe, il s’est donné particulièrement du trouble pour rendre compte des changements à la carte électorale: c’est son expertise!
À la troisième question, par contre, le modèle Guntermann/Forest ne fait intervenir que les sondages nationaux. Rien sur les changements démographiques enregistrés au dernier recensement, sur les candidatures, sur les sondages locaux.
Voyons de plus près.
Comment se traduisent les résultats de 2014 sur la carte de 2017?
La carte électorale a changé l’année dernière. Les élections de 2012 et de 2014 se sont déroulées avec la carte de 2011; cette année, nous utilisons pour la première fois la carte de 2017, qui a enlevé une circonscription en Mauricie et à Montréal pour en ajouter deux dans la couronne nord de Montréal.
Il faut donc redistribuer les résultats de 2014 sur la nouvelle carte. Voici comment le modèle Guntermann/Forest s’y prend. Je vous invite à lire leurs explications, bien illustrées par un tableau et une carte, que j’ai reproduite.
Établir la correspondance entre les sections de vote de 2014 et les limites des circonscriptions de 2017
Les sections de vote sont les plus petites subdivisions des circonscriptions. À l’aide d’un système d’information géographique (qu’on appelle souvent par son acronyme en anglais, GIS, pour geographic information system), Guntermann et Forest ont trouvé la circonscription de la carte de 2017 dans laquelle se trouve chaque section de vote de 2014.
C’est simple quand une section de vote se trouve entièrement dans une circonscription, mais ça se complique quand elle en chevauche deux. À la vue de la carte ci-contre, on se dit qu’on pourrait utiliser la méthode «y’inqu’à voir, on voit ben» (™ Anne-Marie Éthier, ma prof de maths en secondaire IV), mais ce serait long longtemps et peut-être pas toujours aussi évident5.
Pour déterminer chaque section de vote mitoyenne se trouve «plus dans laquelle» circonscription, Guntermann et Forest ont donc calculé son barycentre (point central) et établi il se situait dans laquelle deux des circonscriptions.
Répartir les votes qui ne sont pas attribués à une section de vote
Les résultats par section de vote ne sont disponibles que pour les voix exprimées le jour du scrutin. Les résultats du vote par anticipation sont donnés par bureau de vote par anticipation (BVA), des regroupements d’une dizaine de sections de vote6. Les résultats du vote par la poste, dans un bureau de vote itinérant et en prison ne sont donnés que pour la grandeur de la circonscription.
Guntermann et Forest ont fait deux choix:
- ignorer les BVA à titre de subdivisions de circonscriptions;
- supposer que les votes d’un même parti seraient distribués de la même façon au sein de la circonscription le jour du scrutin et avec les autres moments/façons de voter.
Ils ont donc redistribué, pour chaque parti et dans chaque circonscription, les résultats du vote par anticipation, par la poste, dans un bureau de vote itinérant et en prison en fonction de la répartition géographique des votes du parti au jour J dans chaque section de vote de la circonscription.
Ils ont ensuite additionné dans chaque section de vote et pour chaque parti cette estimation et les votes obtenus le jour J.
Comment ont bougé les appuis de chaque parti depuis les dernières élections?
Guntermann et Forest font le choix d’utiliser un seul sondage pour effectuer leur projection: le plus récent. Pour leur dernière projection, donc, ils utilisent le sondage Léger qui s’est terminé le 28 août.
Ils comparent donc à l’échelle nationale ce sondage aux résultats de 2014 en faisant pour chaque parti une simple division (pourcentage du parti au plus récent sondage national sur pourcentage obtenu par le parti en 2014).
Ils obtiennent donc cinq variations depuis la dernière élection, une pour chaque parti représenté à l’Assemblée nationale ainsi qu’une dernière pour les autres partis.
Comment ça se traduit dans chaque circonscription?
C’est sur cette question qu’on peut s’attendre à ce que les modèles divergent le plus.
Guntermann et Forest font 1000 simulations.
Dans les paramètres de leurs simulations, ils donnent l’hypothèse de départ suivante: le résultat de chaque parti en 2018 dépendra dans chaque circonscription d’une variation (swing) uniforme pour ce parti à travers la province, calculée à l’étape précédente. Ils génèrent des variations aléatoires pour chaque parti dans chaque circonscription à partir de cette hypothèse. Ensuite, ils multiplient le résultat du parti en 2014 dans la circonscription par la variation aléatoire de cette simulation-là.
Finalement, ils présentent les résultats par circonscription comme étant les chances de chaque parti de remporter le siège, c’est-à-dire le nombre de simulations dans lesquelles ce parti a rapporté le plus grand pourcentage de votes, divisé par 1000 (le nombre total de simulations).
Ils fournissent également un deuxième tableau avec le pourcentage obtenu par chaque parti dans la simulation médiane de chaque circonscription.
Qu’est-ce que ça donne en termes de nombre de sièges?
Pour déterminer le parti qui formera le gouvernement et si celui-ci sera minoritaire ou majoritaire, il faut additionner tous ces résultats par circonscription.
Chaque simulation est comme le résultat d’une élection hypothétique: on a des pourcentages pour chaque parti représenté à l’Assemblée nationale dans chaque circonscription, donc un gagnant dans chaque circonscription et, ultimement, un nombre de sièges remportés par chaque parti dans cette élection hypothétique.
On a donc une série de 1000 nombres de sièges pour chacun des quatre partis. Le modèle présente pour chaque parti la médiane de ces 1000 résultats, c’est-à-dire la moyenne entre le 500e et le 501e résultat lorsqu’ils sont placés en ordre croissant ou décroissant (ça revient au même).
Finalement, le modèle rend compte de l’incertitude en calculant l’intervalle de confiance à 95%. Autrement dit, on élimine les 25 simulations qui donnent le nombre de sièges le plus bas et les 25 simulations qui donnent le nombre de sièges le plus haut.
Pour leur dernière projection, qui date du 2 septembre, ça donne:
On regardera comment Qc125 et Too Close To Call s’y prennent la prochaine fois.
Notes
- Lévesque, Catherine. «Peut-on se fier aux sondages politiques? @MatGalarneau fait le tour de la question avec des experts https://quebec.huffingtonpost.ca/2018/09/05/fiabilite-sondages-politiques_a_23516940/». Tweet. @CathLvesque, 5 septembre 2018.
- Robichaud, Olivier. «Élections: le bleu péquiste vire au orange solidaire à Montréal». HuffPost Québec, 1 septembre 2018.
- La projection de QC125.com montre Lisée à environ le même niveau d’appui que le candidat de Québec solidaire, Vincent Marissal, un ancien journaliste, et la candidate de la CAQ, Sonya Cormier, directrice du Mouvement pour mettre fin à l’itinérance à Montréal.
Les appuis de tous les trois se situent entre 24,2% et 24,6% alors que la candidate du PLQ, Agata La Rosa, une commissaire scolaire de la Pointe-de-l’Île, a 21,3%.
Tiré de «Parti Quebecois leader Jean-Francois Lisée treasuring underdog status». CTV Montreal News, 15 août 2018.
- Galarneau, Mathieu. «Peut-on se fier aux sondages politiques?» HuffPost Québec, 5 septembre 2018.
- Anne-Marie utilisait d’ailleurs l’expression pour dénoter ce qu’on ne pouvait pas utiliser pour faire nos démonstrations.
- La correspondance ne se trouve toutefois pas dans le même fichier que les résultats.