Ces sondages trafiqués

La semaine dernière, nous avions parlé des pièges que pouvaient glisser les sondeurs dans leurs questionnaires, simplement en altérant la formulation des questions ou l’ordre selon lequel les questions sont posées et les réponses sont présentées aux répondants. Cette semaine, nous allons aborder l’autre type d’altération des résultats : l’échantillon faussé. Plus l’échantillon est considéré comme représentatif de la population étudiée, plus la marge d’erreur sera petite ; moins il est considéré représentatif, plus la marge d’erreur sera grande. Dans certains cas, notamment lors de sondages en ligne, l’échantillon est tellement déconnecté que les statisticiens eux-mêmes ne peuvent pas ou ne daignent pas donner de marge d’erreur sur leur résultat, donnant lieu à ce qu’on appelle un sondage non-probabiliste.

Comme nous l’avions écrit la semaine dernière, un sondage est une enquête menée auprès d’un échantillon représentatif d’une population donnée à un moment précis. Si l’échantillon n’est pas représentatif de la population étudiée, les résultats seront erronés. C’est pourquoi les sondages les plus fiables (et aussi les plus coûteux) sont ceux fait en personne ou par téléphone. Malheureusement, la proportion de gens qui refusent de répondre aux sondages par téléphone augmente, surtout depuis la multiplication des afficheurs. Ainsi, pour augmenter le bassin de répondants et diminuer leurs coûts d’exploitation, les sondeurs se tournent de plus en plus fréquemment vers les sondages en ligne. Or, les sondages fait par internet introduisent plusieurs biais. Le premier biais introduit est d’ordre socio-économique. Les critiques des sondages en ligne jugent que les usagers d’internet sont généralement plus riches, plus éduqués et plus souvent des hommes que la moyenne de la population.

De plus, très souvent, les sondages internet sont faits sur des bases volontaires, ce qui ouvre la porte à toutes sortes d’excès : les résultats peuvent être manipulés par le pouvoir en place ou par des groupes de pression ; les répondants peuvent parfois voter plus d’une fois ; les sondages volontaires sont plus souvent ignorés par les répondants réticents, ce qui fausse l’échantillon (pour l’impact de la sous-représentation des personnes difficiles à rejoindre ou peu coopératives sur la qualité d’un échantillon, consultez la page 559 de ce document) ; les incitations financières attirent un type précis de clientèle, ce qui peut aussi fausser l’échantillon. Il s’ensuit que les statisticiens doivent pondérer les résultats, c’est-à-dire de compter plusieurs fois les réponses d’un groupe sous-représenté, en prenant pour acquis qu’on peut faire une projection, par exemple, de l’opinion des pères monoparentaux usagers d’internet et interpréter leur réponse comme s’appliquant à la population de pères monoparentaux en général. Cette solution implique que la maison de sondage peut identifier tous les problèmes particuliers inhérents au groupe visé et corriger les résultats pour qu’il soit bien représenté.

En fait, il a été prouvé, dans une étude sur les sondages lors de la campagne fédérale de mai et juin 1997, que

« lorsque la méthodologie utilisée était moins rigoureuse, l’écart entre les sondages et l’intention de vote réelle était plus important et moins stable même en tenant compte de l’erreur due à la taille des échantillons. »

Bref, une pondération efficace ne bat pas un échantillon sérieux.

Enfin, Allan Gregg, de la maison Harris-Decima, un vétéran respecté de l’industrie des sondages, y allait d’une affirmation pour le moins troublante envers les sondages, en 2011 :

«Il existe un large consensus parmi les sondeurs à l’effet qu’un nombre de plus en plus important de sondages à caractère politique souffrent d’une combinaison de problèmes méthodologiques, de pressions commerciales indues et de liens malsains avec les médias. Le sale petit secret de l’industrie des sondages est que notre capacité à livrer des résultats fiables à partir d’échantillons représentatifs de l’ensemble de la population n’a sans doute jamais été moins grande au cours des 30 à 35 années depuis que nous faisons ce travail au Canada.»

Nous n’avons qu’à regarder la récupération médiatique et politique de ces sondages non-probabilistes lors des dernières semaines. Étrangement, Jean Charest lui-même avait laissé entendre que les sondages n’étaient pas quelque chose de fiable. Ça ne l’empêche pas de répéter à qui veut l’entendre que 60% ou 70% des Québécois sont d’accord avec la position de son parti. Et ce, malgré les importantes lacunes méthodologiques de plusieurs de ces sondages.

Revenons sur les deux sondages que nous avons utilisés comme exemple la semaine dernière, le sondage CROP / La Presse et le sondage Léger Marketing / Journal de Montréal. Le sondage Léger Marketing présente sa méthodologie et conclue : « Un échantillon probabiliste de 819 répondants aurait une marge d’erreur de + / – 3,4%, 19 fois sur 20. » N’indiquant pas la marge d’erreur, un lecteur peu attentif serait tenté de voir le 3,4%, 19 fois sur 20, comme la marge d’erreur du sondage, ce qui n’est pas le cas. La situation du sondage CROP est plus insidieuse. On y affirme effectivement que l’échantillon est non probabiliste, mais on déploie aussi de grands efforts pour défendre la qualité de la méthodologie, au point d’en faire un article complet.

Nous ne prétendons pas qu’il faut rejeter du revers de la main tous les sondages faits par internet. En effet, il existe aussi des gens qui défendent les sondages internet. Nous tenons simplement à avertir nos lecteurs qu’un sondage n’est pas nécessairement parfait puisqu’il a été réalisé par une bonne compagnie ou qu’il a été publié dans un grand journal. Un ancien conseiller médiatique du gouvernement néo-zélandais a publié un petit guide pour bien évaluer les sondages. Voici les six questions qu’il met de l’avant :

  1. Est-ce un sondage par sélection aléatoire (généralement faits en personne ou au téléphone), est-ce un panel internet (moins fiable) ou un sondage d’un site web (à fiabilité presque nulle)?
  2. S’il s’agit d’un sondage par sélection aléatoire, quelle est la grosseur de l’échantillon? Notez que cette question est moins importante pour les autres catégories de sondages.
  3. Est-ce que la firme présente un historique de résultats fiables? Combien d’années d’expérience en sondages compte-elle? Qu’a-t-elle prédit pour la dernière élection? A-t-elle non seulement prédit les résultats (qui gagne), ce qui est relativement facile, mais aussi estimé le pourcentage correct de votes?
  4. Est-ce que les résultats présentés sont corroborés par d’autres firmes de sondages publiques? Si, lors des derniers mois, quatre autres firmes ont indépendamment affirmé que le parti X est à Y%, quelle est la probabilité que chacune d’elles ait tort, et que ce sondage, qui affirme qu’ils sont beaucoup plus haut (ou plus bas), soit correct?
  5. Il faut aussi se demander si les autres firmes de sondages ont une longue histoire dans le sondage public, et s’ils étaient fiables lors de la dernière élection, mais ce nouveau sondage, avec ses résultats incroyablement différents, a été réalisé par une firme qui n’existait pas lors de la dernière élection.
  6. Finalement, il faut se demander si le fait de donner une importance indue à ce genre de sondage sert à présenter la nouvelle ou à inventer la nouvelle.

Nous espérons vous avoir convaincu de la prudence dont il faut faire preuve lorsqu’on nous présente des sondages qui sont supposés « trancher la question ». La semaine prochaine, nous aborderons les impacts de ces sondages sur la population.

Dans la même série :
Ces sondages piégés
Ces sondages récupérés

Vidéo du vendredi :
Quelques informations sur les sondages
Une table ronde sur les sondages
L’impact des sondages

Laisser un commentaire