La double échelle et l’illusion graphique

#Statistiques #Sémiologie #Manipulation #Graphique #Méthodologie

27 novembre 2017

 

par François Sermier

Statisticien.

Ce que l’œil voit immédiatement

Voici un graphique simple, publié par Tyler Durden sur le site Zero Hedge, le 3 février 2017.

Le graphique est construit selon le principe de la « double-échelle ». Il indique le nombre de plateformes pétrolières, et le nombre d’employés de l’industrie des hydrocarbures.

JPEG - 89.2 kio
Rig : plateforme - industry employees : employés de l’industrie

Une lecture « naïve » de cette figure - purement visuelle – nous apprend que :
— le nombre de puits de forage a fortement diminué entre août 2015 et mai 2016, avant de recommencer à croître rapidement pour retrouver le niveau d’octobre 2015 (soit 16 mois plus tôt - c’est ce que dit en tout cas le titre du billet initial) ;
— le nombre d’employés de l’industrie des hydrocarbures a commencé à chuter à partir de la même période (août 2015) jusqu’en juillet 2016, avant de se stabiliser.

Le parallélisme des décroissances est frappant, avec un léger décalage de deux mois sur la fin de la période ; par la suite, les forages « redémarrent », mais sans que les effectifs salariés ne suivent… On pourrait naturellement en conclure que c’est la faute de l’automatisation.

Mais regardons d’un peu plus près l’échelle de ces courbes — ou plutôt les échelles — car il n’échappe à personne que les deux échelles sont distinctes, ce qui est d’ailleurs bien mis en valeur par les couleurs attribuées aux deux séries :
— axe de gauche : la chute du nombre de plateformes est sévère ; en moins de 10 mois, leur nombre a été divisé par 2, soit - 50 % ;
— axe de droite : sur la même période, l’évolution de l’emploi est de - 10 % seulement.

Pour conclure cette lecture « naïve », mettons en rapport les deux séries statistiques pour obtenir une troisième donnée : le nombre de salariés par plateforme. Les nombres ainsi obtenus sont compatibles avec l’échelle (verte) de gauche. Ce qui nous donne la figure suivante :

JPEG - 115.1 kio

Utilisation d’une échelle double

— Si l’on veut mettre en évidence un écart constant entre deux séries, on peut utiliser une échelle arithmétique ; si l’on recourt à un système avec deux axes, ceux-ci doivent avoir la même échelle. Il en va de même si l’on veut représenter fidèlement l’évolution d’un écart dans le temps.

— Si l’on veut mettre en évidence un rapport constant entre deux séries, on devrait plutôt utiliser une échelle logarithmique ; si l’on recourt à un système à deux axes, ceux-ci doivent avoir des échelles proportionnelles. Il en va de même pour la représentation de l’évolution dans le temps du rapport entre deux séries. Ou pour comparer la « croissance » de différentes séries.

Ici c’est le rapport des deux séries — autrement dit, les variations relatives en pourcentage — qui fait l’objet du graphique, et cela appelle un traitement « logarithmique ». La représentation graphique dans le système logarithmique montre que la variation (relative) du nombre de plateformes est d’une ampleur beaucoup plus importante que celle du nombre de salariés travaillant dans le secteur. Le parallélisme des décroissances dans le graphique initial (en système arithmétique) est une pure illusion d’optique, résultant d’un choix incorrect — voire délibéré — des auteurs, ou de leur commanditaires.

Échelle arithmétique

Lorsque deux nombres sont représentés sur une échelle arithmétique, la distance qui les sépare le long de cette échelle montre directement l’écart entre leurs deux valeurs.

Pour apprécier correctement la grandeur d’un nombre sur une telle échelle, il est indispensable que celle-ci comprenne l’origine (c’est-à-dire le zéro ou la base de l’échelle) puisque le nombre est représenté par le segment reliant son abscisse au zéro. C’est la source des difficultés liées à l’utilisation d’une échelle tronquée, c’est-à-dire sans l’élément neutre de l’addition.

Lorsqu’on compare deux nombres, l’élément support de la représentation — la longueur du segment — représente l’écart, ou encore, la variation ou, pour être absolument précis, la variation absolue. Notation mathématique y2 – y1.

Échelle logarithmique

Essayons maintenant de reconstruire cette figure en choisissant un mode plus adapté ; la représentation simultanée de ces deux courbes incite vivement à en faire le rapport. Et qui dit « rapport », dit « échelle »…

— … chromatique ? (on peut voir comment Alexandre Astier explique « musicalement » la notion d’échelle à partir de 6’05’’)

— Non : logarithmique !

JPEG - 77.6 kio

Pour ce mode de représentation, on peut conserver la double échelle, mais en veillant bien à conserver les rapports afin que l’écart entre les deux courbes garde son sens, soit, dans ce cas, le rapport de l’une à l’autre, représenté dans le graphique précédent par la courbe tiretée verte.

Il faut donc que les rapports entre maximum et minimum — sur chaque échelle — soient égaux, ou, plus simplement, que les nombres aux deux extrémités des traits de quadrillage soit dans un même rapport (ici de 1 à 2).

Sur cette échelle, par définition, la longueur du segment représenté est proportionnelle au logarithme de la valeur à représenter. Physiquement sur le papier, la longueur du segment séparant la représentation de y1 et y2 est donc proportionnelle à log(y2) - log(y1), soit log(y2/y1), et donc les distances sur cet axe représentent les rapports entre les valeurs.

La distance sur un tel axe séparant deux points représentant des nombres est donc proportionnelle à leur rapport, soit encore leur variation relative ou enfin leur écart en pourcentage.

Dans presque tous les domaines économiques, les données que l’on représente sont des données où ce sont les variations relatives qui ont un sens : prix, indices, croissance… et en pratique, toute série exprimée en unités monétaires. L’échelle naturelle pour les représenter est l’échelle logarithmique.

PNG - 78.7 kio
Exemple fictif d’utilisation d’une échelle arithmétique
PNG - 81.9 kio
Exemple fictif d’utilisation d’une échelle logarithmique

Sources et références

Les données de comptage de plateformes proviennent du North America Rig Count de Baker Hughes. La série retenue correspond uniquement aux plateformes de forage pétroliers, soit environ 75% du total.

Les effectifs salariés proviennent de l’enquête nationale du Bureau of Labor Statistics pour le secteur Oil and gas extraction. Elles sont corrigées des variations saisonnières, ce qui ne devrait pas avoir d’incidence particulière étant donné que le nombre de plateformes en activité n’a pas de « caractère saisonnier ».

JPEG - 52.7 kio

La prise en compte de l’ensemble des plateformes ne change pas vraiment les conclusions. Il faudrait juste réajuster les échelles pour que le parallélisme initial entre les deux séries redevienne « flagrant ».

JPEG - 103.8 kio

Rig Count Surges Again To 16-Month Highs - But Where’s The Oil Industry Jobs, Zero Hedge, 3 février 2017,

The Real Story of Automation Beginning with One Simple Chart, par Scott Santens, Basic Income, 24 octobre 2017.

North America Rig Count, Baker Hughes Company.

US Bureau of Labor Statistics, United States Department of Labor.