Le premier chiffre à gauche

Mélanie Roman, Claudine Robert

1- Un bien étrange phénomène

Dans trois séries de nombres décrites ci-dessous, on a relevé la distribution des fréquences du "chiffre significatif" qui est le premier chiffre non nul lu dans l'écriture de ce nombre en base 10 (le chiffre significatif de 2543,34 est 2 et celui de 0,00678 est 6).

- La colonne La bourse est relative à une série de 1000 nombres extraits des pages "finances et marchés" du journal Le Monde daté du vendredi 23 avril 1999. Ces nombres sont les taux de change des monnaies, les cours des matières premières en dollars ou en euros, les prix des actions dans différents domaines : automobile, banques, chimie, pharmacie, télécommunications ...Le plus petit nombre correspond au taux d'échange franc contre livre sterling (valeur : 0,101 05) et le plus grand au prix en dollars de l'once de platine (valeur : 81 602,53).

- Les 1229 nombres qui ont servi dans la colonne Recensement sont relatifs au recensement national de 1992. Les données représentent le nombre d'habitants de chaque commune de l'Isère et du Vaucluse, les derniers nombres donnant la population totale de tous les départements et celle de la France. Le plus petit nombre (valeur : 9) correspond à la population de la commune de Oulles (Isère); et le plus grand (valeur : 58 0730553) à la population totale de la France.

Les 914 chiffres de la colonne Gilibert sont extraits des colonnes débits et crédits d'un historique de compte de la société Gilibert, une société de fabrication de remorques, pour l'année 1995. Ils ont diverses origines : frais de minitel, cotisations ASSEDIC, achat de gasoil, payements de clients, cotisations à la médecine du travail, impôts... Le plus grand nombre correspond à un total des débits du 10/01/95 au 30/09/95 (valeur : 96 981 060,08), et le plus petit à la fin de règlement d'un compte (valeur : 0,03).

Premier chiffre	La bourse	Recensement	Gilibert
1	0,322	0,321	0,317
2	0,151	0,168	0,161
3	0,108	0,133	0,142
4	0,099	0,081	0,088
5	0,073	0,087	0,070
6	0,081	0,067	0,061
7	0,055	0,055	0,070
8	0,065	0,045	0,040
9	0,046	0,044	0,050

On observe là un phénomène étonnant : ces distributions de fréquences sont très voisines !

Un tel phénomène mérite une explication. Pour la trouver, posons-nous deux questions.

les comptes de la société Gilibert sont exprimés en francs ; pourquoi le phénomène observé serait-il lié au franc ? Que se passe-t-il si on exprime ces chiffres en euro, ou en dollar ?

les chiffres sont écrits en base 10 ; que se passe-t-il si on écrit les nombres dans une autre base ?

En fait, on peut multiplier les nombres des trois colonnes par n'importe quelle quantité, on observe toujours à peu près la même distribution des fréquences : la propriété observée est invariante par changement d'échelle.

De même, si on écrit les nombres du tableau dans une autre base, les distributions des fréquences relatives aux trois séries restent encore voisines.

2- L'usure du premier volume des tables de logarithmes :

On peut lire dans un article de La Recherche (janvier 1999) ayant pour titre Le premier chiffre significatif fait sa loi, les faits ci-dessous.

En 1881, Simon Newcomb publie un article présentant un étrange phénomène : le premier volume des tables logarithmiques est plus utilisé que le deuxième qui l'est plus que le troisième et ainsi de suite. Un savant calcul l'amène à conclure que la probabilité que le premier chiffre significatif d'un nombre, " pris dans un ensemble quelconque ", soit d, est égale à log₁₀(1+1/d). Cet article passe totalement inaperçu.

Par contre, 57 ans plus tard, un article de Franck Benford, motivé par la même observation et aboutissant à la même loi de probabilité, étayé d'exemples éclectiques, attire l'attention. La loi est baptisée loi de Benford.

On a trouvé depuis de très nombreux exemples de données se conformant à cette loi de probabilité.

3- Mesures invariantes

Pour comprendre le phénomène observé, nous allons nous interesser à certaines lois de probabilité définies à partir de mesures invariantes.

3-1 Invariance par translation

On dit qu'une mesure m sur (R, B (R )) est invariante par translation si :

"B ÎB(R ), "a ÎR m(a+B) = m(B) où a+B = {a+b, bÎB}

A un coefficient multiplicatif près, il y a unicité d'une telle mesure : c'est la mesure de Haar du groupe (R ,+). La mesure de Lebesgue dx est l'unique mesure m invariante par translation et telle que m([0,1]) = 1.

En projetant alors la mesure de Lebesgue sur {R /c.Z ,+}, où c ÎR , on obtient la mesure uniforme. Par normalisation on construit la loi de probabilité uniforme sur [0,c[, à savoir dx/c.

3-2 Invariance par changement d'échelle

On dit qu'une mesure m sur (R ^+*,B (R ^+*)) est invariante par changement d'échelle si :

"B ÎB (R ), "a ÎR m(a.B) = m(B) où a.B = {a.b, bÎB}

A un coefficient multiplicatif près, il y a unicité d'une telle mesure : c'est la mesure de Haar du groupe (R ^+*,´). La mesure dx/x est l'unique mesure invariante m telle que m([1,e]) = 1.

En projetant m = dx/x sur (R ^+*/cZ , ´), on obtient la mesure dx/x sur [1/c,1[ dont nous nommerons la forme normalisée loi de Benford continue sur [1/c,1[.

3-3 Lois de Benford discrètes

-Choisissons la base 10 (c =10).

Soit X une variable aléatoire suivant la loi de Benford sur [0,1 ;1 [.

Soit d Î {1,...,9}.

Alors, la probabilité que le premier chiffre significatif de X soit d est :

Donc si des données sont invariantes par changement d'échelle, leurs premiers chiffres significatifs peuvent être considérés comme un échantillon de la loi définie sur {1,...,9} par :

P_B(10)(i)=Log₁₀(1+1/i),

que nous nommerons loi de Benford discrète en base 10.

Le même calcul montre que si on écrit les nombres en base c, c étant un entier supérieur à 2, alors la série des premiers chiffres significatifs en base c suivra la loi B(c), avec :

i Î{1, ..., c-1} : P_B(c)(i)=Log_c(1+1/i) .

On notera que pour des valeurs élevées de i, P_B(c)(i) est presque inversement proportionnel à i, et on retombe ainsi sur la loi de Zipf étudiée en linguistique.

-L'image de la mesure de Lebesgue dx par l'homomorphisme de groupe :

(R ,+) ® (R ^+*,´)

x ® e^x

est la mesure dx/x sur R ^+*. L'image de la loi U_[0,1[ par f : [0;1[ ® [1 ;10[ telle que f(x)=10^x-1 est la loi de Benford continue sur [0,1;1[.

En particulier, pour simuler un échantillon de taille n de B₁₀, il suffit de prendre l'algorithme suivant :

Pour i Î{1, ..., n} :

X® random ([0;1[)

Y=10^X

Ecrire Y

4- Petits calculs

4-1 Probabilités des cinq premiers chiffres

Le tableau suivant donne la probabilité des cinq premiers chiffres significatifs selon la loi de Benford ainsi que la distance du chi-deux de chaque colonne avec la loi uniforme : pour le premier chiffre puis où f_i est la fréquence du i-ème chiffre.

Le calcul des probabilités des chiffres dans l'ordre de leur lecture est donné par :

où i_j est la valeur du j-ème chiffre significatif.

100.P(c₁=x)

100.P(c₂=x)

100.P(c₃=x)

100.P(c₄=x)

100.P(c₅=x)

12,0

10,18

10,02

10,00

30,1

11,4

10,14

10,01

10,00

17,6

10,9

10,10

10,01

10,00

12,5

10,4

10,06

10,01

10,00

9,7

10,0

10,02

10,00

8,0

9,7

9,98

10,00

6,7

9,3

9,94

9,99

10,00

5,8

9,0

9,90

9,99

10,00

5,1

8,8

9,86

9,99

10,00

4,6

8,5

9,83

9,98

10,00

chi-deux

1,49

1,3.10^-2

1,3.10^-4

1,3.10^-6

1,3.10^-8

4-2 Probabilités conditionnelles du deuxième chiffre

Le tableau suivant donne (100 ´) la probabilité que le deuxième chiffre soit c₂, sachant que le premier est c₁.

Le calcul des probabilités conditionnelles est le suivant :

c₁

c₂

13,8

12,0

11,4

11,0

10,9

10,7

10,6

10,5

12,6

11,5

11,0

10,8

10,7

10,5

10,4

11,5

11,0

10,7

10,5

10,4

10,3

10,7

10,5

10,4

10,3

10,2

10,0

9,3

9,7

9,8

9,9

8,7

9,3

9,5

9,6

9,7

9,8

8,2

9,0

9,3

9,4

9,5

9,6

9,7

7,8

8,7

9,0

9,2

9,4

9,5

9,6

7,4

8,4

8,8

9,0

9,2

9,3

9,4

9,5

5- Retour aux données

Reprenons les données pour la colonne recensement du §1 et testons l'hypothèse nulle que les chiffres significatifs suivent la loi de Benford .

La statistique du chi-deux pour chacune des colonnes du tableau du §1 est le produit de la taille de l'échantillon par la distance de la distribution des fréquences à la loi de Benford.

où p_i= Log₁₀(1+1/i), et n est le nombre de données .

Les résultats sont les suivants :

	n	distance du chi-deux
La bourse	1000	14,8
Recensement	1229	7,9
Population	914	11,03

Pour le test dont l'hypothèse nulle est que les chiffres significatifs suivent la loi de Benford, la valeur limite de rejet au seuil 5% est 15,5 ; on peut donc accepter l'hypothèse nulle pour les trois ensembles de données au risque 5%.

Pour mieux percevoir ce phénomène d'invariance d'échelle, rien n'empêche de faire de nouvelles expériences : collecter des données analogues, calculer le chiffre significatif de ces données et des données multipliées par une constante, calculer la distance de la distribution des fréquences à la loi de Benford, faire un test du chi-deux. ou d'autres tests pour tester l'adéquation à la loi de Benford continue, etc...