Le vieux fidèle


C. Robert

Le geyser "Old Faithfull" (traduction littérale : vieux fidèle) est situé dans le Parc de Yellowstone, Wyoming (USA). Une pancarte affiche "éruption environ toutes les heures un quart". A défaut d'observer le geyser lui-même, observons les durées qui séparent deux éruptions, puis les durées des éruptions elles-mêmes. On a disposé ici des durées écoulées entre 300 éruptions consécutives ayant eu lieu entre le 1er et le 15 Août 1995. On a ainsi une série chronologique de taille 299, dont les unités sont en minutes (données parues dans le Journal of the Royal Society, series C, 39, pages 357-366). La moyenne vaut 72,3 et la médiane 76. La valeur minimale observée est 46 mn (3/4 d'heures environ) et la valeur maximale 108 (plus d'une heure trente). L'écart-type est de 13,8 mn. Cette variabilité de la durée inter-éruption est bien gênante pour les organisateurs du tourisme : un spectacle à heure fixe se gère mieux.

Pour voir à quoi ressemblent deux séries qui ne diffèrent que par la fluctuation d'échantillonnage, la série des durées inter-éruptions a été coupée en deux séries en prenant les 150 premiers termes dans la première série, les 149 suivants composant la deuxième. Ces séries doivent se ressembler beaucoup. Et effectivement, les deux moyennes valent 72,3, les écarts-types sont respectivement de 14,3 et 13,4 mn. On peut voir la suite des valeurs des deux séries sur la figures 1, (1) et (2). Pour pouvoir dire que les deux séries se ressemblent, on a mis à titre comparatif en (3) et (4) des séries aléatoires simulées, notées simul1 et simul2 : les quatre graphiques sont chaotiques, les trois premiers se ressemblent alors que le dernier semble d'une autre nature. Sans doute il faut avoir l'oeil exercé pour dire que les séries 1 et 2 se ressemblent plus que les séries 1 et 3 ou 2 et 3.


Figure 1. En (1) et (2), séries consécutives des données inter-éruptions du Old Faithfull. En (3) et (4), valeurs de séries aléatoires simulées, de même moyenne que les deux premières séries (soit 72,3) ; les écarts-types des quatre séries sont respectivement 14, 13, 13 et 76 (l'échelle du graphique 4 n'est pas la même que celle des trois autres).

Mais comment parler de ces différences, comment en rendre compte ?

Un bon moyen est de cesser de regarder les séries trop précisément, c'est à dire terme par terme ; si on construit les diagrammes en boîtes des quatre séries (figure 2) la différence entre les trois premières séries et la quatrième est flagrante.



Figure 2. diagrammes en boîtes des quatre séries étudiées ; les valeurs extrêmes pour la série simul2 ne sont pas représentées.

Pour différencier les trois premières séries, les histogrammes de la figure 3 nous semblent convenir (les histogrammes donnent une information plus fine que les boîtes, mais résument quand même 150 données par 7 ou 8 valeurs, à savoir les 7 ou 8 pourcentages que l'on peut lire sur l'histogramme).


Figure 3. Histogrammes des deux séries de durées inter-éruptions et de la série simul1. Les deux premières séries ont un mode très prononcé (35% des valeurs entre 75 et 85 mn).

Si nous voulions donner une réponse brève à la question "que veut dire observer des données aléatoires", on pourrait dire que cela consiste à chercher le juste recul à prendre pour qu'apparaissent des régularités dans le chaos des données.

Enfin observons sur la figure 4 la série consécutive des durées des 300 éruptions. On peut constater qu'il y a deux groupes d'éruptions : celles qui durent moins de 2mn et celles qui durent plus de 4 minutes. En observant aussi cette figure, on voit que beaucoup de données valent exactement 4mn. Il y a 55 termes de la série des 300 données qui valent exactement 4mn ; les durées ont été mesurées en minutes et secondes, et il n'y a aucune raison que le Old Faithfull ait connaissance de ces unités de mesure du temps; cette accumulation autour de 4 relève presque certainement d'erreurs humaines de mesures (il y a aussi pour la même raison un nombre assez élevé de durées de 2 mn exactement). Dans des données mesurées par des hommes et non des machines, ce genre de phénomène intervient souvent même pour des mesures prises avec grand soin (on devine même à ce genre de phénomène que le recueil des données n'est pas entièrement automatisé). L'histogramme de la figure 5 gomme ce phénomène de la valeur 4 et rend compte de la distribution. Si nous voulons résumer les 300 durées par quelques données chiffrées, nous n'utiliserons pas la moyenne qui vaut 3,4 ou la médiane qui vaut 4 (à cause de l'accumulation en 4); nous nous contenterons de dire que 45% des éruptions durent environ 4mn et 35% durent environ 2mn.


Figure 4. Représentation des durées des 300 éruptions du Old Faithfull ; l'abscisse de chaque point est le numéro de l'éruption (de 1 à 300) et l'ordonnée sa durée. Cette représentation est du même type que celle de la figure 1 sauf qu'on n'a pas joint les points par des segments de droite.


Figure 5. En (1), histogramme des durées des 300 éruptions du Old Faithfull. En (2), l'ordonnée d'un point est la durée de l'éruption considérée, l'abscisse étant le temps d'attente avant entre cette éruption et la précédente.