Section : Données unidimensionnelles
Précédent : Echantillons
Suivant : Variance empirique

Moyenne empirique

La statistique la plus évidente à calculer sur un échantillon numérique, celle dont l'interprétation est la plus intuitive, est la moyenne empirique.

Définition 1.1   La moyenne empirique d'un échantillon est la somme de ses éléments divisée par leur nombre. Si l'échantillon est noté $ (x_1,\ldots,x_n)$, sa moyenne empirique est :

$\displaystyle \overline{x} = \frac{1}{n} (x_1+\cdots+x_n)\;.
$

La moyenne est donc le centre de gravité des données, affectées de coefficients égaux pour chaque individu. Elle peut être considérée comme une valeur centrale, même si elle n'est pas égale à une des modalités.

Tout comme le centre de gravité, la moyenne est associative. Si on réunit deux échantillons, de tailles respectives $ n_x$ et $ n_y$, de moyennes respectives $ \overline{x}$ et $ \overline{y}$, alors la moyenne du nouvel échantillon sera $ (n_x\overline{x} + n_y\overline{y})/(n_x+n_y)$.

Si $ (x_1,\ldots,x_n)$ est un échantillon et si on pose pour tout $ i=1,\ldots,n$, $ y_i=ax_i+b$, où $ a$ et $ b$ sont deux constantes, alors la moyenne empirique de l'échantillon $ (y_1,\ldots,y_n)$ est $ \overline{y} = a\overline{x} + b$. En particulier, si $ a=1$ et $ b=-\overline{x}$, le nouvel échantillon a une moyenne nulle. Centrer les données c'est leur retrancher la moyenne empirique de manière à la ramener à 0.

Un cas particulier important est celui des données binaires. On est souvent amené à construire un échantillon binaire à partir d'un échantillon numérique , ne serait-ce que pour le regroupement en classes. Si $ (x_1,\ldots,x_n)$ est un échantillon à valeurs réelles et si $ A$ est un sous ensemble de $ \mathbb{R}$ (un intervalle dans le cas d'une classe), notons 1$ _A(x)$ sa fonction indicatrice qui vaut 1 si $ x\in A$, 0 sinon. Alors $ ($1$ _A(x_1),\ldots,$1$ _A(x_n))$ est un échantillon binaire, dont la moyenne empirique est appelée la fréquence empirique de $ A$. C'est simplement la proportion des valeurs de $ (x_1,\ldots,x_n)$ qui appartiennent à $ A$.

Un des inconvénients de la moyenne empirique, vue comme valeur centrale d'un échantillon, est d'être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de valeur aberrante. Qu'elle soit ou non le résultat d'une erreur dans le recueil ou la transcription, on ne peut pas la considérer comme représentative. Supposons que sur un échantillon de 10 valeurs, toutes soient de l'ordre de 10, sauf une, qui est de l'ordre de 1000. La moyenne empirique sera de l'ordre de 100, c'est-à-dire très éloignée de la plupart des valeurs de l'échantillon. Pour palier cet inconvénient, on peut décider ne pas tenir compte des valeurs extrêmes dans le calcul de la moyenne. On obtient alors une moyenne élaguée .

Définition 1.2   Soit $ (x_1,\ldots,x_n)$ un échantillon et $ \alpha$ un réel compris entre 0 et 1. La moyenne élaguée de niveau $ 1\!-\!\alpha$ est la moyenne empirique de l'échantillon privé d'un nombre de valeurs extrêmes, égal à la partie entière de $ n\alpha$. Elle sera dite élaguée à gauche, à droite ou bilatéralement selon que seulement les valeurs les plus petites, seulement les plus grandes, ou bien à la fois les plus petites et les plus grandes, auront été supprimées.

Remarque : En statistique, les réels $ \alpha$ compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs $ 0.05$ et $ 0.01$, plus rarement $ 0.02$, $ 0.005$ ou $ 0.001$. Il faut donc lire $ \alpha$ comme "une faible proportion", et $ 1\!-\!\alpha$ comme "une forte proportion".

Comme technique de première approche pour le lissage des séries chronologiques, on utilise les moyennes mobiles , qui sont des moyennes arithmétiques de valeurs autour de la date d'intérêt.

Définition 1.3   Soit $ (x_1,\ldots,x_n)$ une série chronologique et $ k\geq 0$ un entier. On appelle série des moyennes mobiles d'ordre $ k$, la série $ (m_{k+1},\ldots,m_{n-k})$ définie pour tout $ h=k\!+\!1,\ldots,n\!-\!k$ par :

$\displaystyle m_h = \frac{1}{2k+1} \sum_{l=h-k}^{h+k} x_l\;.
$



Section : Données unidimensionnelles
Précédent : Echantillons
Suivant : Variance empirique