La statistique la plus évidente à calculer sur un échantillon numérique, celle dont l'interprétation est la plus intuitive, est la moyenne empirique.
Tout comme le centre de gravité, la
moyenne
est associative.
Si on réunit deux
échantillons,
de tailles respectives
et
, de
moyennes
respectives
et
, alors la
moyenne
du nouvel échantillon
sera
.
Si
est un
échantillon
et si on pose pour tout
,
, où
et
sont deux constantes, alors la
moyenne empirique
de l'échantillon
est
. En particulier, si
et
, le nouvel
échantillon
a une
moyenne
nulle.
Centrer
les
données
c'est leur retrancher la moyenne
empirique de manière à la ramener à 0.
Un cas particulier important est celui des
données
binaires. On est souvent
amené à construire un
échantillon
binaire à partir d'un
échantillon
numérique , ne serait-ce que pour le regroupement en classes.
Si
est un
échantillon
à valeurs réelles et si
est
un sous ensemble de
(un intervalle dans le cas d'une classe), notons
1
sa fonction indicatrice qui vaut 1 si
, 0 sinon.
Alors
1
1
est un
échantillon
binaire,
dont la
moyenne empirique
est appelée la
fréquence empirique
de
. C'est simplement la proportion des valeurs de
qui appartiennent à
.
Un des inconvénients de la moyenne empirique, vue comme valeur centrale d'un échantillon, est d'être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de valeur aberrante. Qu'elle soit ou non le résultat d'une erreur dans le recueil ou la transcription, on ne peut pas la considérer comme représentative. Supposons que sur un échantillon de 10 valeurs, toutes soient de l'ordre de 10, sauf une, qui est de l'ordre de 1000. La moyenne empirique sera de l'ordre de 100, c'est-à-dire très éloignée de la plupart des valeurs de l'échantillon. Pour palier cet inconvénient, on peut décider ne pas tenir compte des valeurs extrêmes dans le calcul de la moyenne. On obtient alors une moyenne élaguée .
Comme technique de première approche pour le lissage des séries chronologiques, on utilise les moyennes mobiles , qui sont des moyennes arithmétiques de valeurs autour de la date d'intérêt.