Les notions de variance et d'écart-type servent à quantifier la dispersion d'un échantillon autour de sa moyenne. La définition est la suivante :
Pour mesurer la dispersion d'un échantillon autour de sa moyenne, on pourrait trouver plus naturelle une autre mesure d'écart, par exemple l'écart absolu moyen dont nous parlerons plus loin. La raison pour laquelle la définition ci-dessus est la plus naturelle tient dans la proposition suivante.
Le choix de la variance pour mesurer la dispersion d'un échantillon est donc cohérent avec celui de la moyenne empirique comme valeur centrale. Nous verrons plus loin qu'un phénomène analogue a lieu pour l'écart absolu moyen et la médiane.
Démonstration : La fonction
Pour le calcul algorithmique, on calcule en général simultanément moyenne et variance grâce à la formule suivante.
Démonstration :Il suffit de développer les carrés dans la définition de
Dans le cas particulier des
données
binaires, codées
sur 0 et 1, la
moyenne
est la
fréquence
de 1,
et la
variance
n'apporte aucune information supplémentaire. En effet,
si tous les valent 0 ou 1, alors
et donc :
Dans le cas général, l'algorithme de calcul est le suivant.
somme1
somme2
Pour de 1 à
somme1
somme1
somme2
somme2
finPour
moyenne
somme1
variance
somme2
moyenne
moyenne
Pour les très gros
échantillons,
il faut prendre garde à l'imprécision
des sommes cumulées. Pour éviter des erreurs, on aura
intérêt à travailler en double précision ou même à remplacer
la boucle par deux boucles emboîtées. Dans certains cas, on pourra
simplifier les calculs en utilisant l'invariance par translation. Si pour tout
on pose
, alors la
variance
de
est
. Soit par exemple
l'échantillon
suivant :
Une fois la moyenne calculée, nous avons vu qu'on pouvait centrer les données pour se ramener à une moyenne nulle. La variance des données centrées est la même que celle de l'échantillon initial. Une fois cette variance calculée, on peut réduire les données centrées en les divisant par l'écart-type. On obtient ainsi un nouvel échantillon dont la moyenne est nulle et la variance égale à 1. On parle d'échantillon réduit. Remarquons que les données réduites sont des nombres sans unité. On peut donc comparer deux échantillons réduits, même si les données initiales n'étaient pas exprimées dans la même unité.
L'inconvénient de
l'écart-type
tel qu'il a été défini jusque là,
est qu'il a tendance à sous-estimer légèrement l'écart des
données
par rapport à leur
moyenne.
La raison mathématique de ce défaut
est liée à la notion de
biais
d'un
estimateur.
On peut en saisir
la raison intuitive sur un
exemple simple. Supposons que l'on joue trois fois à un jeu dont l'enjeu est
1 franc. Chaque résultat vaut donc . Si le jeu est équitable, on
s'attend à ce que la
moyenne
vaille 0 et l'
écart-type
1. Or sur trois
parties, les résultats possibles à l'ordre près sont les suivants.