Les notions de variance et d'écart-type servent à quantifier la dispersion d'un échantillon autour de sa moyenne. La définition est la suivante :
Pour mesurer la dispersion d'un échantillon autour de sa moyenne, on pourrait trouver plus naturelle une autre mesure d'écart, par exemple l'écart absolu moyen dont nous parlerons plus loin. La raison pour laquelle la définition ci-dessus est la plus naturelle tient dans la proposition suivante.
Le choix de la variance pour mesurer la dispersion d'un échantillon est donc cohérent avec celui de la moyenne empirique comme valeur centrale. Nous verrons plus loin qu'un phénomène analogue a lieu pour l'écart absolu moyen et la médiane.
Démonstration : La fonction est un polynôme de degré deux en :
Pour le calcul algorithmique, on calcule en général simultanément moyenne et variance grâce à la formule suivante.
Démonstration :Il suffit de développer les carrés dans la définition de :
Dans le cas particulier des données binaires, codées sur 0 et 1, la moyenne est la fréquence de 1, et la variance n'apporte aucune information supplémentaire. En effet, si tous les valent 0 ou 1, alors et donc :
Dans le cas général, l'algorithme de calcul est le suivant.
somme1
somme2
Pour de 1 à
somme1
somme1
somme2
somme2
finPour
moyenne
somme1
variance
somme2
moyenne
moyenne
Pour les très gros échantillons, il faut prendre garde à l'imprécision des sommes cumulées. Pour éviter des erreurs, on aura intérêt à travailler en double précision ou même à remplacer la boucle par deux boucles emboîtées. Dans certains cas, on pourra simplifier les calculs en utilisant l'invariance par translation. Si pour tout on pose , alors la variance de est . Soit par exemple l'échantillon suivant :
Une fois la moyenne calculée, nous avons vu qu'on pouvait centrer les données pour se ramener à une moyenne nulle. La variance des données centrées est la même que celle de l'échantillon initial. Une fois cette variance calculée, on peut réduire les données centrées en les divisant par l'écart-type. On obtient ainsi un nouvel échantillon dont la moyenne est nulle et la variance égale à 1. On parle d'échantillon réduit. Remarquons que les données réduites sont des nombres sans unité. On peut donc comparer deux échantillons réduits, même si les données initiales n'étaient pas exprimées dans la même unité.
L'inconvénient de l'écart-type tel qu'il a été défini jusque là, est qu'il a tendance à sous-estimer légèrement l'écart des données par rapport à leur moyenne. La raison mathématique de ce défaut est liée à la notion de biais d'un estimateur. On peut en saisir la raison intuitive sur un exemple simple. Supposons que l'on joue trois fois à un jeu dont l'enjeu est 1 franc. Chaque résultat vaut donc . Si le jeu est équitable, on s'attend à ce que la moyenne vaille 0 et l' écart-type 1. Or sur trois parties, les résultats possibles à l'ordre près sont les suivants.