La
distribution empirique
associée à un échantillon
est la
distribution de probabilité
sur l'ensemble des modalités qui
affecte chaque
observation du poids .
l'effectif de la valeur .
La
distribution empirique
de
l'échantillon
est la loi de probabilité
sur l'ensemble
, telle que :
La moyenne, la variance et l'écart-type peuvent être vus comme des caractéristiques de la distribution empirique. La moyenne de l'échantillon est l'espérance de sa distribution empirique. Pour un caractère discret, ou continu regroupé en classes, la valeur modale, ou mode de la distribution empirique est la valeur (ou la classe) qui a la fréquence la plus élevée. Une distribution empirique est dite unimodale si cette fréquence est significativement plus grande que les autres. Elle peut être bimodale ou multimodale dans d'autres cas.
Pour étudier une distribution empirique, la première étape consiste à trier les données par ordre croissant, à savoir écrire ses statistiques d'ordre .
Voici par exemple un échantillon de taille 10 et ses 10 statistiques d'ordre.
En d'autres termes,
est la proportion d'éléments de
l'
échantillon
qui sont inférieurs ou égaux à
.
Représenter la
fonction de répartition empirique
(en général on
trace seulement les points de coordonnées
, donne
une idée de la
distribution empirique.
Dans le cas où
l'échantillon
est discret (le nombre de valeurs
différentes
est faible devant la taille de
l'échantillon
), on représentera la
distribution empirique
par un
diagramme en bâtons
. Il consiste
à représenter les valeurs différentes
en
abscisse, avec au-dessus de chacune une barre verticale de longueur
égale à sa
fréquence expérimentale
. Dans le cas où le nombre
de valeurs différentes est très faible (inférieur à 10), et surtout
pour des
échantillons
qualitatifs, on utilise aussi des représentations
en camembert (pie-chart), ou en barre. Elles consistent à diviser un disque
ou un rectangle proportionnellement aux différentes
fréquences.
La représentation correspondant au
diagramme en bâtons
pour un échantillon
considéré comme continu (lorsque presque toutes les valeurs sont
différentes), est
l'histogramme.
Il suppose que l'on a choisi un nombre de
classes et un intervalle de représentation
, que l'on a
découpé en
intervalles
.
On remplace alors la
distribution empirique
par une nouvelle
loi de probabilité,
qui pour tout
, charge l'intervalle
avec sa
fréquence expérimentale
:
Tracer un
histogramme
consiste à représenter les classes en
abscisses,
avec au dessus de la -ième un rectangle de hauteur
,
donc de surface égale à
. Cette représentation est celle
d'une
densité de probabilité,
constante sur
chacune des classes. Représenter un
histogramme
implique un certain a priori
sur les
données.
On décide en effet que la
fréquence
de chacune des
classes est bien sa
fréquence empirique
dans
l'échantillon,
mais que la
distribution des
données
à l'intérieur de chaque intervalle est
aléatoire,
de
loi uniforme
sur cet intervalle.