Section : Distribution empirique
Précédent : Représentations graphiques
Suivant : Modèles probabilistes

Quantiles

La fonction quantile d'une loi de probabilité est l'inverse (généralisé) de sa fonction de répartition. Si $ F$ désigne la fonction de répartition, la fonction quantile $ Q$ est la fonction qui à $ u\in ]0,1[$ associe :

$\displaystyle Q(u) = \inf\{x$ t.q. $\displaystyle F(x)\geq u\}\;.
$

La fonction quantile empirique d'un échantillon est la fonction quantile de sa distribution empirique.

Définition 2.4   Soit $ x=(x_1,\ldots,x_n)$ un échantillon et $ (x_{(1)},\ldots,x_{(n)})$ le vecteur de ses statistiques d'ordre . La fonction quantile empirique de l' échantillon est la fonction $ \widehat{Q}$ qui, pour tout $ i=1,\ldots,n$, vaut $ x_{(i)}$ sur l'intervalle $ ]\frac{i-1}{n},\frac{i}{n}]$.

$\displaystyle \forall u\in ]\frac{i-1}{n},\frac{i}{n}]\;,\quad
\widehat{Q}(u) = x_{(i)}\;.
$

Pour certaines valeurs de $ u$, on donne un nom particulier aux quantiles $ \widehat{Q}(u)$.

$ u$
$ \widehat{Q}(u)$
0.5
Médiane
0.25, 0.75
Quartiles
0.1,...,0.9
Déciles
0.01,...,0.99
Centiles

La médiane est une valeur centrale de l'échantillon : il y a autant de valeurs qui lui sont inférieures que supérieures. Si la distribution empirique de l'échantillon est peu dissymétrique, comme par exemple pour un échantillon simulé à partir d'une loi uniforme ou normale, la moyenne et la médiane sont proches. Si l'échantillon est dissymétrique, avec une distribution très étalée vers la droite, la médiane pourra être nettement plus petite que la moyenne. Contrairement à la moyenne, la médiane est insensible aux valeurs aberrantes. Elle possède une propriété d'optimalité par rapport à l'écart absolu moyen.

Proposition 2.5   Soit $ x=(x_1,\ldots,x_n)$ un échantillon de réels. Soit $ EA$ (écart absolu) la fonction qui à un nombre $ m$ associe :

$\displaystyle EA(m) = \frac{1}{n} \sum_{i=1}^n \vert x_i - m\vert\;.
$

Cette fonction admet un minimum absolu en $ m=\widehat{Q}(0.5)$ (la médiane). La valeur de ce minimum est appelé écart absolu moyen.

Démonstration :Le graphe de la fonction $ EA(m)$ est constitué de segments de droites. Sur l'intervalle $ [x_{(i)},x_{(i+1)}]$, elle vaut :

$\displaystyle EA(m) = (2i-n) m -\sum_{j=1}^i x_{(j)}+\sum_{j=i+1}^n x_{(j)}\;.
$

La pente $ (2i\!-\!n)$ est d'abord négative, puis positive. Si $ n$ est impair la médiane $ \widehat{Q}(0.5)$ est le seul minimum. Si $ n$ est pair, le minimum est atteint sur tout un intervalle contenant $ \widehat{Q}(0.5)$, sur lequel la pente s'annule.$ \square$

Il y a une part d'arbitraire dans la définition de la fonction quantile pour une distribution empirique : pour tous les points de l'intervalle $ [x_{(i)},x_{(i+1)}[$ la fonction de répartition vaut $ i/n$. Ce sont surtout des raisons théoriques qui nous ont fait choisir $ x_{(i)}$ plutôt que n'importe quel autre de ces points comme valeur de $ \widehat{Q}(i/n)$. Ce peut être un assez mauvais choix en pratique. Considérons l'échantillon suivant, de taille 6.

1,2,3,7,8,9.

La médiane telle que nous l'avons définie vaut 3. Or comme valeur centrale, le milieu de l'intervalle [3,7], à savoir 5, s'impose clairement. Dans le cas d'échantillons de taille paire, l'intervalle $ [x_{(n/2)},x_{(n/2+1)}]$ s'appelle l'intervalle médian, et on définit parfois la médiane comme le milieu de l'intervalle médian.

Ce problème ne se pose que dans le cas de petits échantillons, et pour les quantiles $ \widehat{Q}(u)$ pour lesquels $ u$ est de la forme $ i/n$ (le plus souvent la médiane). Nous le négligerons désormais et nous conserverons la définition 2.4.


Même sur de très gros échantillons, les quantiles sont peu coûteux à calculer puisqu'il suffit de trier l'échantillon par ordre croissant pour calculer les statistiques d'ordre, et donc tous les quantiles simultanément. Ils fournissent une visualisation facile de la distribution empirique. Nous avons vu que la médiane est une valeur centrale. Pour mesurer la dispersion, on peut calculer l'étendue , qui est la différence entre la plus petite et la plus grande valeur. Mais cette étendue reflète plus les valeurs extrêmes que la localisation de la majorité des données. On appréhende mieux la dispersion d'un échantillon par les intervalles inter-quartiles et inter-déciles.

Définition 2.6   On appelle intervalle inter-quartiles l'intervalle $ [\widehat{Q}(0.25), \widehat{Q}(0.75)]$, qui contient la moitié centrale des valeurs de l' échantillon. On appelle intervalle inter-déciles l'intervalle $ [\widehat{Q}(0.1), \widehat{Q}(0.9)]$, qui contient $ 80\%$ des valeurs centrales de l'échantillon.

Ces intervalles sont à la base d'une représentation très compacte de la distribution empirique : le diagramme en boîte (ou boîte à moustaches, box plot, box-and-whisker plot). Il n'y a pas de définition standardisée de cette représentation. Elle consiste en une boîte rectangulaire, dont les deux extrémités sont les quartiles. Ces extrémités se prolongent par des traits terminés par des segments orthogonaux (les moustaches). La longueur de ces segments varie selon les auteurs. Nous proposons de la fixer aux déciles extrêmes. On représente aussi la médiane par un trait dans la boîte, et parfois les valeurs extrêmes par des points (voir figure ci-dessous).



box-plot



Section : Distribution empirique
Précédent : Représentations graphiques
Suivant : Modèles probabilistes