Section : Variables aléatoires
Précédent : Fonction de répartition
Suivant : Espérance

Fonction quantile

La fonction quantile d'une variable aléatoire (ou d'une loi de probabilité) est l'inverse de sa fonction de répartition. Quand cette fonction de répartition est strictement croissante, son inverse est définie sans ambigüité. Mais une fonction de répartition reste constante sur tout intervalle dans lequel la variable aléatoire ne peut pas prendre de valeurs. C'est pourquoi on introduit la définition suivante.

Définition 3.8   Soit $ X$ une variable aléatoire à valeurs dans $ \mathbb{R}$, et $ F_X$ sa fonction de répartition. On appelle fonction quantile de $ X$ la fonction, notée $ Q_X$, de $ ]0,1[$ dans $ \mathbb{R}$, qui à $ u\in ]0,1[$ associe :

$\displaystyle Q_X(u) = \inf\{x$ t.q. $\displaystyle F_X(x)\geq u\}\;.
$

Par convention, on peut décider que $ Q_X(0)$ est la plus petite des valeurs possibles pour $ X$ et $ Q_X(1)$ est la plus grande (elles sont éventuellement infinies).


Lois discrètes. La fonction quantile d'une variable aléatoire discrète est une fonction en escalier, comme la fonction de répartition. Si $ X$ prend les valeurs $ x_k\,,\;i=1,2\ldots$, rangées par ordre croissant, la fonction de répartition est égale à :

$\displaystyle F_k = P[X=x_1]+\cdots+P[X=x_k]\;,
$

sur l'intervalle $ [x_k,x_{k+1}[$. La fonction quantile vaut :

\begin{displaymath}
Q_X(u)=\left\{
\begin{array}{lcl}
x_1&&\mbox{pour } u\in ]0,...
...mbox{pour } u\in ]F_k,F_{k+1}]\\
&\vdots&
\end{array}\right.
\end{displaymath}

Par exemple, pour la loi géométrique $ {\cal G}(p)$, la fonction quantile est la fonction qui, pour tout $ k=1,2,\ldots$, vaut $ k$ sur l'intervalle $ ]1-(1\!-\!p)^{k-1},1-(1\!-\!p)^k]$.


Lois continues. Plaçons-nous dans le cas le plus fréquent, où la densité $ f_X$ est strictement positive sur un intervalle de $ \mathbb{R}$ (son support) et nulle ailleurs. Si l'intervalle est $ [a,b]$, la fonction de répartition est nulle avant $ a$ si $ a$ est fini, elle est strictement croissante de 0 à 1 entre $ a$ et $ b$, elle vaut 1 après $ b$ si $ b$ est fini. Toute valeur $ u$ strictement comprise entre 0 et 1 est prise une fois et une seule par $ F_X$. La valeur de $ Q_X(u)$ est le point $ x$ unique, compris entre $ a$ et $ b$, tel que $ F_X(x) = u$.

Calculons par exemple la fonction quantile de la loi exponentielle $ {\cal E}(\lambda )$, de fonction de répartition $ (1-e^{-\lambda x})$1$ _{\mathbb{R}^+}(x)$. Pour tout $ u\in ]0,1[$,

$\displaystyle (1-e^{-\lambda x}) = u\;\Longleftrightarrow x=Q_X(u) =
-\frac{1}{\lambda}\log(1-u)\;.
$


La fonction quantile est un moyen de décrire la dispersion d'une loi. Si on réalise un grand nombre de tirages indépendants de la même loi (un échantillon), on doit s'attendre à ce qu'une proportion $ u$ des valeurs soient inférieures à $ Q_X(u)$. Une valeur importante est la médiane , $ Q_X(0.5)$. Les fonctions quantiles sont souvent utilisées en statistiques. On calcule en particulier fréquemment des intervalles de dispersion, compris comme devant contenir une forte proportion des données.

Définition 3.9   Soit $ X$ une variable aléatoire et $ \alpha$ un réel compris entre 0 et 1. On appelle intervalle de dispersion de niveau $ 1\!-\alpha$ tout intervalle de la forme :

$\displaystyle [\,Q_X(\beta),Q_X(1-\alpha+\beta)\,]\;,$   avec $\displaystyle 0\leq \beta\leq \alpha\;.
$

En statistiques, les réels $ \alpha$ compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs $ 0.05$ et $ 0.01$, plus rarement $ 0.02$, $ 0.005$ ou $ 0.001$. Il faut donc lire $ \alpha$ comme "une faible proportion", et $ 1\!-\!\alpha$ comme "une forte proportion". Un intervalle de dispersion de niveau $ 1\!-\!\alpha$ pour $ X$ est tel que $ X$ appartient à cet intervalle avec probabilité $ 1\!-\!\alpha$, il contient donc une forte proportion de la densité, même s'il est en général beaucoup plus petit que le support de la loi. Il existe en général une infinité d' intervalles de dispersion de niveau donné. En voici quelques uns, de niveau $ 0.99$ pour la loi normale $ {\cal N}(0,1)$.

$ \beta$
$ Q_X(\beta)$
$ Q_X(0.99+\beta)$
0
$ -\infty$
2.3263
0.002
-2.8782
2.4089
0.005
-2.5758
2.5758
0.008
-2.4089
2.8782
0.01
-2.3263
$ +\infty$

Selon les valeurs de $ \beta$, on dit qu'un intervalle de dispersion de niveau $ 1\!-\!\alpha$ est :

$ \bullet$
unilatéral inférieur si $ \beta=0$,
$ \bullet$
unilatéral supérieur si $ \beta=\alpha$,
$ \bullet$
symétrique si $ \beta=\alpha/2$,
$ \bullet$
optimal si son amplitude est la plus courte parmi tous les intervalles de dispersion de niveau $ 1\!-\!\alpha$.
Déterminer un intervalle de dispersion optimal requiert en général un calcul particulier, sauf dans le cas où la loi est symétrique, comme une loi normale ou une loi de Student. On dit que la loi de $ X$ est symétrique si pour tout $ u\in [0,1]$,

$\displaystyle Q_X(u) - Q_X(0.5) = Q_X(0.5) - Q_X(1-u)\;.
$

On démontre que si la loi de $ X$ est symétrique, alors l'intervalle de dispersion symétrique est optimal.


Une autre application importante de la fonction quantile est la méthode d'inversion qui est une méthode générale, consistant à simuler une variable aléatoire de loi quelconque, en composant un appel de Random avec sa fonction quantile.

Proposition 3.10   Soit $ F$ une fonction de répartition sur $ \mathbb{R}$, $ Q$ la fonction quantile. correspondante, et $ U$ une variable aléatoire de loi uniforme sur $ [0,1]$. La variable aléatoire $ X=Q(U)$ a pour fonction de répartition $ F$.

Démonstration  : Pour tout $ x\in \mathbb{R}$, on a :
$\displaystyle P[X\leq x]$ $\displaystyle =$ $\displaystyle P[Q(U)\leq x]$  
  $\displaystyle =$ $\displaystyle P[\,\inf\,\{y\; ;\; F(y)\geq U\}\leq x\,]$  
  $\displaystyle =$ $\displaystyle P[\,U\leq F(x)\,]$  
  $\displaystyle =$ $\displaystyle F(x)\;.$  

$ \square$


Exemple  : La fonction quantile de la loi exponentielle $ {\cal E}(\lambda )$ associe à $ u\in ]0,1[$ la valeur

$\displaystyle Q(u)=-\frac{1}{\lambda}\log (1-u)\;.
$

D'où l'algorithme de simulation  :


$ X\longleftarrow -\log ($ Random $ )/\lambda\;.$

(Il est inutile de calculer $ -\log (1\!-\!$ Random $ )/\lambda$ car Random et $ 1-$ Random suivent la même loi).


La méthode d'inversion n'est exacte qu'à condition de connaître l'expression explicite de $ F^{-1}$, comme pour la loi exponentielle. C'est rarement le cas. Si on veut appliquer la méthode à la loi normale par exemple, il faudra utiliser un algorithme d'approximation. En plus de l'imprécision, la méthode d'inversion sera alors relativement lente. Même quand on connaît explicitement $ F^{-1}$, la méthode d'inversion est rarement la plus efficace pour les variables à densité. Elle convient par contre bien à de nombreuses loi discrètes.

Supposons que $ X$ prenne les valeurs $ \{x_1, x_2,\ldots\}$, rangées par ordre croissant. Notons $ F_k$ la valeur de la fonction de répartition sur l'intervalle $ [x_k,x_{k+1}[$. L'algorithme de simulation par inversion est le suivant.


$ k\longleftarrow 1$
$ U \longleftarrow $ Random
TantQue ($ U > F_k$) faire
$ k\longleftarrow k+1$
finTantQue
$ X\longleftarrow x_k$

Modifions légèrement cet l'algorithme en lui rajoutant une interpolation linéaire. Quand $ U$ tombe dans l'intervalle $ ]F_{k-1},F_k]$, au lieu de retourner $ x_k$ comme précédemment, nous retournons :

$\displaystyle x_{k-1}+(x_k-x_{k-1})*
\frac{U-F_{k-1}}{F_k-F_{k-1}}
\;.
$

Ceci revient à remplacer la fonction de répartition en escalier par une fonction de répartition linéaire par morceaux, passant par les points $ (x_k, F_k)$. La distribution de probabilité correspondante admet pour densité une fonction en escalier (constante sur les intervalles $ ]x_{k-1},x_k[$). C'est un histogramme.



Section : Variables aléatoires
Précédent : Fonction de répartition
Suivant : Espérance