Section : Hypothèses alternatives
Précédent : Tests paramétriques
Suivant : Fonction puissance

Test du rapport de vraisemblance

Nous reprenons le problème de tester deux hypothèses simples, quand le modèle est celui d'un échantillon $ (X_1,\ldots,X_n)$ d'une loi de probabilité inconnue $ P$ :

$\displaystyle {\cal H}_0\;:\;P=P_0$   contre$\displaystyle \quad
{\cal H}_1\;:\;P=P_1\;.
$

Les tests portant sur deux valeurs fixées d'un paramètre en sont un cas particulier. Considérons par exemple la série de 10 données binaires suivante :

$\displaystyle 0\;,\;1\;,\;1\;,\;0\;,\;1\;,\;1\;,\;1\;,\;0\;,\;0\;,\;1\;.
$

Le modèle est un échantillon de taille 10 de la loi de Bernoulli de paramètre $ p$, pour lequel nous souhaitons tester :

$\displaystyle {\cal H}_0\;:\;p=0.5$   contre$\displaystyle \quad
{\cal H}_1\;:\;p=0.8\;.
$

L'idée consiste à comparer les probabilités de l'observation sous chacune des deux hypothèses. Pour la loi de Bernoulli de paramère $ p$, la probabilité d'une observation comportant 6 ``1'' et 4 ``0'' est $ p^6(1-p)^4$ soit $ 9.8\,10^{-4}$ pour $ p=$0.5 et $ 4.2\,10^{-4}$ pour $ p=$0.8. Les deux sont faibles, mais le rapport est en faveur de $ {\cal H}_0$.

Définition 4.3   Soit $ P$ une loi de probabilité discrète, et $ (X_1,\ldots,X_n)$ un échantillon de la loi $ P$. On appelle vraisemblance la statistique :

$\displaystyle L(X_1,\ldots,X_n) = \prod_{i=1}^n P(X_i)\;.
$

L'interprétation est la suivante. Par définition, les variables aléatoires $ X_1,\ldots,X_n$ sont indépendantes et de même loi $ P$. Donc la probabilité que l'échantillon théorique $ (X_1,\ldots,X_n)$ ait pour réalisation l'échantillon observé $ (x_1,\ldots,x_n)$ est le produit des probabilités pour que $ X_i$ prenne la valeur $ x_i$, à savoir :

$\displaystyle \mathbb{P}[(X_1,\ldots,X_n)=(x_1,\ldots,x_n)] = L(x_1,\ldots,x_n)\;.
$

Dans le cas d'un modèle continu, la loi $ P$ a une densité sur $ \mathbb{R}$, et la probabilité pour que l'échantillon prenne une valeur particulière est toujours nulle. Il faut alors remplacer la probabilité $ P$ par sa densité dans la définition de la vraisemblance.

Définition 4.4   Soit $ P$ une loi de probabilité continue sur $ \mathbb{R}$ et $ (X_1,\ldots,X_n)$ un échantillon de la loi $ P$. Notons $ f$ la densité de probabilité de la loi $ P$. On appelle vraisemblance la statistique :

$\displaystyle L(X_1,\ldots,X_n) = \prod_{i=1}^n f(X_i)\;.
$

L'interprétation est la suivante. Soit $ \varepsilon$ un réel strictement positif (petit). La probabilité que l'échantillon $ (X_1,\ldots,X_n)$ ait une réalisation proche ``à $ \varepsilon$ près'' de l'échantillon observé $ (x_1,\ldots,x_n)$ peut s'écrire :

\begin{displaymath}\begin{array}{ccc}
\mathbb{P}\Big[X_1\in [x_1\!-\!\frac{\vare...
...epsilon\\
&=&
\varepsilon^n\,L(x_1,\ldots,x_n)\;.
\end{array}\end{displaymath}

Définition 4.5   Soit $ (X_1,\ldots,X_n)$ un échantillon de la loi $ P$. On souhaite tester

$\displaystyle {\cal H}_0\;:\;P=P_0$   contre$\displaystyle \quad
{\cal H}_1\;:\;P=P_1\;.
$

Soit $ L_0(X_1,\ldots,X_n)$ la vraisemblance de l'échantillon sous $ {\cal H}_0$ et $ L_1(X_1,\ldots,X_n)$ sa vraisemblance sous $ {\cal H}_1$. Posons :

$\displaystyle T = \frac{L_1(X_1,\ldots,X_n)}{L_0(X_1,\ldots,X_n)}\;.
$

On appelle test du rapport de vraisemblance de seuil $ \alpha$, le test défini par la règle de décision :

   Rejet de $\displaystyle {\cal H}_0\;\Longleftrightarrow\;
T > Q_0(1-\alpha)\;,
$

$ Q_0$ est la fonction quantile de $ T$ sous l'hypothèse $ {\cal H}_0$.

Dans le cas où la loi $ P$ est discrète, la loi de la statistique de test $ T$ l'est aussi, et la définition de la région de rejet pour une valeur fixée du seuil $ \alpha$ pose les problèmes habituels. En pratique, on se contentera de calculer la p-valeur.


Reprenons l'exemple d'un échantillon de la loi de Bernoulli, avec les deux hypothèses :

$\displaystyle {\cal H}_0\;:\;p=p_0$   contre$\displaystyle \quad
{\cal H}_1\;:\;p=p_1\;,
$

$ p_0<p_1$. La règle de décision est du type :

   Rejet de $\displaystyle {\cal H}_0\;\Longleftrightarrow\;
\frac{p_1^{\sum X_i}(1-p_1)^{n-\sum X_i}}
{p_0^{\sum X_i}(1-p_0)^{n-\sum X_i}} > l_0\;.
$

Comme souvent, on est amené à transformer la règle de décision par équivalences, pour se ramener à une statistique de test dont on sache calculer la loi.

\begin{displaymath}\begin{array}{ccc}
\mbox{Rejet de }{\cal H}_0&\Longleftrighta...
...i} >l_1\\
&\Longleftrightarrow&
\sum X_i > l_2\;.
\end{array}\end{displaymath}

La valeur $ l_2$ devra être telle que $ \mathbb{P}_{{\cal H}_0}[\sum X_i>l_2]
= \alpha$. Or $ \sum X_i$ suit la loi binomiale $ {\cal B}(n,p_0)$. On retrouve le test unilatéral à droite classique pour la valeur d'une probabilité. Comme application numérique, si $ p_0=$0.5 et $ p_1=$0.8, $ \sum X_i$ prend la valeur 6, la p-valeur est :

$\displaystyle 1-F_{{\cal B}(10,0.5)}(5) = 0.377\;.
$

On ne rejettera donc pas $ {\cal H}_0$.


Voici un autre exemple portant sur des lois continues (loi uniforme contre loi beta).

$\displaystyle {\cal H}_0\;:\;P={\cal U}(0,1)$   contre$\displaystyle \quad
{\cal H}_1\;:\;P={\cal B}(2,1)\;.
$

Les lois $ {\cal U}(0,1)$ et $ {\cal B}(2,1)$ ont pour densités respectives :

$\displaystyle f_0(x) =$   1$\displaystyle _{[0,1]}(x)$   et$\displaystyle \quad
f_1(x) = 2x$1$\displaystyle _{[0,1]}(x)\;.
$

La règle de décision du test du rapport de vraisemblance sera :

\begin{displaymath}\begin{array}{ccc}
\mbox{Rejet de }{\cal H}_0&\Longleftrighta...
...eftrightarrow&
\sum_{i=1}^n -\log(X_i) < l_3\;.\\
\end{array}\end{displaymath}

Or si $ X_i$ suit la loi $ {\cal U}(0,1)$ (hypothèse $ {\cal H}_0$), alors $ -\log(X_i)$ suit la loi exponentielle $ {\cal E}(1)$, et comme les $ X_i$ sont indépendantes, $ \sum -\log(X_i)$ suit la loi gamma $ {\cal G}(n,1)$. La règle de décision pour le test de seuil $ \alpha$ est donc :

   Rejet de $\displaystyle {\cal H}_0\;\Longleftrightarrow\;
\sum_{i=1}^n -\log(X_i) < Q_{{\cal G}(n,1)}(\alpha)\;.
$

L'avantage du test du rapport de vraisemblance (quand on peut le construire explicitement), est qu'il garantit la meilleure puissance possible, d'après le théorème de Neyman-Pearson :

Théorème 4.6   Le test du rapport de vraisemblance de seuil $ \alpha$ est plus puissant que tout test de seuil $ \alpha'\leq \alpha$, pour les deux hypothèses simples $ {\cal H}_0\,:\,P=P_0$ contre $ {\cal H}_1\,:\,P=P_1$.

Si $ \beta$ désigne le risque de deuxième espèce du test du rapport de vraisemblance, et $ \beta'$ celui d'un autre test des mêmes hypothèses, dire que le test du rapport de vraisemblance est plus puissant que l'autre revient à dire que $ \beta$ est inférieur à $ \beta'$.



Section : Hypothèses alternatives
Précédent : Tests paramétriques
Suivant : Fonction puissance