Section : Hypothèses alternatives
Précédent : Risques et puissance
Suivant : Test du rapport de vraisemblance

Tests paramétriques

Nous nous plaçons dans le cas le plus fréquent où les données sont modélisées par un échantillon d'une certaine loi inconnue. Nous avons jusqu'ici considéré des hypothèses portant sur une seule loi $ P$, ce qui permettait de déterminer la loi d'une statistique de test, fonction de l'échantillon, et donc de calculer des probabilités d'erreurs (seuil ou risques). Quand une hypothèse porte sur une seule loi, elle est dite simple. Dans le cas contraire, elle est dite composée.

Souvent, le modèle pré-suppose que la loi inconnue appartient à une certaine famille de lois fixée, dépendant d'un ou plusieurs paramètres (lois binomiales, lois normales...). Nous noterons $ \theta$ le paramètre et $ P_\theta$ la loi inconnue. Un test portant sur les valeurs de $ \theta$ est dit paramétrique. Une hypothèse simple sera du type $ \theta=\theta_0$, où $ \theta_0$ est une valeur fixée. Les hypothèses composées seront du type $ \theta<\theta_0$, $ \theta>\theta_0$ ou $ \theta\neq\theta_0$.


Pour tester la valeur d'un paramètre, le plus logique consiste à utiliser comme statistique de test un estimateur convergent de ce paramètre. Un estimateur convergent est une statistique (fonction de l'échantillon), qui prend des valeurs d'autant plus proches de $ \theta$ que la taille de l'échantillon est grande. Si $ T$ est un estimateur convergent de $ \theta$, alors sous l'hypothèse $ {\cal H}_0\,:\,\theta=\theta_0$, $ T$ doit prendre des valeurs proches de $ \theta_0$. On rejettera $ {\cal H}_0$ quand $ T$ prend des valeurs trop éloignées de $ \theta_0$.

Prenons le cas de deux hypothèses simples :

$\displaystyle {\cal H}_0\;:\;\theta=\theta_0$   contre$\displaystyle \quad
{\cal H}_1\;:\;\theta=\theta_1\;.
$

Si $ \theta_0<\theta_1$, le test sera unilatéral à droite (rejet des valeurs de $ T$ trop grandes). Mais la définition du test ne fait pas intervenir $ \theta_1$ : il sera le même pour toute valeur $ \theta_1>\theta_0$, et aussi pour :

$\displaystyle {\cal H}_0\;:\;\theta=\theta_0$   contre$\displaystyle \quad
{\cal H}_1\;:\;\theta>\theta_0\;,
$

de même que pour :

$\displaystyle {\cal H}_0\;:\;\theta\leq\theta_0$   contre$\displaystyle \quad
{\cal H}_1\;:\;\theta>\theta_0\;.
$

Dans ce dernier cas, l'hypothèse $ {\cal H}_0$ étant composée, le seuil sera défini comme la probabilité maximale de rejeter $ {\cal H}_0$ à tort.

On utilisera un test bilatéral pour tester :

$\displaystyle {\cal H}_0\;:\;\theta=\theta_0$   contre$\displaystyle \quad
{\cal H}_1\;:\;\theta\neq\theta_0\;.
$


Une manière fréquemment employée de définir un test paramétrique à partir d'une estimation de $ \theta$ est d'utiliser un intervalle de confiance.

Définition 4.1   Soit $ (X_1,\ldots,X_n)$ un échantillon de la loi $ P_\theta$. On appelle intervalle de confiance de niveau $ 1\!-\!\alpha$ un intervalle aléatoire $ [T_1,T_2]$, où $ T_1\leq T_2$ sont deux statistiques, fonction de l'échantillon, telles que :

$\displaystyle \mathbb{P}[\, \theta\in[T_1\,,\, T_2]\,]= 1-\alpha\;.
$

Un intervalle de confiance contient donc la valeur du paramètre avec une forte probabilité. Si l'hypothèse $ {\cal H}_0\,:\,\theta=\theta_0$ est vraie, l'intervalle de confiance doit contenir $ \theta_0$.

Proposition 4.2   Soit $ [T_1,T_2]$ un intervalle de confiance de niveau $ 1\!-\!\alpha$ pour $ \theta$. On définit un test de seuil $ \alpha$ pour l'hypothèse $ {\cal H}_0\,:\,\theta=\theta_0$ par la règle de décision :

   Rejet de $\displaystyle {\cal H}_0\;\Longleftrightarrow\;
\theta_0\notin[T_1,T_2]\;.
$

Considérons le cas d'un échantillon de la loi exponentielle $ {\cal E}(\lambda)$. Nous souhaitons un test bilatéral de l'hypothèse $ {\cal H}_0\,:\,\lambda=1$. L'estimateur naturel de $ \lambda$ est l'inverse de la moyenne empirique $ T=1/\overline{X}$. Pour un échantillon de la loi $ {\cal E}(\lambda)$, la moyenne empirique $ \overline{X}$ suit la loi gamma $ {\cal G}(n,n\lambda)$, donc la variable aléatoire $ \lambda/T$ suit la loi gamma $ {\cal G}(n,n)$. On en déduit que l'intervalle suivant est un intervalle de confiance de niveau $ 1\!-\!\alpha$ pour $ \lambda$.

$\displaystyle [\,T\,Q_{{\cal G}(n,n)}(\alpha/2)\,,\,T\,Q_{{\cal G}(n,n)}(1-\alpha/2)\,]\;.
$

La règle de décision pour le test de seuil $ \alpha$ déduit de cet intervalle de confiance sera donc :

\begin{displaymath}\begin{array}{ccc}
\mbox{Rejet de }{\cal H}_0&\Longleftrighta...
...-\alpha/2)\,,\,1/Q_{{\cal G}(n,n)}(\alpha/2)\,]
\;.
\end{array}\end{displaymath}

Dans ce cas le test basé sur l'intervalle de confiance est donc équivalent au test basé sur l'intervalle de dispersion symétrique de la loi de $ T$ sous $ {\cal H}_0$ (mais il n'en est pas toujours de même).



Section : Hypothèses alternatives
Précédent : Risques et puissance
Suivant : Test du rapport de vraisemblance