Nous nous plaçons dans le cas le plus fréquent
où les
données
sont modélisées par un
échantillon
d'une certaine loi inconnue. Nous avons jusqu'ici considéré des
hypothèses
portant sur une seule loi , ce qui permettait de déterminer
la loi d'une
statistique de test,
fonction de
l'échantillon,
et donc
de calculer des
probabilités
d'erreurs (seuil ou risques). Quand une
hypothèse
porte sur une seule loi, elle est dite simple. Dans le
cas contraire, elle est dite composée.
Souvent, le
modèle
pré-suppose que la loi inconnue appartient à une
certaine famille de lois fixée, dépendant d'un ou plusieurs paramètres
(lois binomiales, lois normales...). Nous noterons le paramètre
et
la loi inconnue. Un
test
portant sur les valeurs de
est dit paramétrique. Une
hypothèse
simple sera du type
, où
est une valeur fixée. Les
hypothèses
composées seront du type
,
ou
.
Pour tester la valeur d'un paramètre, le plus logique consiste à utiliser
comme
statistique de test
un
estimateur convergent
de ce paramètre.
Un
estimateur convergent
est une
statistique
(fonction de l'échantillon),
qui prend des valeurs d'autant plus proches de que la taille
de
l'échantillon
est grande. Si
est un
estimateur convergent
de
, alors sous
l'hypothèse
,
doit prendre des valeurs proches de
. On rejettera
quand
prend des valeurs trop éloignées de
.
Prenons le cas de deux hypothèses simples :
Si
, le
test
sera
unilatéral
à droite (rejet des
valeurs de
trop grandes). Mais la définition du
test
ne fait pas
intervenir
: il sera le même pour toute valeur
, et aussi pour :
Dans ce dernier cas,
l'hypothèse
étant composée,
le
seuil
sera défini comme la
probabilité
maximale de rejeter
à tort.
On utilisera un test bilatéral pour tester :
Une manière fréquemment employée de définir un test
paramétrique à partir d'une
estimation
de est d'utiliser un
intervalle de confiance.
Un
intervalle de confiance
contient donc la valeur du
paramètre avec une forte
probabilité.
Si
l'hypothèse
est vraie,
l'intervalle de confiance
doit contenir
.
Considérons le cas d'un
échantillon
de la
loi exponentielle
. Nous souhaitons un
test
bilatéral
de
l'hypothèse
.
L'estimateur
naturel de
est
l'inverse de la
moyenne empirique
. Pour un échantillon
de la loi
, la
moyenne empirique
suit
la
loi gamma
, donc la
variable aléatoire
suit la
loi gamma
. On en déduit
que l'intervalle suivant est un
intervalle de confiance
de niveau
pour
.
La
règle de décision
pour le
test
de
seuil
déduit
de cet
intervalle de confiance
sera donc :
Dans ce cas le
test
basé sur
l'intervalle de confiance
est donc
équivalent au
test
basé sur
l'intervalle de dispersion
symétrique
de la loi de sous
(mais il n'en est pas toujours de même).