Nous considérons dans ce paragraphe le problème de tester l'indépendance
de deux
caractères
binaires, indicateurs de deux évènements distincts.
C'est un cas que l'on rencontre en médecine,
chaque fois qu'est posé le problème d'une détection
thérapeutique. Appelons (pour maladie) le premier évènement,
et
(pour symptôme) le second. Le symptôme peut être un taux
élevé d'une certaine substance ou la réaction positive à un
test
de dépistage, comme un alcootest. Sur chaque
individu
d'une
population
de taille
, on a observé la présence ou l'absence de
la maladie et du symptôme. On dispose donc des
résultats suivants.
L'hypothèse nulle est :
Le
test du chi-deux de contingence,
vu au paragraphe précédent est un des moyens
de tester
. Il
présente l'inconvénient de ne pas distinguer une tendance
positive (le symptôme est en faveur de la maladie) d'une
dépendance négative.
On utilise aussi le
rapport de cotes
(odds-ratio en anglais). La
cote (au sens des parieurs) d'un évènement est le rapport de
la
probabilité
de l'évènement à celle de son complémentaire.
La cote de la maladie peut se calculer parmi les individus ayant le
symptôme (
) et parmi ceux qui ne l'ont
pas (
). Le
rapport de cotes
théorique est le quotient de ces deux quantités.
Le rapport de cotes vaut1 si la maladie et le symptôme sont indépendants, il est supérieur à1 si le symptôme est en faveur de la maladie. Quand des observations ont été menées sur un échantillon, on peut approcher les probabilités théoriques par des fréquences expérimentales. Ceci conduit à la définition du rapport de cotes empirique.
Exemple : Reprenons les données du paragraphe précédent.
La cote (empirique) des névroses parmi les individus ayant des tendances suicidaires est :
Le rapport de cotes empirique vaut :
Il y a une dépendance positive entre les tendances suicidaires et
les névroses. La question est de savoir si
cette dépendance est significative. Il est difficile d'expliciter
la
loi de probabilité
du
rapport de cotes
sous l'hypothèse
, autrement que par
simulation.
Pour de grands
échantillons,
on utilise le résultat asymptotique suivant.
Dans notre exemple, la
statistique
prend la valeur
. Sa
p-valeur
est :