Test du rapport de cotes

Section : Tests non paramétriques
Précédent : Test du chi-deux
Suivant : Tests de Wilcoxon et Mann-Whitney

Test du rapport de cotes

Nous considérons dans ce paragraphe le problème de tester l'indépendance de deux caractères binaires, indicateurs de deux évènements distincts. C'est un cas que l'on rencontre en médecine, chaque fois qu'est posé le problème d'une détection thérapeutique. Appelons (pour maladie) le premier évènement, et (pour symptôme) le second. Le symptôme peut être un taux élevé d'une certaine substance ou la réaction positive à un test de dépistage, comme un alcootest. Sur chaque individu d'une population de taille , on a observé la présence ou l'absence de la maladie et du symptôme. On dispose donc des résultats suivants.

$\bullet$: $n_{MS}$ : nombre d'individus malades et présentant le symptôme,
$\bullet$: $n_{M\overline{S}}$ : nombre d'individus malades ne présentant pas le symptôme,
$\bullet$: $n_{\overline{M}S}$ : nombre d'individus non malades et présentant le symptôme,
$\bullet$: $n_{\overline{M}\,\overline{S}}$ : nombre d'individus non malades ne présentant pas le symptôme.

Le problème est d'extraire de ces données de quoi étayer un diagnostic : peut-on annoncer à un individu qu'il est malade si on a constaté le symptôme sur lui ?

L'hypothèse nulle est :

$\displaystyle {\cal H}_0\;:\;$ les évènements

sont indépendants. $\displaystyle$

Le test du chi-deux de contingence, vu au paragraphe précédent est un des moyens de tester ${\cal H}_0$ . Il présente l'inconvénient de ne pas distinguer une tendance positive (le symptôme est en faveur de la maladie) d'une dépendance négative. On utilise aussi le rapport de cotes (odds-ratio en anglais). La cote (au sens des parieurs) d'un évènement est le rapport de la probabilité de l'évènement à celle de son complémentaire. La cote de la maladie peut se calculer parmi les individus ayant le symptôme ( $P[M\,\vert\,S]/P[\overline{M}\,\vert\,S]$ ) et parmi ceux qui ne l'ont pas ( $P[M\,\vert\,\overline{S}]/P[\overline{M}\,\vert\,\overline{S}]$ ). Le rapport de cotes théorique est le quotient de ces deux quantités.

$\displaystyle RC = \frac{P[M\,\vert\,S]/P[\overline{M}\,\vert\,S]}{ P[M\,\vert\... ...overline{M}\cap\overline{S}]}{ P[\overline{M}\cap S]\,P[M\cap\overline{S}]}\;.$

Le rapport de cotes vaut1 si la maladie et le symptôme sont indépendants, il est supérieur à1 si le symptôme est en faveur de la maladie. Quand des observations ont été menées sur un échantillon, on peut approcher les probabilités théoriques par des fréquences expérimentales. Ceci conduit à la définition du rapport de cotes empirique.

Définition 2.6 On appelle rapport de cotes empirique la quantité :

$\displaystyle \mathop{\widehat{RC}} = \frac{n_{MS}\, n_{\overline{M}\,\overline{S}} }{ n_{\overline{M}S}\,n_{M\overline{S}}}\;.$

Quand le dénominateur est nul, on convient de remplacer la définition de $\widehat{RC}$ par :

$\displaystyle \widehat{RC} = \frac{(n_{MS}+0.5)\, (n_{\overline{M}\,\overline{S}}+0.5) }{ (n_{\overline{M}S}+0.5)\,(n_{M\overline{S}}+0.5)}\;.$

Exemple : Reprenons les données du paragraphe précédent.

	tendance	sans tendance	total
psychoses	20	180	200
névroses	60	140	200
total	80	320	400

La cote (empirique) des névroses parmi les individus ayant des tendances suicidaires est :

$\displaystyle \frac{n_{MS} / n_S}{n_{\overline{M}S} / n_S} = \frac{60}{20}\;.$

Pour ceux qui n'ont pas ces tendances, la cote est :

$\displaystyle \frac{n_{M\overline{S}} / n_{\overline{S}} }{ n_{\overline{M}\,\overline{S}} / n_{\overline{S}}} = \frac{140}{180}\;.$

Le rapport de cotes empirique vaut :

$\displaystyle \widehat{RC} = \frac{60/20}{140/180} = 3.857\;.$

Il y a une dépendance positive entre les tendances suicidaires et les névroses. La question est de savoir si cette dépendance est significative. Il est difficile d'expliciter la loi de probabilité du rapport de cotes sous l'hypothèse ${\cal H}_0$ , autrement que par simulation. Pour de grands échantillons, on utilise le résultat asymptotique suivant.

Théorème 2.7 Notons

la variable aléatoire égale à la somme des inverses des quatre coefficients.

$\displaystyle V = \frac{1}{n_{MS}}+\frac{1}{n_{\overline{M}S}} +\frac{1}{n_{M\overline{S}}}+\frac{1}{n_{\overline{M}\overline{S}}}\;.$

Sous l'hypothèse d'indépendance ${\cal H}_0$ , la loi de la variable aléatoire :

$\displaystyle T=\frac{\log(\widehat{RC})}{\sqrt{V}}\;,$

converge vers la loi normale ${\cal N}(0,1)$ .

Dans notre exemple, la statistique prend la valeur . Sa p-valeur est :

$\displaystyle 1-F_{{\cal N}(0,1)}(4.7918) = 8.266\,10^{-7}\;.$

On peut donc conclure à une dépendance positive entre tendances suicidaires et névroses.

Section : Tests non paramétriques
Précédent : Test du chi-deux
Suivant : Tests de Wilcoxon et Mann-Whitney