Section : Données bidimensionnelles
Précédent : Régressions multiples
Suivant : Tableau de contingence

Rapport de cotes

Ce paragraphe traite uniquement du cas de deux caractères binaires, indicateurs de deux évènements différents dont on souhaite étudier la dépendance. C'est un cas que l'on rencontre en médecine, chaque fois qu'est posé le problème d'une détection thérapeutique. Appelons $ M$ (pour maladie) le premier évènement, et $ S$ (pour symptôme) le second. Le symptôme peut être un taux élevé d'une certaine substance ou la réaction positive à un test de dépistage, comme un alcootest. Sur chaque individu d'une population de taille $ n$, on a observé la présence ou l'absence de la maladie et du symptôme. On dispose donc des 4 résultats suivants.

$ \bullet$
$ n_{MS}$ : nombre d'individus malades et présentant le symptôme,
$ \bullet$
$ n_{M\overline{S}}$ : nombre d'individus malades ne présentant pas le symptôme,
$ \bullet$
$ n_{\overline{M}S}$ : nombre d'individus non malades et présentant le symptôme,
$ \bullet$
$ n_{\overline{M}\,\overline{S}}$ : nombre d'individus non malades ne présentant pas le symptôme.

Le problème est d'extraire de ces données de quoi étayer un diagnostic : avec quelle certitude peut-on annoncer à un individu qu'il est malade si on a constaté le symptôme sur lui ? En d'autres termes, peut-on donner une valeur à la probabilité conditionnelle qu'un individu soit malade sachant qu'il a le symptôme. Cette probabilité théorique, notée $ P[M\,\vert\,S]$ s'appelle la valeur prédictive positive du symptôme. On peut la relier à d'autres quantités par la formule de Bayes :

$\displaystyle P[M\,\vert\,S] = \frac{P[S\,\vert\,M]P[M]}{P[S\,\vert\,M]P[M]+P[S\,\vert\,\overline{M}]
P[\overline{M}]}\;.
$

La probabilité $ P[M]$, qui représente la proportion de malades dans la population est souvent très faible et difficile à estimer de façon fiable. Une des raisons est que la maladie n'est détectée que parmi les personnes qui se présentent à une consultation, et qui par là même ne sont pas représentatives de l'ensemble de la population. Dans l'exemple de l'alcootest il est même impossible de définir la proportion des individus qui ont trop bu, car elle dépend de l'heure de la journée, du lieu, etc... Les probabilités conditionnelles du symptôme sachant la maladie sont en général les seules accessibles.

Définition 3.7   On appelle :
$ \bullet$
sensibilité la probabilité conditionnelle $ P[S\,\vert\,M]$ (probabilité qu'un individu malade ait le symptôme),
$ \bullet$
spécificité la probabilité conditionnelle $ P[\overline{S}\,\vert\,\overline{M}]$ (probabilité qu'un individu non malade n'ait pas le symptôme).

Dans un cas idéal, ces deux quantités devraient valoir 1. Un alcootest parfait devrait être positif sur tout individu ayant trop bu, et ne jamais accuser à tort un conducteur sobre. En pratique, la sensibilité et la spécificité sont souvent élevées, avec des différences importantes selon les tests. Pour une maladie sans traitement connu, il est plus grave d'alarmer à tort une personne non atteinte, que de ne pas détecter un patient atteint. On choisira donc des tests à très forte spécificité, quitte à ce que leur sensibilité soit moins bonne. A l'inverse, pour une maladie potentiellement grave mais facilement soignable, on utilisera des tests à forte sensibilité.

Une forte sensibilité et une forte spécificité ne garantissent pas que la valeur prédictive positive soit bonne, si la proportion de malades est faible. Supposons par exemple $ P[S\,\vert\,M]=P[\overline{S}\,\vert\,\overline{M}]=0.9$ et $ P[M] = 0.01$. D'après la formule de Bayes, la valeur prédictive positive vaut :

$\displaystyle P[M\,\vert\,S] = \frac{0.9\;0.01}{0.9\;0.01 + 0.1\;0.99} = \frac{1}{12}\;.
$

Concrètement, sur 12 personnes présentant le symptôme, 11 ne sont pas malades. Si on s'arrête à ce chiffre, il semble inquiétant. Mais si on calcule de même $ P[M\,\vert\,\overline{S}]$, on trouve 1/892. La proportion de malades parmi les individus qui présentent le symptôme est tout de même beaucoup plus forte que parmi les autres. On dira que le symptôme est en faveur de la maladie. La question se pose donc d'évaluer l'efficacité du symptôme dans la détection de la maladie, par un nombre qui ne dépende pas de $ P[M]$.

On utilise pour cela le rapport de cotes (odds-ratio en anglais). La cote (au sens des parieurs) d'un évènement est le rapport de la probabilité de l'évènement à celle de son complémentaire. La cote de la maladie peut se calculer parmi les individus ayant le symptôme ( $ P[M\,\vert\,S]/P[\overline{M}\,\vert\,S]$) et parmi ceux qui ne l'ont pas ( $ P[M\,\vert\,\overline{S}]/P[\overline{M}\,\vert\,\overline{S}]$). Le rapport de cotes théorique est le quotient de ces deux quantités.

$\displaystyle RC = \frac{P[M\,\vert\,S]/P[\overline{M}\,\vert\,S]}{
P[M\,\vert\...
...overline{M}\cap\overline{S}]}{
P[\overline{M}\cap S]\,P[M\cap\overline{S}]}\;.
$

Le rapport de cotes vaut 1 si la maladie et le symptôme sont indépendants, il est supérieur à 1 si le symptôme est en faveur de la maladie. Quand des observations ont été menées sur un échantillon, on peut approcher les probabilités théoriques par des fréquences expérimentales. Ceci conduit à la définition du rapport de cotes empirique.

Définition 3.8   On appelle rapport de cotes empirique la quantité :

$\displaystyle \mathop{\widehat{RC}} = \frac{n_{MS}\, n_{\overline{M}\,\overline{S}} }{
n_{\overline{M}S}\,n_{M\overline{S}}}\;.
$

Quand le dénominateur est nul, on convient de remplacer la définition de $ \widehat{RC}$ par :

$\displaystyle \widehat{RC} = \frac{(n_{MS}+0.5)\, (n_{\overline{M}\,\overline{S}}+0.5) }{
(n_{\overline{M}S}+0.5)\,(n_{M\overline{S}}+0.5)}\;.
$


Exemple : Supposons que pour un échantillon de $ n=10000$ individus, la répartition soit la suivante :

 
$ M$
$ \overline{M}$
total
$ S$
90
990
1080
$ \overline{S}$
10
8910
8920
total
100
9900
10000
La cote (empirique) des malades parmi les individus ayant le symptôme est :

$\displaystyle \frac{n_{MS} / n_S}{n_{\overline{M}S} / n_S} = \frac{1}{11}\;.
$

Il y a 1 malade pour 11 non malades parmi les individus ayant le symptôme. Pour ceux qui n'ont pas le symptôme, la cote est :

$\displaystyle \frac{n_{M\overline{S}} / n_{\overline{S}} }{
n_{\overline{M}\,\overline{S}} / n_{\overline{S}}} = \frac{1}{891}\;.
$

Il y a 1 malade pour 891 non malades parmi les individus n'ayant pas le symptôme. Le rapport de cotes empirique vaut :

$\displaystyle \widehat{RC} = \frac{1/11}{1/891} = 81\;.
$

Le symptôme est donc bien en faveur de la maladie.



Section : Données bidimensionnelles
Précédent : Régressions multiples
Suivant : Tableau de contingence