Section : Statistiques de test
Précédent : Statistiques de test
Suivant : Règles de décision

Modèles probabilistes réfutables

Supposons qu'un laboratoire souhaite mettre sur le marché un nouveau type de médicament. Avant de le proposer à l'ensemble de la population, une série d'essais cliniques sont effectués. Ils visent à observer l'effet du médicament sur un groupe de malades, en le comparant éventuellement à l'effet d'autres traitements. Pour simplifier, supposons que le nouveau médicament ait guéri 87 malades dans un premier groupe de 100, alors que le traitement traditionnel a guéri 74 malades sur les 100 d'un groupe témoin. L'amélioration est-elle suffisante pour lancer le médicament ? On ne pourra prendre une décision qu'en supposant que les 200 individus observés sont représentatifs de l'ensemble des personnes que l'on aura à traiter, et que les résultats auraient été peu différents sur un autre groupe. La modélisation consiste à supposer que les réactions des individus aux traitements sont des réalisations de variables aléatoires. C'est le postulat de base en statistique :

Les données observées sont des réalisations de variables aléatoires.

Une série de données statistiques se présente sous la forme d'un $ n$-uplet de valeurs, observées sur une certaine population d'individus. La modélisation intervient quand on souhaite utiliser ces valeurs pour émettre des conclusions destinées à des individus pour lesquels les observations n'ont pas encore été faites. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d'extraire des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une décision.


Une fois admis le postulat de base, les hypothèses de modélisation sont des affirmations portant sur la loi de probabilité du $ n$-uplet de variables aléatoires modélisant les observations. Selon les situations, quelques-unes de ces hypothèses paraîtront naturelles et ne seront pas soumises à validation. Par exemple, quand on observe un caractère statistique sur une population, si l'ordre dans lequel on prend les individus n'a pas d'importance, on choisira de considérer que les données sont des réalisations de variables aléatoires indépendantes et de même loi.

Définition 1.1   Soit $ P$ une loi de probabilité sur $ \mathbb{R}$. On appelle échantillon de la loi $ P$ un $ n$-uplet de variables aléatoires indépendantes et de même loi $ P$.

Dans le cas du nouveau médicament à tester, on considèrera probablement que les individus sont indépendants et que leur réponse (guérison ou non) est une variable binaire (1 ou 0). On est donc ramené à un échantillon d'une loi de Bernoulli. L'hypothèse que le laboratoire cherche à valider est que le paramètre de la loi de Bernoulli (probabilité de guérison) pour le nouveau médicament est supérieur à celui de l'ancien traitement.


Toute démarche scientifique consiste à proposer des théories, qui sont ensuite confirmées ou réfutées. Une théorie émet des prédictions sur le résultat d'expériences ou de mesures futures. Qu'une seule de ces prédictions s'avère fausse, et c'est toute la théorie qui est réfutée. En revanche, une prédiction qui s'avère exacte ne fait que conforter la théorie, qui ne pourra jamais être définitivement prouvée. En statistique les théories sont des modèles probabilistes, qui en général ne peuvent pas être réfutés : aucun résultat observé n'est jamais totalement incompatible avec le modèle. Dans le cas du médicament, il n'est pas impossible que par le fait du hasard, aucun des individus traités ne guérisse. C'est seulement très peu vraisemblable. Comme il serait suspect, mais pas exclu, que tous les individus guérissent sans exception. L'objet des tests statistiques est de distinguer ce qui est plausible de ce qui est trop peu vraisemblable.


Les prédictions émises par une théorie en sont des conséquences particulières. Considérons par exemple la situation où on souhaite tester un générateur pseudo-aléatoire au vu des valeurs qu'il retourne. En pratique, un générateur pseudo-aléatoire (fonction Random) calcule les termes successifs d'une suite itérative déterministe. Ces valeurs doivent se comporter comme des ``réels au hasard entre 0 et 1''. Cette phrase cache en fait le modèle probabiliste suivant : les valeurs retournées par Random sont des réalisations de variables aléatoires indépendantes et de même loi uniforme. Ce modèle probabiliste a une infinité de conséquences testables. Par exemple si le modèle est correct, sur 100 appels, le nombre de ceux compris entre 0.4 et 0.9 suit la loi binomiale $ {\cal B}(100,0.5)$. Il n'est pas totalement exclu de n'en observer aucun, mais c'est très improbable (probabilité $ 1/2^{100}$). Si sur 100 appels de la fonction Random , aucun n'était compris entre 0.4 et 0.9, on aurait donc de bonnes raisons de mettre en doute le modèle. Mais si le nombre d'appels de Random entre 0.4 et 0.9 est de 46, tout ce qu'on pourra dire c'est que ce résultat est plausible. Cela peut renforcer notre confiance dans le modèle, mais cela ne présage pas du résultat d'autres tests : aucun test statistique ne pourra jamais démontrer que le modèle testé est le bon, ni qu'il est le seul possible.

On peut envisager d'autres moyens de tester un générateur pseudo-aléatoire. Par exemple :

On pourrait donner beaucoup d'autres exemples : la validation statistique des générateurs pseudo-aléatoires a fait l'objet de très nombreux travaux.


En résumé, la situation est la suivante. Les données observées sont modélisées par des variables aléatoires $ (X_1,\ldots,X_n)$. Toute fonction des $ X_i$ s'appelle une statistique . En particulier, la décision que l'on prendra au vu des données est une statistique binaire (rejet ou non). Les hypothèses portent sur la loi conjointe des $ X_i$. On cherche à tester une hypothèse particulière, qui porte traditionnellement le nom d'hypothèse nulle, et que l'on notera $ {\cal H}_0$. Dans l'exemple du test sur l'efficacité d'un médicament, l'hypothèse nulle pourrait être que le médicament n'a pas d'effet. Pour un $ n$-uplet d'appels de Random , l'hypothèse nulle sera que la présence d'un appel entre 0.4 et 0.9 suit la loi de Bernoulli de paramètre 0.5. Un test est une décision prise au vu des données, pour laquelle on contrôle la probabilité de rejeter $ {\cal H}_0$ à tort.

Définition 1.2   Un test de seuil $ \alpha$ pour l'hypothèse $ {\cal H}_0$ est une statistique binaire (rejet ou non de $ {\cal H}_0$), telle que :

$\displaystyle \mathbb{P}_{{\cal H}_0}[\,$Rejet de $\displaystyle {\cal H}_0\,] = \alpha\;.
$

En statistique, les réels $ \alpha$ compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs 0.05 et 0.01, plus rarement 0.02, 0.005 ou 0.001. Il faut donc lire $ \alpha$ comme ``une faible probabilité''.

L'hypothèse $ {\cal H}_0$ entraîne la connaissance de la loi d'une certaine variable aléatoire, appelée statistique de test . Par exemple, si le médicament n'a pas d'effet, l'hypothèse nulle entraîne que le nombre de guérisons observées sur $ n$ individus suit la loi binomiale $ {\cal B}(n,p_0)$, où $ p_0$ est la probabilité (supposée connue) de guérison sans traitement. Pour $ n$ appels d'un générateur pseudo-aléatoire, le nombre d'appels entre 0.4 et 0.9 suit la loi $ {\cal B}(n,0.5)$. Reste ensuite à distinguer parmi les valeurs de la statistique de test, celles qui sont plausibles de celles qui sont trop peu vraisemblables. Ceci fait l'objet du paragraphe suivant.



Section : Statistiques de test
Précédent : Statistiques de test
Suivant : Règles de décision