Le test du chi-deux concerne uniquement les lois discrètes, mais on peut l'utiliser aussi pour des échantillons continus regroupés en classes. Le modèle de base est toujours un échantillon d'une loi inconnue. Les classes, notées sont une partition de l'ensemble des valeurs possibles. L'hypothèse à tester porte sur les probabilités des classes, pour lesquelles on se donne des valeurs théoriques .
Sous l'hypothèse , la distribution empirique de l'échantillon sur les classes doit être proche de la distribution théorique. La distribution empirique est celle des fréquences de l'échantillon dans les classes.
On mesure l'adéquation de la distribution empirique à la distribution théorique par la distance du chi-deux.
La ``distance'' du chi-deux est donc une moyenne pondérée d'écarts quadratiques entre les valeurs de et . Ce n'est pas une distance au sens usuel du terme, puisqu'elle n'est même pas symétrique.
La loi de probabilité de n'a pas d'expression explicite en général. On utilise le résultat suivant.
Si l'hypothèse est fausse, alors la variable tend vers l'infini. C'est donc un test unilatéral à droite que l'on appliquera (rejet des trop grandes valeurs).
L'exemple classique d'application du test est l'expérience de Mendel. Chez les pois, le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme, rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif). Si on croise deux individus dont le génotype est CcRr, on peut obtenir 16 génotypes équiprobables. Les descendants seront jaunes et ronds dans 9 cas sur 16, jaunes et ridés dans 3 cas sur 16, verts et ronds dans 3 cas sur 16, verts et ridés dans 1 cas sur 16. Dans ses expériences, Mendel a obtenu les résultats suivants.
La valeur prise par la statistique est 0.47. D'après le théorème 2.4, la région de rejet doit être calculée par référence à la loi du chi-deux . Par exemple, au seuil 0.05, on devrait rejeter les valeurs supérieures à 7.81. La p-valeur de 0.47 est 0.925. Le résultat est donc tout à fait compatible avec , et même un peu trop : nombreux sont ceux qui pensent que Mendel a pu arranger les résultats pour qu'ils coïncident aussi bien avec sa théorie !
L'exemple suivant concerne 10000 familles de 4 enfants pour lesquelles on connaît le nombre de garçons, entre 0 et 4. Le modèle le plus simple qu'on puisse proposer est que les naissances sont indépendantes, les deux sexes étant équiprobables. L'hypothèse nulle est donc que la loi du nombre de garçons pour une famille de 4 enfants suit la loi binomiale . Les fréquences observées et théoriques sont les suivantes :
La valeur prise par la statistique est 34.47. D'après le théorème 2.4, la région de rejet doit être calculée par référence à la loi du chi-deux de paramètre 5-1=4. Par exemple, au seuil 0.05, on devrait rejeter les valeurs supérieures à . La p-valeur de 34.47 est . On peut donc rejeter l'hypothèse .
Le théorème 2.4 n'est qu'un résultat asymptotique. On ne peut l'utiliser que pour des tailles d'échantillons au moins de l'ordre de la centaine. De plus l'approximation qu'il décrit est d'autant moins bonne que les probabilités des classes sont faibles. Comme règle empirique, on impose parfois que l'effectif théorique de chaque classe soit au moins égal à 5. Pour atteindre cet objectif, on peut être amené à effectuer des regroupements de classes, consistant à former une nouvelle classe par la réunion de plusieurs anciennes. Les fréquences empiriques et les probabilités théoriques s'ajoutent alors.
Le test du chi-deux est souvent utilisé pour tester l'ajustement à une famille particulière dépendant d'un paramètre. Dans ce cas, on est amené à estimer le paramètre à partir des données. Le théorème 2.4 n'est alors plus tout à fait valable. Si on a estimé paramètres par la méthode du maximum de vraisemblance, à partir des fréquences des différentes classes, on doit remplacer la loi par la loi .
Reprenons l'exemple du nombre de garçons dans les familles de 4 enfants, mais pour tester cette fois-ci l'hypothèse nulle :
On applique alors le test, mais avec une distribution théorique calculée en tenant compte de la valeur estimée du paramètre : la loi .
La valeur prise par la statistique est maintenant 0.9883. Elle doit être comparée aux valeurs de la loi du chi-deux de paramètre 5-1-1=3. La p-valeur de 0.9883 est , ce qui montre que le résultat est tout à fait compatible avec l'hypothèse . En conclusion, on peut accepter l'idée que les naissances sont indépendantes, mais la proportion de garçons est significativement supérieure à 0.5.
On est souvent amené à estimer des paramètres à partir des données non groupées, ou par une autre méthode que le maximum de vraisemblance. Dans ce cas, on ne dispose pas de résultat théorique clair. La valeur limite à partir de laquelle on devra rejeter l'hypothèse au seuil est comprise entre et . En pratique, après avoir calculé la valeur prise par en tenant compte de paramètres estimés, une attitude prudente consistera à :
Un cas particulier du test du chi-deux permet de tester l'indépendance de deux caractères statistiques. Il porte le nom de chi-deux de contingence. Les deux caractères, mesurés sur une même population, sont et , la taille de l'échantillon est . Les modalités ou classes de seront notées , celles de sont notées . On note :
Chaque ligne et chaque colonne correspond à un sous-échantillon particulier. La ligne d'indice est la répartition sur des individus pour lesquels le caractère prend la valeur . La colonne d'indice est la répartition sur des individus pour lesquels le caractère prend la valeur . En divisant les lignes et les colonnes par leurs sommes, on obtient sur chacune des distributions empiriques constituées de fréquences conditionnelles. Pour et , on les notera :
Ces distributions empiriques conditionnelles s'appellent les profils-lignes et profils-colonnes.
Pour le
modèle probabiliste,
les observations proviennent d'un
échantillon
d'une loi bidimensionnelle.
L'hypothèse
à tester est que les deux
marginales
de cette loi
sont
indépendantes.
Si c'est
le cas, les profils-lignes seront tous peu différents de la distribution
empirique de , et les profils-colonnes de celle de :
C'est équivalent à dire que les fréquences conjointes doivent être proches des produits de fréquences marginales.
Les fréquences conjointes d'une part (distribution observée), et les produits de fréquences marginales d'autre part (distribution théorique), constituent deux distributions de probabilité sur l'ensemble produit . On peut donc calculer la distance du chi-deux de l'une par rapport à l'autre.
Démonstration : La première expression est l'application directe de la définition 2.3. Pour passer à la seconde, on développe le carré.
D'après ce qui a été dit précédemment, pour assez grand, on peut approcher la loi de par une loi du chi-deux, dont le paramètre est le nombre de classes moins 1, diminué du nombre de paramètres estimés à partir des données groupées en classes. Ici, ce sont les fréquences marginales qui ont été estimées. Il y en a pour le caractère , et pour le caractère (la dernière est le complément à 1 de la somme des autres). Le paramètre de la loi du chi-deux sera donc :
Voici un exemple de deux caractères binaires, concernant des malades, pour lesquels on a observé s'il ont ou non une tendance suicidaire (caractère ). Leurs maladies ont été classées en ``psychoses'' et ``névroses'' (caractère Y). On souhaite savoir s'il y a une dépendance entre les tendances suicidaires et le classement des malades. Supposons que la table de contingence observée soit :
La distance du chi-deux de contingence, calculée à partir de cette table est 0.0708. La valeur prise par la statistique est 28.33, que l'on doit comparer à la loi . La p-valeur est de :