Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population, s'ils sont discrets ou bien continus et regroupés en classes. Les deux caractères sont et , la taille de l'échantillon est . Les modalités ou classes de seront notées , celles de sont notées . On note :
Chaque ligne et chaque colonne correspond à un sous-échantillon particulier. La ligne d'indice est la répartition sur des individus pour lesquels le caractère prend la valeur . La colonne d'indice est la répartition sur des individus pour lesquels le caractère prend la valeur . En divisant les lignes et les colonnes par leurs sommes, on obtient sur chacune des distributions empiriques constituées de fréquences conditionnelles. Pour et , on les notera :
Ces distributions empiriques conditionnelles s'appellent les profils-lignes et profils-colonnes.
L'enjeu principal est d'étudier la dépendance des deux caractères. Deux caractères sont indépendants si la valeur de l'un n'influe pas sur les distributions des valeurs de l'autre. Si c'est le cas, les profils-lignes seront tous peu différents de la distribution empirique de , et les profils-colonnes de celle de :
C'est équivalent à dire que les fréquences conjointes doivent être proches des produits de fréquences marginales.
Les fréquences conjointes d'une part, et les produits de fréquences marginales d'autre part, constituent deux distributions de probabilité sur l'ensemble produit . Un des moyens de quantifier leur proximité est de calculer la distance du chi-deux de l'une par rapport à l'autre. Dans ce cas particulier, on parle de chi-deux de contingence .
Démonstration : La première expression est l'application directe de la définition 2.7. Pour passer à la seconde, on développe le carré.
La distance du chi-deux vaut 0 si les deux caractères sont indépendants. Elle est maximale s'il existe une dépendance systématique. Supposons et , pour une certaine fonction bijective . Sur chaque ligne et chaque colonne du tableau de contingence, une seule case est non nulle, et la distance du chi-deux vaut .