Si deux caractères quantitatifs et sont mesurés sur individus, on peut considérer l'échantillon bidimensionnel comme un nuage de points dans . Différentes caractéristiques statistiques permettent de résumer l'information contenue dans sa forme. Si et désignent les moyennes empiriques des deux caractères, le point est le centre de gravité du nuage. Les variances empiriques et traduisent la dispersion des abscisses et des ordonnées. Pour aller plus loin dans la description, il faut calculer la covariance.
Cette définition étend celle de la variance, dans la mesure où . La covariance est symétrique ( ) et bilinéaire : si et sont deux échantillons de taille , et deux réels et , alors :
Comme conséquence de la bilinéarité, on a :
Pour le calcul pratique, on utilise la formule suivante :
La covariance est la moyenne des produits moins le produit des moyennes.
Démonstration : Il suffit de développer les produits :
La covariance se compare au produit des écarts-types par l'inégalité de Cauchy-Schwarz.
Démonstration : Choisissons une constante quelconque et calculons la variance de :
Cette quantité est positive ou nulle pour tout . Donc le discriminant de l'expression, vue comme un trinôme en , est nécessairemement négatif. Il vaut :
d'où le résultat. Remarquons que le discriminant est nul si et seulement si peut s'annuler, c'est-à-dire s'il existe tel que soit constant. Donc l'inégalité 3.1 ne peut être une égalité que s'il existe une relation affine entre et .
Au vu de l'inégalité 3.1, il est naturel de diviser la covariance par le produit des écarts-types, pour définir le coefficient de corrélation.
Quels que soient l'unité et les ordres de grandeur de et , le coefficient de corrélation est un nombre sans unité, compris entre -1 et 1. Il traduit la plus ou moins grande dépendance linéaire de et ou, géométriquement, le plus ou moins grand aplatissement ne pouvait être une égalité que si est constant ou si est de la forme . Si est positif, le coefficient de corrélation de avec est égal à +1, il est égal à -1 si est négatif. Un coefficient de corrélation nul ou proche de 0 signifie qu'il n'y a pas de relation linéaire entre les caractères. Mais il n'entraîne aucune notion d'indépendance plus générale. Considérons par exemple les deux échantillons :
Quand le coefficient de corrélation est proche de 1 ou -1, les caractères sont dits "fortement corrélés". Il faut prendre garde à la confusion fréquente entre corrélation et causalité. Que deux phénomènes soient corrélés n'implique en aucune façon que l'un soit cause de l'autre. Très souvent, une forte corrélation indique que les deux caractères dépendent d'un troisième, qui n'a pas été mesuré. Ce troisième caractère est appelé "facteur de confusion". Qu'il existe une corrélation forte entre le rendement des impôts en Angleterre et la criminalité au Japon, indique que les deux sont liés à l'augmentation globale de la population. Le prix du blé et la population des rongeurs sont négativement corrélés car les deux dépendent du niveau de la récolte de blé. Il arrive qu'une forte corrélation traduise bien une vraie causalité, comme entre le nombre de cigarettes fumées par jour et l'apparition d'un cancer du poumon. Mais ce n'est pas la statistique qui démontre la causalité, elle permet seulement de la détecter. L'influence de la consommation de tabac sur l'apparition d'un cancer n'est scientifiquement démontrée que dans la mesure où on a pu analyser les mécanismes physiologiques et biochimiques qui font que les goudrons et la nicotine induisent des erreurs dans la reproduction du code génétique des cellules.