Il est fréquent en médecine comme ailleurs que plusieurs caractères soient observés sur la même population. Dans une enquête d'opinion, les personnes sondées peuvent avoir à répondre simultanément à plusieurs dizaines de questions. Sur un échantillon sanguin, on mesure couramment une dizaine de variables (numérations globulaires, taux de cholestérol,...). Une étude descriptive de chaque caractère pris séparément permet de résumer les caractéristiques de leurs distributions empiriques. Pour concentrer sur un même graphique l'ensemble des distributions empiriques, on peut tracer parallèlement le diagramme en boîte de chacun des caractères. Mais étudier les caractères séparément ne fournit aucune indication sur leurs relations éventuelles : on oublie que les échantillons ont été recueillis sur les mêmes individus. Le problème consiste donc à étudier simultanément les caractères sans perdre l'information qu'ils ont été observés sur les mêmes individus.
Si plusieurs
caractères
,
,
ont été mesurés sur une
même
population,
on peut voir les
données
,
,
correspondant à un
individu
comme les coordonnées d'un point dans
, où
est le nombre de
caractères.
L'ensemble de ces points
constitue un
"nuage de points"
dans
. Pour
ou
, on
peut représenter graphiquement ce
nuage de points.
Au-delà
c'est impossible, et on est obligé de le projeter sur des sous-espaces
de dimension 2 ou 3. Les différentes
techniques de projection sont l'objet de l'"analyse multidimensionnelle
de
données"
(analyse discriminante, analyse en composantes principales,
analyse factorielle des correspondances, etc...).
Dans le cas où 2
caractères
quantitatifs et
sont observés, on
peut regrouper leurs
valeurs en classes, et représenter en perspective un histogramme
bidimensionnel : l'ensemble des couples de valeurs est partitionné en
rectangles au-dessus desquels on représente un parallélépipède dont
le volume est la
fréquence empirique
du rectangle, à savoir le
nombre de couples
qui appartiennent au rectangle, divisé
par la taille de l'échantillon.
Si l'un des
caractères
est qualitatif,
par exemple
, tracer un
histogramme
bidimensionnel n'a pas vraiment de sens.
On préfère souvent superposer des
histogrammes
unidimensionnels des
valeurs de
, pour chacune des modalités de
. Si
est binaire et
continu, par exemple
est le sexe et
est l'âge, on représente
souvent le
caractère
quantitatif en ordonnée et on trace deux histogrammes
horizontaux en vis à vis, obtenant ainsi une "pyramide des âges".