Section : Données bidimensionnelles
Précédent : Données bidimensionnelles
Suivant : Covariance

Représentations bidimensionnelles

Il est fréquent en médecine comme ailleurs que plusieurs caractères soient observés sur la même population. Dans une enquête d'opinion, les personnes sondées peuvent avoir à répondre simultanément à plusieurs dizaines de questions. Sur un échantillon sanguin, on mesure couramment une dizaine de variables (numérations globulaires, taux de cholestérol,...). Une étude descriptive de chaque caractère pris séparément permet de résumer les caractéristiques de leurs distributions empiriques. Pour concentrer sur un même graphique l'ensemble des distributions empiriques, on peut tracer parallèlement le diagramme en boîte de chacun des caractères. Mais étudier les caractères séparément ne fournit aucune indication sur leurs relations éventuelles : on oublie que les échantillons ont été recueillis sur les mêmes individus. Le problème consiste donc à étudier simultanément les caractères sans perdre l'information qu'ils ont été observés sur les mêmes individus.

Si plusieurs caractères $ x$, $ y$, $ z,\ldots$ ont été mesurés sur une même population, on peut voir les données $ x_i$, $ y_i$, $ z_i,\ldots$ correspondant à un individu $ i$ comme les coordonnées d'un point dans $ \mathbb{R}^d$, où $ d$ est le nombre de caractères. L'ensemble de ces points constitue un "nuage de points" dans $ \mathbb{R}^d$. Pour $ d=2$ ou $ d=3$, on peut représenter graphiquement ce nuage de points. Au-delà c'est impossible, et on est obligé de le projeter sur des sous-espaces de dimension 2 ou 3. Les différentes techniques de projection sont l'objet de l'"analyse multidimensionnelle de données" (analyse discriminante, analyse en composantes principales, analyse factorielle des correspondances, etc...).

Dans le cas où 2 caractères quantitatifs $ x$ et $ y$ sont observés, on peut regrouper leurs valeurs en classes, et représenter en perspective un histogramme bidimensionnel : l'ensemble des couples de valeurs est partitionné en rectangles au-dessus desquels on représente un parallélépipède dont le volume est la fréquence empirique du rectangle, à savoir le nombre de couples $ (x_i,y_i)$ qui appartiennent au rectangle, divisé par la taille de l'échantillon. Si l'un des caractères est qualitatif, par exemple $ x$, tracer un histogramme bidimensionnel n'a pas vraiment de sens. On préfère souvent superposer des histogrammes unidimensionnels des valeurs de $ y$, pour chacune des modalités de $ x$. Si $ x$ est binaire et $ y$ continu, par exemple $ x$ est le sexe et $ y$ est l'âge, on représente souvent le caractère quantitatif en ordonnée et on trace deux histogrammes horizontaux en vis à vis, obtenant ainsi une "pyramide des âges".



Section : Données bidimensionnelles
Précédent : Données bidimensionnelles
Suivant : Covariance