Section : Données unidimensionnelles
Précédent : Données unidimensionnelles
Suivant : Moyenne empirique

Echantillons

A la base de toute étude statistique, il y a une population, formée d'individus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile de penser en termes de population humaine. Les individus sont des personnes, et les caractères observés peuvent être morphologiques (taille, poids, couleur des yeux), physiologiques (groupe sanguin, numération globulaire, taux de cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête d'opinion). Même si nous choisirons prioritairement nos exemples dans les caractères humains, il faut garder à l'esprit des notions de population et de caractère plus générales. Voici quelques exemples.

Populations
Caractères
Eléments chimiques
Nombre d'isotopes
Galaxies
Nombre d'étoiles
Etoiles
Magnitude
Chromosomes
Nombre de gènes
Gènes
Nombre de bases protéiques
Villes
Taux d'imposition
Pays
Produit intérieur brut
Films
Recettes
Mois de l'année
Montant des exportations

Un caractère est dit :

Les valeurs que peut prendre un caractère s'appellent les modalités. Pour des raisons de facilité de traitement informatique ou mathématique, on cherche à se ramener à des caractères quantitatifs par un codage. Si le caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus simple est celui d'un référendum, où il n'y a que deux modalités, codées 0 et 1. Pour un nombre quelconque $ m$ de modalités, on pourra les coder par un vecteur de $ m$ booléens : si la valeur observée sur un individu est $ l$, le vecteur associé à cet individu a toutes ses coordonnées nulles sauf la $ l$-ième qui vaut 1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur les premiers entiers. Il faut se souvenir que le codage est arbitraire, et que les résultats numériques que l'on obtient après codage peuvent dépendre de celui-ci. Des techniques spécifiques permettent de traiter plus particulièrement les caractères qualitatifs et ordinaux. Nous nous limiterons ici aux caractères quantitatifs.

La statistique intervient quand il est impossible ou inutile d'observer un caractère sur l'ensemble de la population. On l'observe alors sur une sous-population, de taille réduite, en espérant tirer de l'observation des conclusions généralisables à toute la population. Si les données d'un caractère quantitatif sont recueillies sur $ n$ individus, le résultat est un $ n$-uplet de nombres, entiers ou décimaux, $ (x_1,\ldots,x_n)$, que l'on appelle échantillon ou série statistique , de taille $ n$. On réserve plutôt le terme d'échantillon au résultat de $ n$ expériences menées indépendamment les unes des autres, et dans des conditions identiques (lancers de dés, mesure du poids de $ n$ nouveaux-nés,...). On appellera série statistique le résultat de $ n$ expériences qui ne sont pas interchangeables. Le cas le plus fréquent est celui où la population est constituée d'instants successifs (relevés quotidiens de températures, chiffres mensuels du chômage,...). On parle alors de série chronologique.

On distingue souvent les caractères discrets (ceux qui ne prennent que peu de modalités distinctes) des caractères continus (pour lesquels toutes les valeurs observées sont a priori différentes). La frontière entre continu et discret est beaucoup moins claire en pratique qu'en théorie. Tout recueil de données se fait avec une certaine précision, et dans une certaine unité. Si une taille est mesurée avec une précision de l'ordre du centimètre, tout chiffre correspondant à une quantité inférieure au centimètre ne contient aucune information et doit être éliminé. Cela signifie que la taille en centimètres est une valeur entière, donc un caractère discret, même si on le modélise par une loi normale, qui est une loi continue. D'autre part, différentes techniques statistiques (histogrammes, test du chi-deux) imposent de regrouper les données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités étant les différentes classes.

Une fois recueilli, l'échantillon $ (x_1,\ldots,x_n)$ se présente comme une liste de nombres peu lisible. Le traitement statistique va maintenant consister à le compresser, le résumer par des quantités calculées et des représentations graphiques, afin d'extraire l'information qu'il contient. On ne traite pas un échantillon sans avoir une question précise à lui poser. Etant donné un échantillon de tailles de filles de 18 ans, le traitement ne sera pas le même selon que l'on sera un nutritionniste qui cherche à étudier l'influence du régime alimentaire sur la croissance, ou un fabriquant de vêtements qui cherche à dimensionner ses patrons. En statistique, une fonction d'un échantillon, comme sa moyenne ou sa variance, par laquelle on cherche à résumer une partie de l'information qu'il contient, s'appelle encore une statistique. Le mot statistique a donc trois sens différents :



Section : Données unidimensionnelles
Précédent : Données unidimensionnelles
Suivant : Moyenne empirique