A la base de toute étude statistique, il y a une population, formée d'individus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile de penser en termes de population humaine. Les individus sont des personnes, et les caractères observés peuvent être morphologiques (taille, poids, couleur des yeux), physiologiques (groupe sanguin, numération globulaire, taux de cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête d'opinion). Même si nous choisirons prioritairement nos exemples dans les caractères humains, il faut garder à l'esprit des notions de population et de caractère plus générales. Voici quelques exemples.
Un caractère est dit :
Les valeurs que peut prendre un
caractère
s'appellent les modalités.
Pour des raisons de facilité de traitement informatique ou mathématique,
on cherche à se ramener à des
caractères
quantitatifs par un
codage. Si le
caractère
initial est qualitatif, le codage sera
souvent binaire. Le cas le plus simple est celui d'un référendum, où
il n'y a que deux modalités, codées 0 et 1. Pour un nombre quelconque
de modalités, on pourra les coder par un vecteur de
booléens :
si la valeur observée sur un
individu
est
, le vecteur associé à
cet
individu
a toutes ses
coordonnées nulles sauf la
-ième qui vaut 1. Dans le cas des
caractères
ordinaux, on effectue souvent le codage sur les premiers entiers.
Il faut se souvenir que le codage est arbitraire, et que les résultats
numériques que l'on obtient après codage peuvent dépendre de celui-ci.
Des techniques spécifiques permettent de traiter plus particulièrement les
caractères
qualitatifs et ordinaux. Nous nous limiterons ici aux
caractères
quantitatifs.
La
statistique
intervient quand il est impossible ou inutile d'observer
un
caractère
sur l'ensemble de la
population.
On l'observe alors sur
une sous-population, de taille réduite, en espérant tirer de
l'observation des conclusions généralisables à
toute la
population.
Si les
données
d'un
caractère
quantitatif sont
recueillies sur
individus, le résultat est un
-uplet de nombres, entiers ou
décimaux,
, que l'on appelle
échantillon
ou série
statistique
, de taille
. On réserve plutôt le
terme
d'échantillon
au résultat de
expériences menées
indépendamment les unes des autres, et dans des conditions identiques
(lancers de dés, mesure du poids de
nouveaux-nés,...).
On appellera série
statistique
le résultat de
expériences
qui ne sont pas interchangeables. Le cas le plus fréquent est celui
où la
population
est constituée d'instants successifs (relevés
quotidiens de températures, chiffres mensuels du chômage,...).
On parle alors de
série chronologique.
On distingue souvent les caractères discrets (ceux qui ne prennent que peu de modalités distinctes) des caractères continus (pour lesquels toutes les valeurs observées sont a priori différentes). La frontière entre continu et discret est beaucoup moins claire en pratique qu'en théorie. Tout recueil de données se fait avec une certaine précision, et dans une certaine unité. Si une taille est mesurée avec une précision de l'ordre du centimètre, tout chiffre correspondant à une quantité inférieure au centimètre ne contient aucune information et doit être éliminé. Cela signifie que la taille en centimètres est une valeur entière, donc un caractère discret, même si on le modélise par une loi normale, qui est une loi continue. D'autre part, différentes techniques statistiques (histogrammes, test du chi-deux) imposent de regrouper les données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités étant les différentes classes.
Une fois recueilli,
l'échantillon
se présente comme une
liste de nombres peu lisible. Le traitement
statistique
va
maintenant consister à le compresser, le résumer par des quantités
calculées et des représentations graphiques, afin d'extraire l'information
qu'il contient. On ne traite pas un
échantillon
sans avoir une question
précise à lui poser. Etant donné un
échantillon
de tailles de filles
de 18 ans, le traitement ne sera pas le même selon que l'on sera un
nutritionniste qui cherche à étudier l'influence du régime alimentaire
sur la croissance, ou un fabriquant de vêtements qui cherche à
dimensionner ses patrons. En
statistique,
une fonction d'un
échantillon,
comme sa
moyenne
ou sa
variance,
par laquelle on cherche à résumer une
partie de l'information qu'il contient, s'appelle encore une
statistique. Le
mot
statistique
a donc trois sens différents :