Section : Recherche d'estimateurs
Précédent : Estimateurs des moindres carrés
Suivant : Pratique du maximum de vraisemblance

Notion de vraisemblance

Etant donné un échantillon observé $ (x_1,\ldots,x_n)$ et une loi de probabilité $ P_\theta$, la vraisemblance quantifie la probabilité que les observations proviennent effectivement d'un échantillon (théorique) de la loi $ P_\theta$.

Prenons l'exemple de 10 lancers de pièce. L'échantillon binaire observé est par exemple :

$\displaystyle 0\;,\;1\;,\;1\;,\;0\;,\;1\;,\;1\;,\;1\;,\;0\;,\;0\;,\;1\;.
$

Pour un échantillon de taille 10 de la loi de Bernoulli de paramètre $ p$, la probabilité d'une telle réalisation est $ p^6(1-p)^4$. Voici quelques valeurs numériques.

$ p$
0.2
0.3
0.4
0.5
0.6
0.7
0.8
$ p^6(1-p)^4$
$ 2.6\,10^{-5}$
$ 1.8\,10^{-4}$
$ 5.3\,10^{-4}$
$ 9.8\,10^{-4}$
$ 1.2\,10^{-3}$
$ 9.5\,10^{-4}$
$ 4.2\,10^{-4}$

Il est naturel de choisir comme estimation de $ p$, celle pour laquelle la probabilité de l' échantillon observé est la plus forte, à savoir ici $ p=$0.6.

Définition 2.5   Soit $ C=\{c_1,\ldots,c_k\}$ un ensemble fini, $ \{P_\theta\}$ une famille de lois de probabilité sur $ C$, et $ n$ un entier. On appelle vraisemblance associée à la famille $ \{P_\theta\}$, la fonction qui à un $ n$-uplet $ (x_1,\ldots,x_n)$ d'éléments de $ C$ et à une valeur $ \theta$ du paramètre associe la quantité :

$\displaystyle L(x_1,\ldots,x_n,\theta) = \prod_{i=1}^n P_\theta(x_i)\;.
$

L'interprétation est la suivante. Considérons un échantillon théorique $ (X_1,\ldots,X_n)$ de la loi $ P_\theta$. Par définition, les variables aléatoires $ X_1,\ldots,X_n$ sont indépendantes et de même loi $ P_\theta$. Donc la probabilité que l'échantillon théorique $ (X_1,\ldots,X_n)$ ait pour réalisation l'échantillon observé $ (x_1,\ldots,x_n)$ est le produit des probabilités pour que $ X_i$ prenne la valeur $ x_i$, à savoir :

$\displaystyle \mathbb{P}[(X_1,\ldots,X_n)=(x_1,\ldots,x_n)] = L(x_1,\ldots,x_n,\theta)\;.
$

Dans le cas d'un modèle continu, la loi $ P_\theta$ a une densité sur $ \mathbb{R}$, et la probabilité pour que l'échantillon prenne une valeur particulière est toujours nulle. Il faut alors remplacer la probabilité $ P_\theta$ par sa densité dans la définition de la vraisemblance.

Définition 2.6   Soit $ \{P_\theta\}$ une famille de lois de probabilité continues sur $ \mathbb{R}$ et $ n$ un entier. Notons $ f_\theta$ la densité de probabilité de la loi $ P_\theta$. On appelle vraisemblance associée à la famille $ \{P_\theta\}$, la fonction qui à un $ n$-uplet $ (x_1,\ldots,x_n)$ d'éléments de $ C$ et à une valeur $ \theta$ du paramètre associe la quantité :

$\displaystyle L(x_1,\ldots,x_n,\theta) = \prod_{i=1}^n f_\theta(x_i)\;.
$

L'interprétation est la suivante. Considérons un échantillon théorique $ (X_1,\ldots,X_n)$ de la loi continue $ P_\theta$. Soit $ \varepsilon$ un réel strictement positif (petit). La probabilité que l'échantillon théorique $ (X_1,\ldots,X_n)$ ait une réalisation proche ``à $ \varepsilon$ près'' de l'échantillon observé $ (x_1,\ldots,x_n)$ peut s'écrire :

\begin{displaymath}
\begin{array}{ccc}
\mathbb{P}\Big[X_1\in [x_1\!-\!\frac{\var...
...\\
&=&
\varepsilon^n\,L(x_1,\ldots,x_n,\theta)\;.
\end{array}\end{displaymath}

Estimer un paramètre par la méthode du maximum de vraisemblance, c'est proposer comme valeur de ce paramètre celle qui rend maximale la vraisemblance, à savoir la probabilité d'observer les données comme réalisation d'un échantillon de la loi $ P_\theta$.

Définition 2.7   Supposons que pour toute valeur $ (x_1,\ldots,x_n)$, la fonction qui à $ \theta$ associe $ L(x_1,\ldots,x_n,\theta)$ admette un maximum unique. La valeur $ \widehat{\theta}$ pour laquelle ce maximum est atteint dépend de $ (x_1,\ldots,x_n)$ :

$\displaystyle \widehat{\theta} = \tau(x_1,\ldots,x_n) = \arg\max L(x_1,\ldots,x_n,\theta)\;.
$

On l'appelle estimation par maximum de vraisemblance.

Si $ (X_1,\ldots,X_n)$ est un échantillon (théorique) de la loi $ P_\theta$, la variable aléatoire :

$\displaystyle T = \tau(X_1,\ldots,X_n)\;,
$

est l'estimateur du maximum de vraisemblance de $ \theta$.

Reprenons l'exemple de la loi uniforme sur l'intervalle $ [0,\theta]$. Sa densité est :

$\displaystyle f_\theta(x) = \frac{1}{\theta}$   1$\displaystyle _{[0,\theta]}(x)\;.
$

La vraisemblance est la fonction qui à $ n$ réels $ x_1,\ldots,x_n$ et à une valeur positive $ \theta$ associe :

\begin{displaymath}\begin{array}{ccc}
L(x_1,\ldots,x_n,\theta) &=&
\prod_{i=1}^...
...skip -0.353em 1}_{[\max\{x_i\},+\infty[}(\theta)\;.
\end{array}\end{displaymath}

Vue comme fonction de $ \theta$, la vraisemblance est nulle si $ \theta$ est inférieur à la plus grande des valeurs observées, elle vaut $ 1/\theta^n$ sinon. Elle est donc maximale pour :

$\displaystyle \widehat{\theta} = \max\{x_1,\ldots,x_n\}\;.
$

Si $ (X_1,\ldots,X_n)$ est un échantillon de la loi uniforme $ {\cal U}(0,\theta)$, l'estimateur du maximum de vraisemblance de $ \theta$ est :

$\displaystyle T=\max\{X_1,\ldots,X_n\}\;.
$

Pour la plupart des lois de probabilité usuelles, l'estimateur du maximum de vraisemblance est défini de façon unique, et se calcule explicitement. Sur le plan théorique, il présente de nombreux avantages. Sous des hypothèses vérifiées par de nombreux modèles courants, on démontre qu'il est asymptotiquement sans biais et convergent. On démontre de plus que sa variance est minimale. La méthode du maximum de vraisemblance est donc théoriquement la meilleure des méthodes d'estimation. Nous verrons au paragraphe suivant des exemples de calculs explicites. Quand une détermination explicite est impossible, il faut avoir recours à une détermination numérique, par un algorithme d'optimisation.



Section : Recherche d'estimateurs
Précédent : Estimateurs des moindres carrés
Suivant : Pratique du maximum de vraisemblance