La présentation, la lisibilité, l'orthographe, la qualité de la rédaction, la clarté et la précision des raisonnements entreront pour une part importante dans l'appréciation des copies.
Les candidats sont invités à encadrer dans la mesure du possible les résultats de leurs calculs.
Aucun document n'est autorisé. L'utilisation de toute calculatrice et de tout matériel électronique est interdite. Seule l'utilisation d'une règle graduée est autorisée.
Si au cours de l'épreuve, un candidat repère ce qui lui semble être une erreur d'énoncé, il la signalera sur sa copie et poursuivra sa composition en expliquant les raisons des initiatives qu'il sera amené à prendre.
Lorsque l'on cherche à estimer un paramètre inconnu à partir d'un échantillon de données, on appelle statistique exhaustive toute fonction de ces données qui résume à elle seule l'information que ces données fournissent sur le paramètre.
On donne ici une définition précise de cette notion d'exhaustivité dans le cas des échantillons de variables aléatoires discrètes, illustrée de plusieurs exemples qui en montrent l'intérêt.
On s'intéressera dans ce problème à l'estimation d'un paramètre réel inconnu appartenant à un intervalle .
On dispose pour cela de plusieurs observations considérées comme les réalisations de variables aléatoires discrètes définies sur le même espace probabilisable ( ), à valeurs dans une partie de .
L'espace probabilisable ( ) est muni d'une famille de probabilités indexées par le paramètre .
On fait, pour toutes les valeurs du paramètre , les trois hypothèses suivantes.
Les variables aléatoires sont mutuellement indépendantes, c'est-à-dire :
Les variables aléatoires suivent toutes la même loi qu'une variable aléatoire de référence, notée , à valeurs dans , c'est-à-dire :
Tous les éléments de sont des valeurs effectivement possibles de , c'est-à-dire :
On appelle statistique toute variable aléatoire de la forme , où désigne une application définie sur et à valeurs réelles. On note alors .
Pour tout , on note l'espérance de lorsque ( ) est muni de la probabilité (si cette espérance existe). On note de même la variance de (si elle existe).
Partie 1 : développements en série
Dans cette question, désigne un nombre réel strictement compris entre 0 et 1 .
a) Justifier la convergence de la série .
b) Vérifier, pour tout et tout , l'égalité :
c) Démontrer que l'intégrale tend vers 0 quand l'entier tend vers l'infini.
d) En déduire la somme de la série .
2. Dans cette question, indépendante de la précédente, désigne une suite de nombres réels telle que la série est absolument convergente pour un réel strictement positif .
a) Justifier que la fonction est bien définie sur le segment .
b) Pour un entier naturel , on pose : .
Justifier, pour tout , l'inégalité :
c) Justifier, pour tout , le développement limité au voisinage de 0 :
d) Démontrer que si la fonction est nulle sur l'intervalle ], alors est la suite nulle.
Dans toute la suite du problème, pour tout et tout , on note :
Cette quantité, qui s'écrit aussi d'après (2), est appelée la vraisemblance de la valeur du paramètre au vu des observations .
Partie II : estimateur du maximum de vraisemblance, un exemple
Dans cette partie, est l'intervalle ouvert est égal à et on a :
On note la variable aléatoire .
3. Soit .
a) Reconnaître la loi de lorsque ( ) est muni de la probabilité .
b) En déduire que est un estimateur sans biais du paramètre .
c) Quel est le risque quadratique de cet estimateur?
4. On note la variable aléatoire .
a) En utilisant le résultat de la question 1.d, justifier que :
b) En déduire que est un estimateur de dont le biais est strictement positif.
5. Soit .
a) Justifier, pour tout , l'égalité :
b) En déduire que, lorsque les ne sont pas tous égaux à 1 , le nombre est l'unique valeur de qui maximise la vraisemblance .
6. On note la variable aléatoire .
a) Établir, pour tout et tout entier , l'égalité:
b) En déduire que est un estimateur de dont le biais est donné par :
c) Justifier que est strictement positif, quelle que soit la valeur du paramètre .
7. Dans cette question, on suppose que le nombre des observations est illimité. On dispose donc, pour estimer le paramètre , d'une suite de variables aléatoires mutuellement indépendantes et de même loi.
Pour tout entier , on note et .
Étudier la convergence des deux suites d'estimateurs et du paramètre .
Dans toute la suite du problème, on dit qu'une statistique est exhaustive s'il existe une application de dans et une application de dans telles que :
Partie III : statistique exhaustive, un exemple
Dans cette partie, on suppose que [ et que, quel que soit , les variables aléatoires suivent la loi de Bernoulli de paramètre , lorsque l'espace probabilisable ( ) est muni de la probabilité .
On pose : .
8. a) Démontrer que la vraisemblance de n'importe quelle valeur du paramètre est donnée par :
b) En déduire que la statistique est exhaustive.
9. Soit et .
a) Calculer la probabilité conditionnelle et vérifier que la loi conditionnelle du vecteur aléatoire sachant l'événement ne dépend pas du paramètre .
b) Établir, pour tout , l'égalité : .
10. Le script Scilab suivant permet d'effectuer des simulations, qu'il place dans une matrice Y , dont il évalue ensuite la moyenne de chaque colonne.
--> theta=0.3;
--> N=100000;
--> n=10;
--> k=4;
--> U=grand(n,N,'bin',1,theta);
--> S=sum(U,'r'); // somme des lignes de U, colonne par colonne
--> K=find(S==k) ; // recherche des coefficients de S égaux à k
--> Y=U(1:n,K);
--> M=mean(Y,'c') // moyenne des colonnes de Y, ligne par ligne
ans =
0.4019917
0.4042436
0.4008908
0.3962868
0.4054947
0.3953861
0.3990892
0.4002402
0.3941851
0.4021919
a) Décrire avec précision ce que représente une colonne de la matrice U.
b) Expliquer pourquoi les coefficients de Y fournissent une simulation d'une loi conditionnelle du vecteur ( ).
c) Commenter les résultats trouvés pour les coefficients de M.
11. Á la suite du script précédent, on exécute l'instruction suivante :
--> length ;
a) Donner le format de la matrice C et indiquer la valeur de son coefficient .
b) Á quelle valeur approchée peut-on s'attendre pour et pour les autres coefficients non diagonaux de la matrice C ?
c) Quelle est la somme totale des coefficients de la matrice C ?
Partie IV : inégalité de Rao-Blackwell
Dans cette partie, on reprend les hypothèses générales du préambule et on considère une statistique exhaustive , au sens donné par (5).
On admet que, pour tout élément de et tout élément de , la probabilité conditionnelle ne dépend pas de .
12. Soit un estimateur sans biais du paramètre .
a) Démontrer que, pour tout , l'espérance conditionnelle existe et que sa valeur ne dépend pas de .
b) Justifier que est un système complet d'événements.
13. Comme l'espérance conditionnelle ne dépend pas de la valeur de , on peut la noter et définir une application de dans par :
a) En utilisant la formule de l'espérance totale, démontrer que est un estimateur sans biais de .
b) On suppose que admet une variance, quelle que soit la valeur du paramètre . Justifier qu'il en est de même pour et en utilisant les inégalités
établir, pour tout , l'inégalité (appelée inégalité de Rao-Blackwell) :
Un exemple d'estimateur sans biais optimal
Dans cette question uniquement, on suppose que et que, pour tout , la loi commune des variables aléatoires sur l'espace probabilisé ( ) est la loi de Poisson de paramètre .
a) Justifier que la statistique est exhaustive.
b) Soit et .
Vérifier que la probabilité conditionnelle ne dépend pas de .
c) Soit .
Démontrer que chacune des variables aléatoires suit une loi binomiale lorsque l'espace probabilisable ( ) est muni de la probabilité . Sont-elles indépendantes pour cette probabilité?
d) Trouver une suite réelle telle que
et en prouver l'unicité à l'aide du résultat de la question 2 .
e) En exploitant le résultat de la question 13, démontrer que, parmi les estimateurs sans biais de , l'estimateur est optimal, c'est-à-dire que son risque quadratique est inférieur ou égal à celui de tout autre estimateur sans biais de .