\documentclass[10pt]{article} \usepackage[french]{babel} \usepackage[utf8]{inputenc} \usepackage[T1]{fontenc} \usepackage{amsmath} \usepackage{amsfonts} \usepackage{amssymb} \usepackage[version=4]{mhchem} \usepackage{stmaryrd} \usepackage{bbold} \title{Conception : HEC Paris - ESCP BS } \author{OPTION SCIENTIFIQUE} \date{} \begin{document} \maketitle \section*{MATHÉMATIQUES II} Mercredi 29 avril 2020, de 8 h. à 12 h. La présentation, la lisibilité, l'orthographe, la qualité de la rédaction, la clarté et la précision des raisonnements entreront pour une part importante dans l'appréciation des copies.\\ Les candidats sont invités à encadrer dans la mesure du possible les résultats de leurs calculs.\\ Aucun document n'est autorisé. L'utilisation de toute calculatrice et de tout matériel électronique est interdite. Seule l'utilisation d'une règle graduée est autorisée.\\ Si au cours de l'épreuve, un candidat repère ce qui lui semble être une erreur d'énoncé, il la signalera sur sa copie et poursuivra sa composition en expliquant les raisons des initiatives qu'il sera amené à prendre. Lorsque l'on cherche à estimer un paramètre inconnu à partir d'un échantillon de données, on appelle statistique exhaustive toute fonction de ces données qui résume à elle seule l'information que ces données fournissent sur le paramètre.\\ On donne ici une définition précise de cette notion d'exhaustivité dans le cas des échantillons de variables aléatoires discrètes, illustrée de plusieurs exemples qui en montrent l'intérêt. On s'intéressera dans ce problème à l'estimation d'un paramètre réel inconnu \(\theta\) appartenant à un intervalle \(\Theta\). On dispose pour cela de plusieurs observations \(x_{1}, \ldots, x_{n}\) considérées comme les réalisations de variables aléatoires discrètes \(X_{1}, \ldots, X_{n}\) définies sur le même espace probabilisable ( \(\Omega, \mathcal{A}\) ), à valeurs dans une partie \(B\) de \(\mathbb{N}\). L'espace probabilisable ( \(\Omega, \mathcal{A}\) ) est muni d'une famille \(\left(P^{\theta}\right)_{\theta \in \Theta}\) de probabilités indexées par le paramètre \(\theta\). On fait, pour toutes les valeurs du paramètre \(\theta\), les trois hypothèses suivantes. \begin{itemize} \item Les variables aléatoires \(X_{1}, \ldots, X_{n}\) sont mutuellement indépendantes, c'est-à-dire : \end{itemize} \[ \forall\left(x_{1}, \ldots, x_{n}\right) \in B^{n}, \quad P^{\theta}\left(\bigcap_{i=1}^{n}\left[X_{i}=x_{i}\right]\right)=\prod_{i=1}^{n} P^{\theta}\left(\left[X_{i}=x_{i}\right]\right) \] \begin{itemize} \item Les variables aléatoires \(X_{1}, \ldots, X_{n}\) suivent toutes la même loi qu'une variable aléatoire de référence, notée \(X\), à valeurs dans \(B\), c'est-à-dire : \end{itemize} \[ \forall i \in \llbracket 1, n \rrbracket, \quad \forall x \in B, \quad P^{\theta}\left(\left[X_{i}=x\right]\right)=P^{\theta}([X=x]) \] \begin{itemize} \item Tous les éléments de \(B\) sont des valeurs effectivement possibles de \(X\), c'est-à-dire : \end{itemize} \[ \forall x \in B, \quad P^{\theta}([X=x])>0 \] On appelle statistique toute variable aléatoire \(S\) de la forme \(\omega \longmapsto s\left(X_{1}(\omega), \ldots, X_{n}(\omega)\right)\), où \(s\) désigne une application définie sur \(B^{n}\) et à valeurs réelles. On note alors \(S=s\left(X_{1}, \ldots, X_{n}\right)\).\\ Pour tout \(\theta \in \Theta\), on note \(E^{\theta}(S)\) l'espérance de \(S\) lorsque ( \(\Omega, \mathcal{A}\) ) est muni de la probabilité \(P^{\theta}\) (si cette espérance existe). On note de même \(V^{\theta}(S)\) la variance de \(S\) (si elle existe). \section*{Partie 1 : développements en série} \begin{enumerate} \item Dans cette question, \(x\) désigne un nombre réel strictement compris entre 0 et 1 .\\ a) Justifier la convergence de la série \(\sum_{k \geq 1} \frac{x^{k}}{k}\).\\ b) Vérifier, pour tout \(m \in \mathbb{N}^{*}\) et tout \(\left.t \in\right] 0,1[\), l'égalité : \end{enumerate} \[ \frac{1}{1-t}=\frac{t^{m}}{1-t}+\sum_{k=0}^{m-1} t^{k} \] c) Démontrer que l'intégrale \(\int_{0}^{x} \frac{t^{m}}{1-t} \mathrm{~d} t\) tend vers 0 quand l'entier \(m\) tend vers l'infini.\\ d) En déduire la somme de la série \(\sum_{k \geq 1} \frac{x^{k}}{k}\).\\ 2. Dans cette question, indépendante de la précédente, \(\left(a_{k}\right)_{k \in \mathbb{N}}\) désigne une suite de nombres réels telle que la série \(\sum_{k \geq 0} a_{k} c^{k}\) est absolument convergente pour un réel strictement positif \(c\).\\ a) Justifier que la fonction \(f: x \longmapsto a_{0}+\sum_{k=1}^{+\infty} a_{k} x^{k}\) est bien définie sur le segment \([-c,+c]\).\\ b) Pour un entier naturel \(m\), on pose : \(\quad M_{m}=\sum_{k=m+1}^{+\infty}\left|a_{k}\right| c^{k-m-1}\). Justifier, pour tout \(x \in[-c,+c]\), l'inégalité : \[ \left|\sum_{k=m+1}^{+\infty} a_{k} x^{k}\right| \leq M_{m}|x|^{m+1} \] c) Justifier, pour tout \(m \in \mathbb{N}^{*}\), le développement limité au voisinage de 0 : \[ f(x)=a_{0}+\sum_{k=1}^{m} a_{k} x^{k}+\circ\left(x^{m}\right) \] d) Démontrer que si la fonction \(f\) est nulle sur l'intervalle \(] 0,+c\) ], alors \(\left(a_{k}\right)_{k \in \mathbb{N}}\) est la suite nulle. Dans toute la suite du problème, pour tout \(\theta \in \Theta\) et tout \(\left(x_{1}, \ldots, x_{n}\right) \in B^{n}\), on note : \[ L\left(x_{1}, \ldots, x_{n}, \theta\right)=\prod_{i=1}^{n} P^{\theta}\left(\left[X_{i}=x_{i}\right]\right) \] Cette quantité, qui s'écrit aussi \(\prod_{i=1}^{n} P^{\theta}\left(\left[X=x_{i}\right]\right)\) d'après (2), est appelée la vraisemblance de la valeur \(\theta\) du paramètre au vu des observations \(x_{1}, \ldots, x_{n}\). \section*{Partie II : estimateur du maximum de vraisemblance, un exemple} Dans cette partie, \(\Theta\) est l'intervalle ouvert \(] 0,1\left[, B\right.\) est égal à \(\mathbb{N}^{*}\) et on a : \[ \forall x \in B, \quad P^{\theta}([X=x])=(1-\theta)^{x-1} \theta \] On note \(\bar{X}\) la variable aléatoire \(\frac{1}{n} \sum_{i=1}^{n} X_{i}\).\\ 3. Soit \(\theta \in \Theta\).\\ a) Reconnaître la loi de \(X\) lorsque ( \(\Omega, \mathcal{A}\) ) est muni de la probabilité \(P^{\theta}\).\\ b) En déduire que \(\bar{X}\) est un estimateur sans biais du paramètre \(1 / \theta\).\\ c) Quel est le risque quadratique de cet estimateur?\\ 4. On note \(T\) la variable aléatoire \(\frac{1}{n} \sum_{i=1}^{n} \frac{1}{X_{i}}\).\\ a) En utilisant le résultat de la question 1.d, justifier que : \[ \forall \theta \in \Theta, \quad E^{\theta}(T)=\frac{\theta \ln (\theta)}{\theta-1} \] b) En déduire que \(T\) est un estimateur de \(\theta\) dont le biais \(b_{\theta}(T)\) est strictement positif.\\ 5. Soit \(\left(x_{1}, \ldots, x_{n}\right) \in B^{n}\).\\ a) Justifier, pour tout \(\theta \in \Theta\), l'égalité : \[ \ln \left(L\left(x_{1}, \ldots, x_{n}, \theta\right)\right)=n \ln (\theta)-\left(n-\sum_{i=1}^{n} x_{i}\right) \ln (1-\theta) \] b) En déduire que, lorsque les \(x_{i}\) ne sont pas tous égaux à 1 , le nombre \(\frac{n}{\sum_{i=1}^{n} x_{i}}\) est l'unique valeur de \(\theta\) qui maximise la vraisemblance \(L\left(x_{1}, \ldots, x_{n}, \theta\right)\).\\ 6. On note \(U\) la variable aléatoire \(\frac{n}{\sum_{i=1}^{n} X_{i}}\).\\ a) Établir, pour tout \(\theta \in \Theta\) et tout entier \(k \geq n\), l'égalité: \[ \frac{n}{k}=\theta-\theta^{2}\left(\frac{k}{n}-\frac{1}{\theta}\right)+\int_{1 / \theta}^{k / n}\left(\frac{k}{n}-t\right) \frac{2}{t^{3}} \mathrm{~d} t \] b) En déduire que \(U\) est un estimateur de \(\theta\) dont le biais \(b_{\theta}(U)\) est donné par : \[ \forall \theta \in \Theta, \quad b_{\theta}(U)=\sum_{k=n}^{+\infty} P\left(\left[\sum_{i=1}^{n} X_{i}=k\right]\right) \int_{1 / \theta}^{k / n}\left(\frac{k}{n}-t\right) \frac{2}{t^{3}} \mathrm{~d} t \] c) Justifier que \(b_{\theta}(U)\) est strictement positif, quelle que soit la valeur du paramètre \(\theta\).\\ 7. Dans cette question, on suppose que le nombre des observations est illimité. On dispose donc, pour estimer le paramètre \(\theta\), d'une suite \(\left(X_{n}\right)_{n \in \mathbb{N}^{*}}\) de variables aléatoires mutuellement indépendantes et de même loi.\\ Pour tout entier \(n \in \mathbb{N}^{*}\), on note \(T_{n}=\frac{1}{n} \sum_{i=1}^{n} \frac{1}{X_{i}}\) et \(U_{n}=\frac{n}{\sum_{i=1}^{n} X_{i}}\).\\ Étudier la convergence des deux suites d'estimateurs \(\left(T_{n}\right)_{n \in \mathbb{N}^{*}}\) et \(\left(U_{n}\right)_{n \in \mathbb{N}^{*}}\) du paramètre \(\theta\). Dans toute la suite du problème, on dit qu'une statistique \(S=s\left(X_{1}, \ldots, X_{n}\right)\) est exhaustive s'il existe une application \(g\) de \(s\left(B^{n}\right) \times \Theta\) dans \(\mathbb{R}_{+}\)et une application \(h\) de \(B^{n}\) dans \(\mathbb{R}_{+}\)telles que : \[ \forall \theta \in \Theta, \forall\left(x_{1}, \ldots, x_{n}\right) \in B^{n}, L\left(x_{1}, \ldots, x_{n}, \theta\right)=g\left(s\left(x_{1}, \ldots, x_{n}\right), \theta\right) h\left(x_{1}, \ldots, x_{n}\right) \] \section*{Partie III : statistique exhaustive, un exemple} Dans cette partie, on suppose que \(B=\{0,1\}, \Theta=] 0,1\) [ et que, quel que soit \(\theta \in \Theta\), les variables aléatoires \(X_{1}, \ldots, X_{n}\) suivent la loi de Bernoulli de paramètre \(\theta\), lorsque l'espace probabilisable ( \(\Omega, \mathcal{A}\) ) est muni de la probabilité \(P^{\theta}\).\\ On pose : \(S=\sum_{i=1}^{n} X_{i}\).\\ 8. a) Démontrer que la vraisemblance de n'importe quelle valeur \(\theta \in \Theta\) du paramètre est donnée par : \[ \forall\left(x_{1}, \ldots, x_{n}\right) \in\{0,1\}^{n}, \quad L\left(x_{1}, \ldots, x_{n}, \theta\right)=\theta^{\left(\sum_{i=1}^{n} x_{i}\right)} \times(1-\theta)^{\left(\sum_{i=1}^{n}\left(1-x_{i}\right)\right)} . \] b) En déduire que la statistique \(S\) est exhaustive.\\ 9. Soit \(k \in \llbracket 0, n \rrbracket\) et \(\left(x_{1}, \ldots, x_{n}\right) \in\{0,1\}^{n}\).\\ a) Calculer la probabilité conditionnelle \(P_{[S=k]}^{\theta}\left(\left[X_{1}=x_{1}\right] \cap \cdots \cap\left[X_{n}=x_{n}\right]\right)\) et vérifier que la loi conditionnelle du vecteur aléatoire \(\left(X_{1}, \ldots, X_{n}\right)\) sachant l'événement \([S=k]\) ne dépend pas du paramètre \(\theta\).\\ b) Établir, pour tout \(\theta \in \Theta\), l'égalité : \(\quad P_{[S=k]}^{\theta}\left(\left[X_{1}=1\right]\right)=\frac{k}{n}\).\\ 10. Le script Scilab suivant permet d'effectuer des simulations, qu'il place dans une matrice Y , dont il évalue ensuite la moyenne de chaque colonne. \begin{verbatim} --> theta=0.3; --> N=100000; --> n=10; --> k=4; --> U=grand(n,N,'bin',1,theta); --> S=sum(U,'r'); // somme des lignes de U, colonne par colonne --> K=find(S==k) ; // recherche des coefficients de S égaux à k \end{verbatim} \begin{verbatim} --> Y=U(1:n,K); --> M=mean(Y,'c') // moyenne des colonnes de Y, ligne par ligne ans = 0.4019917 0.4042436 0.4008908 0.3962868 0.4054947 0.3953861 0.3990892 0.4002402 0.3941851 0.4021919 \end{verbatim} a) Décrire avec précision ce que représente une colonne de la matrice U.\\ b) Expliquer pourquoi les coefficients de Y fournissent une simulation d'une loi conditionnelle du vecteur ( \(X_{1}, \ldots, X_{n}\) ).\\ c) Commenter les résultats trouvés pour les coefficients de M.\\ 11. Á la suite du script précédent, on exécute l'instruction suivante :\\ --> \(\mathrm{C}=\mathrm{Y} * \mathrm{Y}^{\prime} /\) length \((\mathrm{K})\);\\ a) Donner le format de la matrice C et indiquer la valeur de son coefficient \(\mathrm{C}(1,1)\).\\ b) Á quelle valeur approchée peut-on s'attendre pour \(\mathrm{C}(1,2)\) et pour les autres coefficients non diagonaux de la matrice C ?\\ c) Quelle est la somme totale des coefficients de la matrice C ? \section*{Partie IV : inégalité de Rao-Blackwell} Dans cette partie, on reprend les hypothèses générales du préambule et on considère une statistique exhaustive \(S=s\left(X_{1}, \ldots, X_{n}\right)\), au sens donné par (5).\\ On admet que, pour tout élément \(u\) de \(s\left(B^{n}\right)\) et tout élément \(\left(x_{1}, \ldots, x_{n}\right)\) de \(B^{n}\), la probabilité conditionnelle \(P_{[S=u]}^{\theta}\left(\left[X_{1}=x_{1}\right] \cap \cdots \cap\left[X_{n}=x_{n}\right]\right)\) ne dépend pas de \(\theta\).\\ 12. Soit \(T\) un estimateur sans biais du paramètre \(\theta\).\\ a) Démontrer que, pour tout \(u \in s\left(B^{n}\right)\), l'espérance conditionnelle \(E_{[S=u]}^{\theta}(T)\) existe et que sa valeur ne dépend pas de \(\theta\).\\ b) Justifier que \(([S=u])_{u \in s\left(B^{n}\right)}\) est un système complet d'événements.\\ 13. Comme l'espérance conditionnelle \(E_{[S=u]}^{\theta}(T)\) ne dépend pas de la valeur de \(\theta\), on peut la noter \(E_{[S=u]}(T)\) et définir une application \(r\) de \(B^{n}\) dans \(\mathbb{R}\) par : \[ \forall\left(x_{1}, \ldots, x_{n}\right) \in B^{n}, \quad r\left(x_{1}, \ldots, x_{n}\right)=E_{\left[S=s\left(x_{1}, \ldots, x_{n}\right)\right]}(T) . \] a) En utilisant la formule de l'espérance totale, démontrer que \(R=r\left(X_{1}, \ldots, X_{n}\right)\) est un estimateur sans biais de \(\theta\).\\ b) On suppose que \(T\) admet une variance, quelle que soit la valeur du paramètre \(\theta\). Justifier qu'il en est de même pour \(R\) et en utilisant les inégalités \[ \left(E_{[S=u]}(T-\theta)\right)^{2} \leq E_{[S=u]}\left((T-\theta)^{2}\right) \] établir, pour tout \(\theta \in \Theta\), l'inégalité (appelée inégalité de Rao-Blackwell) : \[ V^{\theta}(R) \leq V^{\theta}(T) \] \begin{enumerate} \setcounter{enumi}{13} \item Un exemple d'estimateur sans biais optimal \end{enumerate} Dans cette question uniquement, on suppose que \(B=\mathbb{N}, \Theta=] 0,+\infty[\) et que, pour tout \(\theta \in \Theta\), la loi commune des variables aléatoires \(X_{1}, \ldots, X_{n}\) sur l'espace probabilisé ( \(\Omega, \mathcal{A}, P^{\theta}\) ) est la loi de Poisson de paramètre \(\theta\).\\ a) Justifier que la statistique \(S=\sum_{i=1}^{n} X_{i}\) est exhaustive.\\ b) Soit \(u \in \mathbb{N}\) et \(\left(x_{1}, \ldots, x_{n}\right) \in \mathbb{N}^{n}\). Vérifier que la probabilité conditionnelle \(P_{[S=u]}^{\theta}\left(\left[X_{1}=x_{1}\right] \cap \cdots \cap\left[X_{n}=x_{n}\right]\right)\) ne dépend pas de \(\theta\).\\ c) Soit \(u \in \mathbb{N}\). Démontrer que chacune des variables aléatoires \(X_{1}, \ldots, X_{n}\) suit une loi binomiale lorsque l'espace probabilisable ( \(\Omega, \mathcal{A}\) ) est muni de la probabilité \(P_{[S=u]}^{\theta}\). Sont-elles indépendantes pour cette probabilité?\\ d) Trouver une suite réelle \(\left(\varphi_{k}\right)_{k \in \mathbb{N}}\) telle que \[ \forall \theta>0, \quad \sum_{k=0}^{+\infty} \varphi_{k} \frac{(n \theta)^{k}}{k!}=\theta \mathrm{e}^{n \theta} \] et en prouver l'unicité à l'aide du résultat de la question 2 .\\ e) En exploitant le résultat de la question 13, démontrer que, parmi les estimateurs sans biais de \(\theta\), l'estimateur \(\frac{1}{n} \sum_{i=1}^{n} X_{i}\) est optimal, c'est-à-dire que son risque quadratique est inférieur ou égal à celui de tout autre estimateur sans biais de \(\theta\). \end{document}