\documentclass[10pt]{article}
\usepackage[french]{babel}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{amsmath}
\usepackage{amsfonts}
\usepackage{amssymb}
\usepackage[version=4]{mhchem}
\usepackage{stmaryrd}
\usepackage{bbold}

\title{BANQUE COMMUNE D'EPREUVES }

\author{}
\date{}


\begin{document}
\maketitle
\section*{CONCOURS D'ADMISSION DE 2012}
\section*{Conception : C.C.I.P.}
\section*{OPTION SCIENTIFIQUE}
\section*{Code épreuve : 283}
\section*{MATHEMATIQUES II}
Mercredi 9 mai 2012, de 8 h. à 12 h.

La présentation, la lisibilité, l'orthographe, la qualité de la rédaction, la clarté et la précision des raisonnements entreront pour une part importante dans l'appréciation des copies.\\
Les candidats sont invités à encadrer dans la mesure du possible les résultats de leurs calculs.\\
Ils ne doivent faire usage d'aucun document : l'utilisation de toute calculatrice et de tout matériel électronique est interdite. Seule l'utilisation d'une règle graduée est autorisée.\\
Si au cours de l'épreuve, un candidat repère ce qui lui semble être une erreur d'énoncé, il la signalera sur sa copie et poursuivra sa composition en expliquant les raisons des initiatives qu'il sera amené à prendre

\begin{itemize}
  \item Toutes les variables aléatoires qui interviennent dans ce problème sont réelles et définies sur un même espace probabilisé \((\Omega, \mathcal{A}, P)\), où \(P\) peut dépendre de paramètres réels inconnus \(a, b, \sigma\) etc ; elles admettent toutes une espérance et une variance : si \(J\) désigne l'une de ces variables aléatoires, on note \(E(J)\) son espérance et \(V(J)\) sa variance.\\
Si \(J_{1}, J_{2}\) et \(J_{1}+J_{2}\) sont des variables aléatoires à densité, on admet alors l'existence de la covariance de \(J_{1}\) et \(J_{2}\), notée \(\operatorname{Cov}\left(J_{1}, J_{2}\right)\), qui est définie par la formule : \(\operatorname{Cov}\left(J_{1}, J_{2}\right)=\frac{1}{2}\left(V\left(J_{1}+J_{2}\right)-V\left(J_{1}\right)-V\left(J_{2}\right)\right)\).\\
On admet que les covariances de variables aléatoires à densité vérifient les mêmes règles de calcul que celles des variables aléatoires discrètes.
  \item Pour tout \((k, \ell)\) de \(\left(\mathbb{N}^{*}\right)^{2}\), on note \(\mathcal{M}_{k, \ell}(\mathbb{R})\) l'ensemble des matrices à \(k\) lignes et \(\ell\) colonnes à coefficients réels; on note \(\mathcal{M}_{k}(\mathbb{R})\) l'ensemble des matrices carrées d'ordre \(k\).
  \item On note \({ }^{t} Q\) la transposée d'une matrice \(Q\).
  \item Dans tout le problème, \(n\) désigne un entier supérieur ou égal à 3 .
\end{itemize}

L'objet du problème est l'étude de quelques propriétés du modèle de régression linéaire élémentaire.

\section*{Partie I. Quelques résultats statistiques et algébriques}
On considère une population d'individus statistiques dans laquelle on étudie deux caractères quantitatifs \(\mathcal{X}\) et \(\mathcal{Y}\). On extrait de cette population, un échantillon de \(n\) individus sélectionnés selon des valeurs choisies du caractère \(\mathcal{X}\) et numérotés de 1 à \(n\).\\
Pour tout \(i\) de \(\llbracket 1, n \rrbracket\), les réels \(x_{i}\) et \(y_{i}\) sont les observations respectives de \(\mathcal{X}\) et de \(\mathcal{Y}\) pour l'individu \(i\) de l'échantillon. On suppose que les réels \(x_{1}, x_{2}, \ldots, x_{n}\) ne sont pas tous égaux.\\
Soit \(a\) et \(b\) deux paramètres réels. On pose pour tout \(i\) de \(\llbracket 1, n \rrbracket: u_{i}=y_{i}-\left(a x_{i}+b\right) . \quad(*\)

\begin{enumerate}
  \item On note \(\bar{x}\) (resp. \(\bar{y}\) ) et \(s_{x}^{2}\) (resp. \(s_{y}^{2}\) ), la moyenne empirique et la variance empirique de la série statistique \(\left(x_{i}\right)_{1 \leqslant i \leqslant n}\left(\right.\) resp. \(\left.\left(y_{i}\right)_{1 \leqslant i \leqslant n}\right)\); on rappelle que : \(\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}\) et \(s_{x}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\).\\
a) Montrer que \(s_{x}^{2}>0\).\\
b) Établir les formules : \(\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right) y_{i}=\sum_{i=1}^{n}\left(x_{i} y_{i}\right)-n \bar{x} \bar{y}\) et \(\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=\sum_{i=1}^{n}\left(x_{i}^{2}\right)-n \bar{x}^{2}\).\\
c) On pose pour tout \(i\) de \(\llbracket 1, n \rrbracket: \alpha_{i}=\frac{\left(x_{i}-\bar{x}\right)}{n s_{x}^{2}}\). Montrer que : \(\sum_{i=1}^{n} \alpha_{i}=0, \sum_{i=1}^{n} \alpha_{i} x_{i}=1\) et \(\sum_{i=1}^{n} \alpha_{i}{ }^{2}=\frac{1}{n s_{x}^{2}}\).
  \item On pose: \(y=\left(\begin{array}{c}y_{1} \\ \vdots \\ y_{n}\end{array}\right) \in \mathcal{M}_{n, 1}(\mathbb{R}), u=\left(\begin{array}{c}u_{1} \\ \vdots \\ u_{n}\end{array}\right) \in \mathcal{M}_{n, 1}(\mathbb{R}), \theta=\binom{a}{b} \in \mathcal{M}_{2,1}(\mathbb{R})\) et \(M=\left(\begin{array}{cc}x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1\end{array}\right) \in \mathcal{M}_{n, 2}(\mathbb{R})\).
\end{enumerate}

Les \(n\) relations (*) s'écrivent sous la forme matricielle suivante : \(y=M \theta+u\).\\
a) Quel est le rang de la matrice \(M\) ?\\
b) Calculer la matrice \({ }^{t} M M\) et justifier son inversibilité.\\
3. L'espace vectoriel \(\mathbb{R}^{n}\) est muni de sa structure euclidienne canonique. Soit \(\mathcal{F}\) le sous-espace vectoriel engendré par les vecteurs \(\left(x_{1}, x_{2}, \ldots, x_{n}\right)\) et \((1,1, \ldots, 1)\) de \(\mathbb{R}^{n}\). On note \(K\) la matrice du projecteur orthogonal de \(\mathbb{R}^{n}\) sur \(\mathcal{F}\) dans la base canonique de \(\mathbb{R}^{n}\) et \(G=I-K\), où \(I\) désigne la matrice identité de \(\mathcal{M}_{n}(\mathbb{R})\).\\
a) On cherche les matrices \(\theta=\binom{a}{b}\) de \(\mathcal{M}_{2,1}(\mathbb{R})\) qui minimisent \(\sum_{i=1}^{n} u_{i}^{2}=\sum_{i=1}^{n}\left(y_{i}-\left(a x_{i}+b\right)\right)^{2}\). Montrer que ce problème admet une unique solution \(\hat{\theta}=\binom{\hat{a}}{\hat{b}}\) et qu'elle vérifie la relation : \({ }^{t} M M \hat{\theta}={ }^{t} M y\).\\
b) Montrer que : \(\hat{a}=\sum_{i=1}^{n} \alpha_{i} y_{i}\) et \(\hat{b}=\bar{y}-\hat{a} \bar{x}\).\\
c) Exprimer \(K\) en fonction de \(M\) et \({ }^{t} M\).\\
d) Soit \(\hat{u}\) la matrice-colonne de \(\mathcal{M}_{n, 1}(\mathbb{R})\) de composantes \(\hat{u}_{1}, \hat{u}_{2}, \ldots, \hat{u}_{n}\) définie par \(\hat{u}=y-M \hat{\theta}\). Montrer que : \(\hat{u}=G y=G u\).\\
e) En déduire les égalités : \({ }^{t} \widehat{u} \widehat{u}=\sum_{i=1}^{n} \widehat{u}_{i}^{2}={ }^{t} y G y={ }^{t} u G u\).

\section*{Partie II. Le modèle de régression linéaire}
Le contexte et les notations sont ceux de la partie I. Dans cette partie, on cherche à modéliser les fluctuations aléatoires du caractère \(\mathcal{Y}\) sur l'échantillon.

Les hypothèses du modèle de régression linéaire élémentaire sont les suivantes:

\begin{itemize}
  \item les réels \(a\) et \(b\) sont des paramètres inconnus ;
  \item pour tout \(i\) de \(\llbracket 1, n \rrbracket\), la valeur \(x_{i}\) du caractère \(\mathcal{X}\) est connue et la valeur \(y_{i}\) du caractère \(\mathcal{Y}\) est la réalisation d'une variable aléatoire \(Y_{i}\);
  \item pour tout \(i\) de \(\llbracket 1, n \rrbracket, Y_{i}\) est la somme d'une composante déterministe \(a x_{i}+b\), fonction affine de la valeur choisie \(x_{i}\), et d'une composante aléatoire \(U_{i}\);
  \item les variables aléatoires \(U_{1}, U_{2}, \ldots, U_{n}\) sont mutuellement indépendantes, de même loi, possèdent une densité, et pour tout \(i\) de \(\llbracket 1, n \rrbracket: E\left(U_{i}\right)=0\) et \(V\left(U_{i}\right)=\sigma^{2}\), où le paramètre inconnu \(\sigma\) est strictement positif.\\
Le modèle de régression linéaire s'écrit alors : pour tout \(i\) de \(\llbracket 1, n \rrbracket, Y_{i}=a x_{i}+b+U_{i} \quad\) (1).\\
L'objectif consiste à estimer les paramètres inconnus \(a, b\) et \(\sigma^{2}\) du modèle (1).\\
On pose pour tout \(n \geqslant 3: \bar{Y}_{n}=\frac{1}{n} \sum_{i=1}^{n} Y_{i}\) et \(\bar{U}_{n}=\frac{1}{n} \sum_{i=1}^{n} U_{i}\).
\end{itemize}

\begin{enumerate}
  \setcounter{enumi}{3}
  \item On note \(A_{n}\) et \(B_{n}\) les deux variables aléatoires définies par : \(A_{n}=\sum_{i=1}^{n} \alpha_{i} Y_{i}\) et \(B_{n}=\bar{Y}_{n}-A_{n} \bar{x}\), où le réel \(\alpha_{i}\) a été défini dans la question 1.c).\\
a) Montrer que \(A_{n}\) et \(B_{n}\) sont des estimateurs sans biais de \(a\) et \(b\) respectivement.\\
b) Établir les formules suivantes: \(V\left(A_{n}\right)=\frac{\sigma^{2}}{n s_{x}^{2}} \quad\) et \(\quad V\left(B_{n}\right)=\left(1+\frac{\bar{x}^{2}}{s_{x}^{2}}\right) \frac{\sigma^{2}}{n}\).\\
c) Calculer \(\operatorname{Cov}\left(A_{n}, B_{n}\right)\).
  \item Dans cette question uniquement, l'entier \(n\) n'est plus fixé. On suppose l'existence de \(\lambda=\lim _{n \rightarrow+\infty} \frac{1}{n} \sum_{i=1}^{n} x_{i}\) et \(\mu^{2}=\lim _{n \rightarrow+\infty} \frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, \operatorname{avec}(\lambda, \mu) \in \mathbb{R} \times \mathbb{R}_{+}^{*}\).\\
Montrer que les deux suites \(\left(A_{n}\right)_{n \geqslant 3}\) et \(\left(B_{n}\right)_{n \geqslant 3}\) convergent en probabilité vers \(a\) et \(b\) respectivement.\\
6.a) On pose pour tout \(i\) de \(\llbracket 1, n \rrbracket: \widehat{U}_{i}=Y_{i}-A_{n} x_{i}-B_{n}\). Calculer \(E\left(\widehat{U}_{i}\right)\).\\
b) Établir l'égalité : \(\sum_{i=1}^{n} \widehat{U}_{i}^{2}=\sum_{i=1}^{n}\left(U_{i}-\bar{U}_{n}\right)^{2}-n s_{x}^{2}\left(A_{n}-a\right)^{2}\).\\
c) Calculer \(E\left(\sum_{i=1}^{n} \widehat{U}_{i}^{2}\right)\). En déduire un estimateur sans biais de \(\sigma^{2}\).
\end{enumerate}

\section*{Partie III. Hypothèse de normalité et prévision}
Le contexte et les notations de cette partie sont ceux des parties I et II. De plus, on suppose dans cette partie que pour tout i de \(\llbracket 1, n \rrbracket\), la variable aléatoire \(U_{i}\) suit une loi normale \(\mathcal{N}\left(0, \sigma^{2}\right)\).\\
On pose : \(Y=\left(\begin{array}{c}Y_{1} \\ \vdots \\ Y_{n}\end{array}\right)\) et \(U=\left(\begin{array}{c}U_{1} \\ \vdots \\ U_{n}\end{array}\right)\). Le modèle (1) de la partie II s'écrit alors matriciellement : \(Y=M \theta+U\).\\
Soit \(W_{1}, W_{2}, \ldots, W_{q}\left(q \in \mathbb{N}^{*}\right), q\) variables aléatoires réelles définies sur ( \(\Omega, \mathcal{A}, P\) ). On définit le vecteur aléatoire \(\left(W_{1}, W_{2}, \ldots, W_{q}\right)\) à valeurs dans \(\mathbb{R}^{q}\), en associant à tout \(\omega\) de \(\Omega\) le vecteur \(\left(W_{1}(\omega), W_{2}(\omega), \ldots, W_{q}(\omega)\right)\) de \(\mathbb{R}^{q}\).\\
On dit que le vecteur aléatoire \(\left(W_{1}, W_{2}, \ldots, W_{q}\right)\) est normal si pour tout \(q\)-uplet \(\left(\rho_{1}, \rho_{2}, \ldots, \rho_{q}\right)\) de nombres réels, différent de \((0,0, \ldots, 0)\), la variable aléatoire \(\sum_{i=1}^{q} \rho_{i} W_{i}\) suit une loi normale de variance non nulle.\\
Dans le cas où le vecteur ( \(W_{1}, W_{2}, \ldots, W_{q}\) ) est normal, on admet que les variables aléatoires \(W_{1}, W_{2}, \ldots, W_{q}\) sont mutuellement indépendantes si et seulement si pour tout \((i, j)\) de \(\llbracket 1, q \rrbracket^{2}\) avec \(i \neq j, \operatorname{Cov}\left(W_{i}, W_{j}\right)=0\).\\
7.a) Montrer que le vecteur aléatoire \(\left(Y_{1}, Y_{2}, \ldots, Y_{n}\right)\) est normal mais que le vecteur \(\left(Y_{1}-\bar{Y}_{n}, Y_{2}-\bar{Y}_{n}, \ldots, Y_{n}-\overline{Y_{n}}\right)\) ne l'est pas.\\
b) Déterminer la loi de chacune des variables aléatoires \(A_{n}\) et \(B_{n}\). Le vecteur aléatoire ( \(A_{n}, B_{n}\) ) est-il normal?\\
8. Soit \(S\) une matrice inversible de \(\mathcal{M}_{n}(\mathbb{R})\). On note \(T\) la matrice-colonne des composantes du vecteur aléatoire \(\left(T_{1}, T_{2}, \ldots, T_{n}\right)\) telle que \(T=S U\).\\
a) Montrer que le vecteur \(\left(T_{1}, T_{2}, \ldots, T_{n}\right)\) est normal.\\
b) On suppose que la matrice \(S\) est orthogonale. Montrer que \(T_{1}, T_{2}, \ldots, T_{n}\) sont mutuellement indépendantes.\\
9. Soit \(\widehat{U}_{1}, \widehat{U}_{2}, \ldots, \widehat{U}_{n}\) les variables aléatoires qui ont été définies dans la question 6.

On note \(\widehat{U}\) la matrice-colonne de composantes \(\widehat{U}_{1}, \widehat{U}_{2}, \ldots, \widehat{U}_{n}\) définie par \(\widehat{U}=Y-M\binom{A_{n}}{B_{n}}\).\\
a) Montrer que \(\widehat{U}=G U\), où la matrice \(G\) a été définie dans la question 3 .\\
b) Justifier l'existence d'une matrice orthogonale \(R\) de \(\mathcal{M}_{n}(\mathbb{R})\) et d'une matrice diagonale \(D\) de \(\mathcal{M}_{n}(\mathbb{R})\), telles que \(G=R D^{t} R\). Quels sont les éléments diagonaux de \(D\) ?\\
c) Soit \(Z\) la matrice-colonne de composantes \(Z_{1}, Z_{2}, \ldots, Z_{n}\) définie par \(Z={ }^{t} R U\). Quelle est la loi de \(\sum_{i=1}^{n-2} Z_{i}^{2}\) ?\\
d) En déduire que la variable aléatoire \(\sum_{i=1}^{n} \widehat{U}_{i}^{2}\) suit la loi \(\Gamma\left(2 \sigma^{2}, \frac{n-2}{2}\right)\).\\
e) Soit \(p\) un réel donné vérifiant \(0<p<1\). Établir l'existence d'un réel \(c_{n}\) ne dépendant pas des paramètres inconnus \(a, b\) et \(\sigma^{2}\), tel que \(P\left(\left[\sum_{i=1}^{n} \widehat{U}_{i}^{2} \geqslant c_{n} \sigma^{2}\right]\right)=p\).

Dans les questions 10 et 11 , on suppose qu'une ( \(n+1\) )-ième valeur de \(\mathcal{X}\), notée \(x_{n+1}\), est choisie mais que la valeur correspondante \(y_{n+1}\) de \(\mathcal{Y}\) est inconnue. On suppose que \(y_{n+1}\) est la réalisation d'une variable aléatoire \(Y_{n+1}\) qui vérifie \(Y_{n+1}=a x_{n+1}+b+U_{n+1}\), où les variables aléatoires \(U_{1}, U_{2}, \ldots, U_{n+1}\) sont mutuellement indépendantes et de même loi \(\mathcal{N}\left(0, \sigma^{2}\right)\).\\
10. On pose pour tout \(n\)-uplet \(r=\left(r_{1}, r_{2}, \ldots, r_{n}\right)\) de \(\mathbb{R}^{n}: \widehat{Y}_{n+1}^{(r)}=\sum_{i=1}^{n} r_{i} Y_{i}\).

L'ensemble \(\left\{\widehat{Y}_{n+1}^{(r)} ; r \in \mathbb{R}^{n}\right\}\) est l'ensemble des "prédicteurs linéaires" de \(Y_{n+1}\).\\
a) Soit \(g\) la fonction définie sur \(\mathbb{R}^{n}\) à valeurs réelles, telle que pour tout \(r=\left(r_{1}, r_{2}, \ldots, r_{n}\right)\) de \(\mathbb{R}^{n}\), \(g\left(r_{1}, r_{2}, \ldots, r_{n}\right)=\sum_{i=1}^{n} r_{i}^{2}\). On rappelle que pour tout \(i\) de \(\llbracket 1, n \rrbracket: \alpha_{i}=\frac{\left(x_{i}-\bar{x}\right)}{n s_{x}^{2}}\).\\
Montrer que la fonction \(g\) admet un minimum absolu sous les contraintes \(\sum_{i=1}^{n} r_{i}=1\) et \(\sum_{i=1}^{n} x_{i} r_{i}=x_{n+1}\), atteint en l'unique point \(r^{*}=\left(r_{1}^{*}, r_{2}^{*}, \ldots, r_{n}^{*}\right)\), où pour tout \(i\) de \(\llbracket 1, n \rrbracket, r_{i}^{*}=\frac{1}{n}+\left(x_{n+1}-\bar{x}\right) \alpha_{i}\).\\
b) Montrer que parmi les prédicteurs linéaires \(\widehat{Y}_{n+1}^{(r)}\) de \(Y_{n+1}\), qui vérifient \(E\left(\widehat{Y}_{n+1}^{(r)}\right)=E\left(Y_{n+1}\right)\) pour tout \((a, b)\) de \(\mathbb{R}^{2}, \widehat{Y}_{n+1}^{\left(r^{*}\right)}\) est celui qui a la plus petite variance.\\
Vérifier que \(\widehat{Y}_{n+1}^{\left(r^{*}\right)}=A_{n} x_{n+1}+B_{n}\).\\
11.a) Déterminer la loi de la variable aléatoire \(Y_{n+1}-\left(A_{n} x_{n+1}+B_{n}\right)\).\\
b) On note \(\Phi\) la fonction de répartition de la loi \(\mathcal{N}(0,1)\). Soit \(p\) un réel donné vérifiant \(\frac{1}{2}<p<1\). Justifier l'existence d'un réel \(d_{n}\), que l'on exprimera à l'aide de \(\Phi^{-1}\), ne dépendant pas de \(a, b\) et \(\sigma^{2}\), tel que \(P\left(\left[\left|Y_{n+1}-\left(A_{n} x_{n+1}+B_{n}\right)\right| \leqslant d_{n} \sigma\right]\right)=p\).\\
c) En déduire, à l'aide de la question 9.e), un intervalle dont les bornes ne dépendent que des \(\left(Y_{i}\right)_{1 \leqslant i \leqslant n}\), des \(\left(x_{i}\right)_{1 \leqslant i \leqslant n+1}\), de \(c_{n}\) et \(d_{n}\), qui contienne \(Y_{n+1}\) avec une probabilité supérieure ou égale à \(2 p-1\). S'agit-il d'un intervalle de confiance au sens usuel du terme?


\end{document}