\documentclass[10pt]{article} \usepackage[french]{babel} \usepackage[utf8]{inputenc} \usepackage[T1]{fontenc} \usepackage{amsmath} \usepackage{amsfonts} \usepackage{amssymb} \usepackage[version=4]{mhchem} \usepackage{stmaryrd} \usepackage{bbold} \title{Concours d'admission de 2017 \\ Conception : ESSEC } \author{OPTION Economique} \date{} %New command to display footnote whose markers will always be hidden \let\svthefootnote\thefootnote \newcommand\blfootnotetext[1]{% \let\thefootnote\relax\footnote{#1}% \addtocounter{footnote}{-1}% \let\thefootnote\svthefootnote% } %Overriding the \footnotetext command to hide the marker if its value is `0` \let\svfootnotetext\footnotetext \renewcommand\footnotetext[2][?]{% \if\relax#1\relax% \ifnum\value{footnote}=0\blfootnotetext{#2}\else\svfootnotetext{#2}\fi% \else% \if?#1\ifnum\value{footnote}=0\blfootnotetext{#2}\else\svfootnotetext{#2}\fi% \else\svfootnotetext[#1]{#2}\fi% \fi } \begin{document} \maketitle \section*{MATHÉMATIQUES} Jeudi 4 mai 2017 , de 8 h. à 12 h. La présentation, la lisibilité, l'orthographe, la qualité de la rédaction, la clarté et la précision des raisonnements entreront pour une part importante dans l'appréciation des copies.\\ Les candidats sont invités à encadrer dans la mesure du possible les résultats de leurs calculs. Ils ne doivent faire usage d'aucun document. L'utilisation de toute calculatrice et de tout matériel électronique est interdite. Seule l'utilisation d'une règle graduée est autorisée.\\ Si au cours de l'épreuve, un candidat repère ce qui lui semble être une erreur d'énoncé, il la signalera sur sa copie et poursuivra sa composition en expliquant les raisons des initiatives qu'il sera amené à prendre. Est-il possible que le marketing digital pose des problèmes de sécurité des données personnelles? De récents travaux \({ }^{1}\), mettant en cause les outils de mesure de performance en temps réel des différentes campagnes de publicité sur internet, démontrent que certaines données très sensibles (préférences religieuses, sexuelles, etc.) peuvent être obtenues par des segmentations précises des audiences et sans aucune action de la part de l'utilisateur.\\ Dans ce problème, nous nous intéressons à une méthode proposée pour protéger ces données, méthode baptisée confidentialité différentielle. Les parties I et II sont totalement indépendantes. Vous trouverez une aide Scilab en fin de sujet.\\ On considère un espace probabilisé ( \(\Omega, \mathcal{A}, \mathbb{P}\) ) sur lequel sont définies les variables aléatoires qui apparaissent dans l'énoncé. \footnotetext{\begin{enumerate} \item Par exemple, A. Korolova. Privacy violations using microtargeted ads : A case study (2010) \end{enumerate} }\section*{Partie I - Lois de Laplace - propriétés et simulation} Soit \(\alpha \in \mathbb{R}\) et \(\beta>0\). On dit qu'une variable aléatoire réelle a densité suit une loi de Laplace de paramètre \((\alpha, \beta)\), notée \(\mathcal{L}(\alpha, \beta)\), si elle admet comme densité la fonction \(f\) donnée par : \[ \forall t \in \mathbb{R}, \quad f(t)=\frac{1}{2 \beta} \exp \left(-\frac{|t-\alpha|}{\beta}\right) \] \begin{enumerate} \item Vérifier que \(f\) est bien une densité de probabilité d'une variable aléatoire réelle. \item Déterminer la fonction de répartition, notée \(\Psi\), de la loi \(\mathcal{L}(0,1)\). \item On suppose que \(X\) suit la loi \(\mathcal{L}(0,1)\).\\ (a) Montrer que \(\beta X+\alpha\) suit la loi \(\mathcal{L}(\alpha, \beta)\).\\ (b) En déduire la fonction de répartition de la loi \(\mathcal{L}(\alpha, \beta)\). \item Espérance et variance.\\ (a) On suppose que \(X\) suit la loi \(\mathcal{L}(0,1)\). \end{enumerate} Montrer que \(\mathbb{E}(X)\) et \(\mathbb{V}(X)\) existent et valent respectivement 0 et 2.\\ (b) En déduire l'existence et les valeurs de l'espérance et de la variance d'une variable aléatoire réelle qui suit la loi \(\mathcal{L}(\alpha, \beta)\).\\ 5. Simulation à partir d'une loż exponentielle. Soit \(U\) une variable aléatoire qui suit la loi exponentielle de paramètre 1 et \(V\) une variable aléatoire qui suît la loi de Bernoulli de paramètre \(\frac{1}{2}\) et indépendante de \(U\).\\ (a) En utilisant le système complet naturellement associé à \(V\), montrer que \(X=(2 V-1) U\) suit la loi \(\mathcal{L}(0,1)\).\\ (b) Compléter la définition Scilab ci-dessous pour que la fonction ainsi définie réalise la simulation d'une variable aléatore qui suit la loi \(\mathcal{C}(\alpha, \beta)\) : \begin{verbatim} function r = Laplace (alpha,beta) if ...<= 1/2 V =1 else V = 0 end X=(2*V-1)*grand(1,1, "exp", 1) r = ... endfunction \end{verbatim} \section*{Partie II - Lois \(\varepsilon\)-différentielles} Soit \(\varepsilon>0\). On dit que \((X, Y)\), un couple de variables aléatoires, est un couple \(\varepsilon\)-différentiel si, pour tout intervalle \(I\) de \(\mathbb{R}\) : \[ e^{-\varepsilon} \mathbb{P}([X \in I]) \leqslant \mathbb{P}([Y \in I]) \leqslant e^{\varepsilon} \mathbb{P}([X \in I]) \] Intuitivement, les lois de \(X\) et \(Y\) seront d'autant plus proches que le plus petit \(\varepsilon\) tel que \((X, Y)\) soit un couple \(\varepsilon\)-différentiel est proche de 0 .\\ 6. Soit \((X, Y, Z)\) un triplet de variables aléatoires réelles.\\ (a) Montrer que si \((X, Y)\) est \(\varepsilon\)-différentiel alors \((Y, X)\) l'est aussi.\\ (b) Montrer que si \((X, Y)\) est \(\varepsilon\)-différentiel et \(\left(Y_{1} Z\right)\) est \(\varepsilon^{\prime}\)-différentiel alors \((X, Z)\) est \(\left(\varepsilon+\varepsilon^{\prime}\right)\)-différentiel.\\ 7. Soit \((X, Y)\) un couple de variables aléatoires réelles discrètes. On suppose que \(X(\Omega) \cup Y(\Omega)=\left\{z_{n} / n \in J\right\}\) où \(J\) est un sous ensemble non vide de \(\mathbb{N}\).\\ Montrer que ( \(X, Y\) ) est \(\varepsilon\)-differentiel si et seulement si \[ \begin{gathered} \forall n \in J, \quad e^{-\varepsilon} \mathbb{P}\left(\left[X=z_{n}\right]\right) \leqslant \mathbb{P}\left(\left[Y=z_{n}\right]\right) \leqslant e^{\varepsilon} \mathbb{P}\left(\left[X=z_{n}\right]\right) \\ 2 / 5 \end{gathered} \] \begin{enumerate} \setcounter{enumi}{7} \item Premier exemple. \end{enumerate} Dans cette question, on suppose que \(X\) suit la loi géométrique de paramètre \(\frac{1}{2}, Z\) suit la loi de Bernoulli de paramètre \(p \in] 0,1[\) et elles sont indépendantes. On pose \(Y=X+Z\).\\ (a) Déterminer la loi de \(Y\).\\ (b) Établir que pour tout \(k \in \mathbb{N}^{*}, 1-p \leqslant \frac{\mathbb{P}([Y=k])}{\mathbb{P}([X=k])} \leqslant \frac{1}{1-p}\).\\ (c) En déduire que \((X, Y)\) est \(-\ln (1-p)\)-différentiel.\\ (d) Que se passe-t-il lorsque \(p\) s'approche de 0 ou lorsqu'il s'approche de 1 ? Était-ce prévisible?\\ 9. On suppose que \(X\) et \(Y\) sont deux variables à densité de densités respectives \(f\) et \(g\) et de fonction de répartition \(F\) et \(G\).\\ (a) On suppose que pour tout \(t \in \mathbb{R}, \mathrm{e}^{-\varepsilon} f(t) \leqslant g(t) \leqslant \mathrm{e}^{\varepsilon} f(t)\). Montrer que \((X, Y)\) est \(\varepsilon\)-différentiel.\\ (b) On suppose dans la suite de cette question que \((X, Y)\) est \(\varepsilon\)-différentiel. Soit \(h>0\) et \(t \in \mathbb{R}\) où \(f\) et \(g\) sont continues.\\ Montrer que : \[ \mathrm{e}^{-\varepsilon} \frac{F(t+h)-F(t)}{h} \leqslant \frac{G(t+h)-G(t)}{h} \leqslant \mathrm{e}^{\varepsilon} \frac{F(t+h)-F(t)}{h} \] En conclure que : \(\quad e^{-\varepsilon} f(t) \leqslant g(t) \leqslant e^{\varepsilon} f(t)\).\\ 10. Deuxième exemple : lois de Cauchy.\\ (a) Montrer que \(\int_{-\infty}^{+\infty} \frac{1}{t^{2}+1} \mathrm{~d} t\) converge. On admet que cette intégrale est égale à \(\pi\).\\ (b) On définit, pour \(a>0\), la fonction \(f_{a}\) sur \(\mathbb{R}\) par, pour tout \(t \in \mathbb{R}, f_{a}(t)=\frac{a}{\pi\left(t^{2}+a^{2}\right)}\). Montrer que \(f_{a}\) est une densité de probabilité d'une variable aléatoire à densité.\\ (c) On suppose que \(X\) et \(Y\) sont deux variables aléatoires admettant comme densités repectives \(f_{1}\) et \(f_{a}\) avec \(a>1\).\\ Montrer que \((X, Y)\) est \(\ln (a)\)-différentiel.\\ 11. Une première interprétation. On suppose que \((X, Y)\) est un couple \(\varepsilon\)-différentiel et que \(U\) est une variable de Bernoulli de paramètre \(p \in] 0,1[\) indépendante de \(X\) et \(Y\).\\ On définit la variable aléatoire \(Z\) par : \[ \forall \omega \in \Omega, \quad Z(\omega)= \begin{cases}X(\omega) & \text { si } U(\omega)=1 \\ Y(\omega) & \text { sinon. }\end{cases} \] (a) Soit \(I\) un intervalle de \(\mathbb{R}\) telle que \(\mathbb{P}([Z \in I]) \neq 0\). Montrer que : \(\mathbb{P}_{[Z \in I]}([U=1])=p \frac{\mathbb{P}([X \in I])}{p \mathbb{P}([X \in I])+(1-p) \mathbb{P}([Y \in I])}\).\\ En déduire que : \[ \frac{p}{p+(1-p) \mathrm{e}^{\varepsilon}} \leqslant \mathbb{P}_{[Z \in]}([U=1]) \leqslant \frac{p}{p+(1-p) \mathrm{e}^{-\varepsilon}} \] (b) Si \(\varepsilon\) est proche de zéro, le fait de disposer d'une information sur la valeur de \(Z\) change-t-il notablement le paramètre de la loi de \(U\) et par conséquent la probabilité d'en déduire la valeur prise par U? \section*{Partie III - Confidentialité différentielle} \begin{itemize} \item Soit \(d \in \mathbb{N}^{*}\). On considère \(D=\llbracket 0, d \rrbracket\) et \(n\) un entier naturel plus grand que 2 . \item On dira que deux éléments de \(D^{n}, a\) et \(b\), sont voisins si ils ne différent que d'une composante au plus. On note \(\mathcal{V}\) l'ensemble des couples de voisins. \end{itemize} \begin{itemize} \item On considère \(q\) une application de \(D^{n}\) dans \(\mathbb{R}\). \end{itemize} Concrètement, un élément de \(D^{n}\) représente une table d'une base de donnée et q une requête sur cette base. Étant donné \(a=\left(a_{1}, \ldots, a_{n}\right)\), on s'intéresse au problème de la confidentialité de certains des \(a_{i}\) lorsque les autres \(a_{i}\) sont connus, ainsi que \(D, q\) et \(q(a)\).\\ 12. Dans cette question on suppose que \(a_{2}, \ldots, a_{n}\) sont connus et on cherche à protéger \(a_{1}\).\\ (a) Quelle est probabilité d'obtenir la bonne valeur de \(a_{1}\) si lon choisit une valeur au hasard daus \(\llbracket 0, d \rrbracket\) ?\\ (b) Dans cette question \(q\left(a_{1}, \ldots, a_{n}\right)=\sum_{i=1}^{n} a_{i}\). Montrer que si \(q(a)\) est publique alors on sait déterminer la valeur de \(a_{1}\). On dit que l'on dispose d'un procédé de \(\varepsilon\)-confidentialite de \(D^{n}\) pour \(q\) si :\\ (c1) pour tout \(a \in D^{n}\), on dispose d'une variable aléatoire réelle \(X_{a}\);\\ (c2) pour tout \((a, b) \in \mathcal{V},\left(X_{a}, X_{b}\right)\) est \(\varepsilon\)-différentiel.\\ (c3) pour tout \(a \in D^{n}, \mathbb{E}\left(X_{a}\right)=q(a)\).\\ 13. Majoration de la probabilité de trouver a1. Dans cette question, nous allons justifier en partie la terminologie. On suppose à nouveau que \(a_{2}, \ldots, a_{n}\) sont connus, que l'on cherche à protéger \(a_{1}\) et que : \begin{itemize} \item Le public connaît des "intervalles \(I_{0}, \ldots, I_{d}\) disjoints de réunion \(\mathbb{R}\) tels qu'avec les valeurs fixées de \(a_{2}, \ldots, a_{n}\), si \(q(a) \in I_{j}\) alors \(a_{1}=j\). Cela signifie que si \(q(a)\) est publique alors \(a_{1}\) aussi. \item On dispose d'un procédé de \(\varepsilon\)-confidentialité de \(D^{n}\) pour \(q\) et que \(1^{2}\) on rend \(X_{a}\) publique à la place de \(q(a)\). \end{itemize} On considère alors que l'expérience aléatolie modélisée par ( \(\Omega, \mathcal{A}, \mathbb{P}\) ) comporte comme première étape le choix au hasard de \(a_{1}\) dans \(\llbracket 0, d \rrbracket\) et on définit : \begin{itemize} \item \(A_{1}\) la variable aléatoire associée à ce choix ; \item pour tout \(j \in[0, d], Y_{j}=X_{\left(j, a_{2}, \ldots, a_{m}\right)}\). On suppose que \(A_{1}\) et \(Y_{j}\) sont indépendantes pour tout \(j \in D\). \item la variable aléatoire réelle \(R\) par :\\ \(\forall \omega \in \Omega\), si \(A_{1}(\omega)=j\) alors on détermine l'unique \(k\) tel que \(Y_{j}(\omega) \in I_{k}\) et on pose \(R(\omega)=k\). \item \(\theta=\mathbb{P}\left(\left[R=A_{1}\right]\right)\).\\ (a) Montrer que \(\theta=\sum_{j=0}^{d} \mathbb{P}\left(\left[Y_{j} \in I_{j}\right] \cap\left[A_{1}=j\right]\right)\).\\ (b) En déduìre que \(\theta=\frac{1}{d+1} \sum_{j=0}^{d} \mathbb{P}\left(\left[Y_{j} \in I_{j}\right]\right)\).\\ (c) En conclure que : \end{itemize} \[ \theta \leqslant \frac{1}{d+1}\left(\mathrm{e}^{\varepsilon}-\left(\mathrm{e}^{\varepsilon}-1\right) \mathbb{P}\left(\left[Y_{0} \in I_{0}\right]\right)\right) \leqslant \frac{\mathrm{e}^{\varepsilon}}{d+1} \] (d) On pose \(\rho=\frac{1}{d+1}\) et \(\tau=\frac{\theta-\rho}{\rho}\). Donner une majoration de \(\tau\). Que représente cette quantité?\\ Qu'en déduire concernant la méthode de confidentialité présentée dans cette question lorsque e est proche de 0 ?\\ On pose \(\delta=\max _{(a, b) \in \mathcal{V}}|q(a)-q(b)|\) et on suppose que \(\delta>0\).\\ 14. Dans cette question, pour tout \(a \in D^{n}\), on pose \(X_{a}=q(a)+Y\) où \(Y\) suit la loi de Laplace de paramètre \((0, \beta)\).\\ (a) Pour tout \(a \in D^{n}\), déterminer \(\mathbb{E}\left(X_{a}\right)\) et une densité de probabilité \(f_{a}\) de la loi de \(X_{a}\) en fonction de \(q(a)\) et de \(\beta\).\\ (b) Montrer que pour tout \(t \in \mathbb{R}\) et \((a, b) \in \mathcal{V}, f_{a}(t) \leqslant \exp \left(\frac{\delta}{\beta}\right) f_{b}(t)\). En deduire que pour tout \((a, b) \in \mathcal{V},\left(X_{a}, X_{b}\right)\) est \(\frac{\delta}{\beta}\)-différentiel.\\ (c) Comment choisir \(\beta\) pour disposer alors d'un procédé de \(\varepsilon\)-confidentialité de \(D^{n}\) pour \(q\) ?\\ 15. Dans cette question, pour tout \(a=\left(a_{1}, \ldots, a_{n}\right)\) appartenant à \(D^{n}{ }_{r} q(a)=\sum_{k=1}^{n} a_{k}\).\\ (a) Quelle est la valeur de \(\delta\) ? On utilise dans la suite le procédé de \(\varepsilon\)-confidentialité tel qu'il a été défini dans la question 14 mais au lieu de publier la valeur \(X_{a}\), on procède ansi : \begin{itemize} \item si \(X_{a}<\frac{1}{2}\) on publie 0; \item si \(X_{a} \in\left[k-\frac{1}{2}, k+\frac{1}{2}[\right.\) où \(k \in[1, n d-1]\), on publie \(k\); \item sinon on publie nd.\\ (b) Montrer que la valeur aléatoire \(Z_{a}\) publiée vérifie : \end{itemize} \[ Z_{a}=\left\{\begin{array}{cl} 0 & \text { si } X_{a}<\frac{1}{2} \\ \left\lfloor X_{a}+\frac{1}{2}\right\rfloor & \text { si } X_{a} \in\left[\frac{1}{2}, n d-\frac{1}{2}[ \right. \\ n d & \text { si } X_{a} \geqslant n d-\frac{1}{2} \end{array}\right. \] (c) Écrire un script qui pour \(d, n\) et \(a\) saisis par l'utilisateur, génère une valeur aléatoire de \(a \in D^{n}\) puis affiche \(q(a)\) et \(Z_{\alpha}\).\\ (d) Pour \(n=1000, d=4\) et \(\varepsilon\) choisi par l'utilisateur, ecrire un script qui estime la valeur moyenne de \(\frac{\left|Z_{a}-q(a)\right|}{q(a)}\) (on considèrera que \(q(a)\) est toujours non nul).\\ N.B. À titre d'information, on obtient le tableau de valeurs suivant : \begin{center} \begin{tabular}{|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline \(\varepsilon\) & 0.1 & 0.2 & 0.3 & 0.4 & 0.5 & 0.6 & 0.7 & 0.8 & 0.9 & 1 & 1.1 & 1.2 \\ \hline Moyenne & \(1.91 \%\) & \(1 \%\) & \(0.6 \%\) & \(0.5 \%\) & \(0.3 \%\) & \(0.3 \%\) & \(0.28 \%\) & \(0.2 \%\) & \(0.2 \%\) & \(0.19 \%\) & \(0.17 \%\) & \(0.16 \%\) \\ \hline \end{tabular} \end{center} Aide Scilab. La fonction Scilab grand permet de simuler, en particulier, les lois exponentielles et uniformes discretes. Par exemple : \begin{itemize} \item grand \((3,2\), "exp", 0.5\()\) renvoie une matrice aléatoire \((3,2)\) dont les coefficients sont des variables indépendantes qui suivent la loi exponentielle d'espérance 0,5 . \item grand ( 1,2, "uin", \(-1,3\) ) renvoie une matrice aléatoire ( 1,2 ) dont les coefficients sont des variables indépendantes qui suivent la loi uniforme discrète sur \(\llbracket-1,3 \rrbracket\). \end{itemize} \begin{enumerate} \item \end{enumerate} \end{document}