Exercice 1 : Election 2ème tour Max
Entre les deux tours d'une élection présidentielle, un candidat, Max, souhaiterait ``rapidement'' avoir un a priori sur la proportion d'intentions de vote en sa faveur. On notera $\pmb{\mathcal{Y}}^{ Max}=\left( \mathcal{Y}_1^{Max},\ldots, \mathcal{Y}_N^{Max}\right)$ l'ensemble des réponses des $N$ électeurs (où $\mathcal{Y}_i^{Max}$ vaut 1 si l'individu $i$ a l'intention de voter pour Max et 0 sinon).
(1) Déterminez en fonction de $\pmb{\mathcal{Y}}^{ Max}$, le nombre puis la proportion d'intentions de vote en faveur de Max, notée respectivement $N^{Max}$ et $p^{Max}$.
- Nombre d'intentions de vote en faveur de Max
- Proportion d'intentions de vote en faveur de Max
(2) $N$ étant très grand, quelle serait une solution réalisable permettant d'obtenir un remplaçant (i.e. estimation) de $p^{Max}$. Proposez les notations adéquates.
(3) Deux personnes se proposent d'interroger chacun $n=1000$ électeurs. On notera ${\mathbf{ y_{[1]} }}$ et ${\mathbf{ y_{[2]} }}$ ces deux jeux de données recueillis. Les estimations correspondantes sont respectivement de $47\%$ et $52\%$. Comment interpréter la différence des résultats qui, si on leur fait une confiance aveugle, conduit à deux conclusions différentes?
(4)Connaissez-vous d'autres applications nécessitant une estimation d'un paramètre inconnu ?
Exercice 2 : Présentation des problématiques des produits A et B
Commençons par introduire quelques notations permettant de décrire le choix d'achat des individus de la population totale (ciblée par l'industriel). Les deux études des Produit $A$ et Produit $B$ étant plutôt similaires, nous noterons donc dans un cadre général $\bullet$ aussi bien à la place de $A$ ou $B$. Ainsi $\mathcal{Y}^{\bullet}_i$ représente le nombre de produit(s) $\bullet$ acheté(s) par le $i^{\grave eme}$ ($i=1,\cdots,N$) individu de la population totale. L'ensemble des choix d'achat des $N$ individus $\left(\mathcal{Y}_i^\bullet\right)_{i=1,\cdots,N}$ sera noté $\pmb{\mathcal{Y}}^{ \bullet}$. $N^{\bullet}$ désignera le nombre d'exemplaires de Produit $\bullet$ achetés par les N individus de la population.
(1) Exprimez $N^A$ (resp. $N^B$) en fonction des $\pmb{\mathcal{Y}}^{ A}$ (resp. $\pmb{\mathcal{Y}}^{ B}$). Exprimez la rentabilité du Produit $A$ (resp. Produit $B$) en fonction du nombre total $N^A$ (resp. $N^B$) d'exemplaires du Produit $A$ (resp. Produit $B$) vendus.
(2) Même question mais en fonction du nombre moyen (par individu de la population) $\mu^A$ (resp. $\mu^B$) d'exemplaires du Produit $A$ (resp. Produit $B$) en ayant au préalable établi la relation entre $\mu^A$ et $N^A$ (resp. $\mu^B$ et $N^B$) et ainsi entre $\mu^A$ et $\pmb{\mathcal{Y}}^{ A}$ (resp. $\mu^B$ et $\pmb{\mathcal{Y}}^{ B}$). Quelle relation y a-t-il donc entre $\mu^A$ et $\overline{\mathcal{Y}^A}$ (resp. entre $\mu^B$ et $\overline{\mathcal{Y}^B}$) ?
(3) Est-il possible pour l'industriel de ne pas se tromper dans sa décision quant au lancement de chaque produit ? Si oui, comment doit-il procéder ? Cette solution est-elle réalisable ?
(4) Est-il alors possible d'évaluer (exactement) les paramètres d'intérêt ? Comment les qualifieriez-vous par la suite ?
(5) Une solution réalisable est alors de n'interroger qu'une sous-population de taille raisonnable $n << N$ (ex $n=1000$). On notera alors ${\mathbf{ y }}^\bullet$ le jeu de données (appelé aussi échantillon), i.e. le vecteur des $n$ nombres d'achat $\left(y_i^\bullet\right)_{i=1,\cdots,n}$ du produit $\bullet$ des $n$ ($n << N$) individus interrogés. Chronologiquement, tous les raisonnements qui se situeront avant le jour J seront consacrés à la mise en place de l'outil d'aide à la décision. Comment l'industriel pourra-t-il évaluer un remplaçant de $\mu^\bullet$ à partir de son échantillon ${\mathbf{ y }}^\bullet$ ? (quelle est la relation entre $\overline{y^\bullet}$, représentant la moyenne empirique des $\left(y_i^\bullet\right)_{i=1,\ldots,n}$, et l'estimation $\widehat{ \mu^{\bullet} }\left({\mathbf{ { y^{\bullet} } }}\right)$ ?)
(6) Quelle est la nature du paramètre d'intérêt $\mu^A$ dans le cas où les données ne sont que des 0 et 1 ? Désormais cette moyenne, puisqu'elle bénéficiera d'un traitement particulier, sera notée $p^A=\mu^A$.
Exercice 3 : Procédé de construction d'échantillon
Dans le but d'estimer un paramètre d'intérêt inconnu, on dispose d'un échantillon. Nous nous proposons maintenant de préciser plus en détail son procédé de construction.(1) Proposez des critères de qualité d'un tel échantillon.
(2) A quoi correspond la notion de représentativité ?
(3) Est-il possible de construire un échantillon représentatif d'une (ou plusieurs) caractéristique(s) donnée(s) ?
(4) Même question sans aucun a priori (i.e. aucune caractéristique fixée).
(5) Proposez un critère de qualité qui permettra de construire un échantillon le plus représentatif sans aucun a priori.
(6) Fournissez un (ou plusieurs) procédé(s) d'échantillonnage satisfaisant au critère suivant de représentativité (maximale) sans a priori (RSAP) :
(7) Si on répète le procédé d'échantillonnage suivant le critère RSAP et que pour chaque échantillon on évalue l'estimation du paramètre d'intérêt, pensez-vous que les résultats seront toujours les mêmes ? Comment qualifie-t-on alors la nature du procédé d'échantillonnage ?
Exercice 4 : Outil d'estimation par Intervalle de Confiance (IC) pour la problématique des élections
On se propose d'estimer le paramètre d'intérêt en fournissant un intervalle (ou fourchette, encadrement) obtenu à partir des données. Cet intervalle, appelé intervalle de confiance, est centré en la valeur de l'estimation et sa largeur dépend d'un niveau de confiance que l'on se fixe (généralement plutôt grand, par exemple, $95\%$).(1) Pensez-vous qu'il soit possible qu'une estimation $\widehat{ p }\left({\mathbf{ { y } }}\right)$ soit égale au paramètre d'intérêt (à estimer) ? Pouvez-vous savoir l'ordre de grandeur de l'écart entre l'estimation et le paramètre inconnu? Quel niveau de confiance accordez-vous à la valeur d'une estimation (dans notre exemple, $47\%$ et $52\%$ sur deux échantillons)?
(2) Si on vous annonce qu'un statisticien sait généralement fournir en plus de l'estimation du paramètre, l'estimation de sa fiabilité mesurée en terme de variabilité attendue, quel est la mission principale d'un intervalle de confiance ? Quelles sont les qualités souhaitées d'un intervalle de bonne confiance ($95\%$ par exemple) du paramètre d'intérêt (inconnu) ?
(3) Compléter les phrases suivantes :
- PLUS le niveau de confiance est fort, ....MOINS l'intervalle de confiance est petit.
- Vue comme un intervalle de confiance de largeur 0, une estimation peut donc être associé à un niveau de confiance ....$0\%$ .
(4) Un statisticien construit les intervalles à $95\%$ de confiance (via une formule d'obtention étudiée plus tard dans le cours ne faisant pas l'objet) et informe le candidat que les intervalles associés aux estimations $47\%$ et $52\%$ sont respectivement $[43.90655\%,50.09345\%]$ et $[48.90345\%,55.09655\%]$. Les élections effectuées, on évalue $p^{Max}=51.69\%$, qu'en pensez-vous ?
(5) Si vous avez des difficultés à traduire ce que signifie le niveau de confiance d'un intervalle, comparez-le avec celui que vous accorderiez à une personne qui serait censée dire la vérité avec un niveau de confiance fixé à $95\%$. Dans le cas de cette personne, comment traduiriez-vous (ou expliqueriez-vous) le concept de niveau de confiance ?
Exercice 5 : Outil d'aide à la décision pour la problématique de l'industriel
Pour achever cette présentation des outils proposés dans ce cours cette année, proposons la mise en pratique de l'outil d'aide à la décision pour la problématique de l'industriel. Mettons-nous dans la peau de l'industriel, nous sommes le jour J et les jeux de données ${\mathbf{ y^A }}$ et ${\mathbf{ y^B }}$ ont été collectés et on obtient :R> c(length(yA),length(yB)) [1] 1000 1000 R> mean(yA) [1] 0.204 R> c(mean(yB),sd(yB)) [1] 0.1720000 0.5610087
(1) Êtes-vous en mesure avec ces informations de prendre votre décision quant aux lancements des produits A et B ?
(2) L'industriel demande alors conseil à un expert en statisque inférentielle (que vous deviendrez en suivant ce cours si vous le souhaitez). Ce dernier, en utilisant son logiciel préféré R, lui propose les calculs en R des p-valeurs (dont on ne cherchera pas à en comprendre le sens car ces formules ne seront compréhensibles que dans 2 ou 3 cours) :
R> # p-valeur pour le produit A R> 1-pnorm((mean(yA)-0.15)/sqrt((0.15*0.85)/length(yA))) [1] 8.66416e-07 R> # p-valeur pour le produit B R> 1-pnorm((mean(yB)-0.15)/seMean(yB)) [1] 0.1074711et lui dit que la valeur d'une p-valeur (à convertir de préférence en pourcentage) nous fournit le risque de se tromper au vu du jeu de donnée s'il décide de lancer le produit sur le marché.
Êtes-vous maintenant en mesure avec ces informations de prendre votre décision quant aux lancements des produits A et B ?
WebR Console
Introduction
Taper votre code R dans l'éditeur de texte du bas, exécuter-le et voir la sortie dédiée:
- Editeur de texte du haut pour l'obtention des résultats
- Plot dans la partie de droite
Exécuter code
Click sur
ou [Ctrl] + [R]
Effacer toutes les sorties
Click sur
Effacer la première sortie
Click sur
Sélection Jeu de données
Sélectionner un jeu de données dans le menu déroulant
Une fois sélectionné le jeu de données est exécuté dans la console WebR.