Initiation à l'échantillonnage et l'estimation/Échantillonnage

De testwiki
Version datée du 27 octobre 2020 à 14:26 par 2a01:e0a:159:5100:34ce:bb1f:10ca:617c (discussion) (Étude de la fréquence d'apparition d'un caractère dans un échantillon : Corresction d'une faute de frappe mineure)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Modèle:Chapitre Ce chapitre reprend plus en détail la théorie de l'échantillonnage ébauchée dans le chapitre précédent.


les paramètres de la population sont supposés connus.

Modèle:Clr

Étude de la fréquence d'apparition d'un caractère dans un échantillon

Un élément d'une population peut avoir une propriété avec une certaine fréquence.

Par exemple, supposons que nous ayons une urne contenant des boules blanches et des boules noires et supposons qu'une boule sur 8 soit noire. La fréquence des boules noires serait alors de 12,5 %.

Si la quantité de boules dans l'urne est grande, on peut assimiler la fréquence à une probabilité p.

Une boule prise au hasard a une probabilité p=0,125 d'être noire.

On peut être amené à étudier la fréquence sur un échantillon de boules extraites de l'urne.

On notera F la variable aléatoire qui prend pour valeur la fréquence observée sur des échantillons de boules de taille n extraits de l'urne.


On montre et nous admettrons que:

Modèle:Encadre

D'autre part si n30, on peut dire que F suit une loi normale de moyenne p et d'écart-type p(1p)n.


Si n<30, les formules ci-dessus sont toujours vraies mais F ne suis plus une loi normale.

Pour calculer des intervalles de fluctuation, on utilise alors des abaques.


Dans le cas ou n30, on peut donc calculer un intervalle de fluctuation au risque 5 % ainsi :

[p1,96×p(1p)n;p+1,96×p(1p)n]

Cela signifie que si l'on extrait un échantillon de taille n de la population, alors la fréquence d'apparition d'un caractère a une probabilité de 0,95 de se trouver dans l'intervalle précédent.


Modèle:Encart


Élargissement de l'intervalle de fluctuation

Par définition, un intervalle de fluctuation au risque 5% est un intervalle dont la probabilité d'y trouver la fréquence du caractère est au moins de 95%.

Nous allons voir que l'on peut alors trouver un intervalle plus simple que :

[p1,96×p(1p)n;p+1,96×p(1p)n]

ayant une probabilité d'au moins 95% d'y trouver la fréquence du caractère simplement en majorant l'expression 1,96×p(1p)n

Nous voyons que nous pouvons déjà majorer légèrement cette expression par 2p(1p)n

Ensuite, nous savons que p prend des valeurs sur l'intervalle [0;1]. Nous étudierons donc la fonction f définie par f(x)=2x(1x) sur [0;1]

La dérivée sera alors :

f(x)=12xx(1x)

Ce qui nous montre que la fonction f est croissante sur [0;12] et décroissante sur [12;1] elle atteint donc un maximum pour x=12. Comme f(12)=1, nous voyons que 2p(1p)n1n sur l'intervalle [0;1].

Par conséquent :

S'il y a plus de 95 % de chance de trouver la fréquence du caractère dans l'intervalle :

[p1,96×p(1p)n;p+1,96×p(1p)n]

il y aura, à plus forte raison, plus de 95 % de chance de trouver la fréquence du caractère dans l'intervalle :

[p1n;p+1n]

qui est plus simple.

Toutefois, si p s'éloigne trop de la valeur 0,5, l'intervalle de remplacement s'avère trop large. Si l'on veut que l'intervalle contienne au moins 95 % de chance d'y trouver la fréquence du caractère sans toutefois dépasser 99 %, il faut imposer à p de prendre des valeurs comprises entre 0,2 et 0,8.


Modèle:Bas de page