Échantillonnage et estimation pour le bio-médical/Estimation

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Chapitre

les paramètres de l'échantillon sont supposés connus.

Nous avons affaire à une population très grande que nous ne pouvons pas étudier directement.

On extrait de la population un échantillon que l'on va étudier et on va essayer à partir des renseignements constatés sur l'échantillon d'en déduire des renseignements sur la population.

À moins d'étudier la totalité de la population, les paramètres de celle-ci ne seront jamais connus exactement. On peut toutefois en donner une idée de deux façons différentes.


Première façon: Estimation ponctuelle d'un paramètre.

On essaye de trouver une valeur approchée du paramètre que l'on veut connaître. Cette valeur et appelée une estimation du paramètre.


Deuxième façon: Estimation d'un paramètre par un intervalle de confiance.

Cette méthode est plus rigoureuse. Elle consiste à calculer un intervalle de confiance tel que le paramètre ait une certaine probabilité connue de se trouver.

On dira par exemple après avoir étudié un échantillon que la moyenne de la population a 95 % de chance de se trouver entre les valeurs 37 et 39.


Estimation ponctuelle de la variance de la population.

Nous cherchons estimer le paramètre σ de la population.

Nous noterons toujours s la valeur estimée du paramètre σ de la population.

On a vu en théorie de l'échantillonnage que:

Modèle:Encadre

Si on ne connaît pas σ, E(Se) ne peut pas être connue.

Si on extrait un échantillon, on peut raisonnablement penser que l'écart-type observé sur l'échantillon n'est pas loin de E(Se).

Nous noterons toujours se l'écart-type observé sur l'échantillon.

par conséquent, si dans la formule E(Se)=σn1n, on remplace E(Se) par se qui est proche de E(Se), σ sera lui remplacé par une valeur proche de σ. On prendra donc pour s cette valeur et on aura:

se=sn1nse=sn1nsenn1=ssenn1=s

On retiendra:

Modèle:Encadre

Sur certaines calculatrice se est noté par σn et s est noté par σn1.


Dans ce que l'on vient de dire, la difficulté réside sur les multiples notations à propos des écarts-types. Pour clarifier, nous pouvons résumer :

  • σ est l'écart type de la population (non mesurable car la population est trop grande).
  • s est la valeur estimée de l'écart type de la population.
  • se est l'écart type que l'on observe sur l'échantillon.
  • Se est la variable aléatoire qui, à tout échantillon extrait de la population, associe son écart-type.


Modèle:Encart


Estimation ponctuelle de la moyenne de la population.

Nous cherchons à estimer le paramètre μ de la population.

Nous noterons m la valeur estimée du paramètre μ de la population.

Nous noterons X¯ la moyenne observée sur échantillon.

Dans la théorie de l'échantillonnage, nous avions:

E(X¯)=μ

Si μ n'est pas connue, E(X¯) ne peut pas être connue.

mais on peut raisonnablement penser que la moyenne de l'échantillon X¯ n'est pas loin de E(X¯), donc n'est pas loin non plus de μ.

On prendra donc pour m la valeur de X¯.

On retiendra:

Modèle:Encadre


Estimation de la moyenne de la population par un intervalle de confiance

Dans la théorie de l'échantillonnage, nous avions vu que si n30, X suit une loi normale de moyenne μ et d'écart-type σn.

On peut en déduire des intervalles de fluctuation de la forme:

[μtασn;μ+tασn].

tel que X¯ s'y trouve avec une probabilité 1α.

Réciproquement, si l'on extrait un échantillon et que l'on calcule la valeur X¯, on pourra en déduire un intervalle de confiance de la forme:

[X¯tασn;X¯+tασn].

tel que μ est une probabilité 1α de s'y trouver.

α n'étant lui non plus pas connu, on le remplace par son estimation s et on montre que:

Si n30, un intervalle de confiance de la moyenne μ de la population au risque α est de la forme:

[X¯tαsn;X¯+tαsn].

Avec tα=1,96 pour α=0,05.

Avec tα=2,576 pour α=0,01.

Pour les autres valeurs de α, on calculera tα en faisant comme si μ suivait une loi normale de moyenne X¯ et d'écart type sn.

Si n<30 et si X suit une loi normale, on montre que X¯μs/n suit une loi de Student à n1 degrés de liberté.

On se sert de cela pour en déduire des intervalles de confiance de μ.

Si n<30 et si X ne suis pas une loi normale, on ne peut rien dire.


Modèle:Encart


Estimation de la fréquence d'un caractère dans une population.

Soit f la fréquence observée sur un échantillon.

F est la variable aléatoire qui, à tout échantillon extrait de la population, associe la fréquence du caractère sur celui-ci.

On sait déjà que E(F)=p. Si p n'est pas connue, E(F) ne sera pas connue. Mais on peut raisonnablement penser que la fréquence observée f n'est pas loin de E(F) donc n'est pas loin non plus de p. On prendra donc f pour estimer p.


Estimation de la fréquence d'un caractère dans une population par un intervalle de confiance.

On sait de la théorie de l'échantillonnage que E(F)=p et V(F)=p(1p)n

On a vu aussi que si n30, F suit une loi normale. Par conséquent en estimant p par f (car p n'est pas connue), on montre qu'un intervalle de confiance au risque α de la fréquence p est :

[ftαf(1f)n;f+tαf(1f)n]

Avec tα=1,96 pour α=0,05.

Avec tα=2,576 pour α=0,01.

Pour les autres valeurs de α, on calculera tα en faisant comme si p suivait une loi normale de moyenne f et d'écart type f(1f)n.


Modèle:Encart


Estimation du paramètre λ de la loi de Poisson.

On montre que la meilleure estimation du paramètre λ d'une loi de Poisson est la moyenne de l'échantillon étudié.

Si on ne connaît pas la moyenne de l'échantillon, mais si on connaît la probabilité p(X=k), on peut estimer λ par la solution de l'équation:

eλ.λkk!=p(X=k)

L'inconnue étant λ.


Modèle:Encart


Modèle:Bas de page