Qu'est-ce que l'échantillonnage en probabilités ?

Prélever un sous-ensemble (échantillon) d'une grande population pour estimer une proportion inconnue.

Comment calculer un intervalle de confiance à 95 % ?

Pour un échantillon de taille n et une fréquence observée f, l'intervalle est [f − 1/√n ; f + 1/√n] au niveau 95 %.

Qu'est-ce que la fluctuation d'échantillonnage ?

C'est la variation naturelle de la fréquence observée d'un échantillon à l'autre, même si la proportion dans la population reste fixe.

← Retour aux ressources

Spécialité Mathématiques · Classe de 1ʳᵉ

Échantillonnage et estimation

Fluctuation d'échantillonnage, intervalle de confiance et estimation d'une proportion (programme de 1re générale, spécialité maths)

À propos de cette page

Ce cours de spécialité mathématiques en première sur « Échantillonnage et estimation » suit le programme officiel de spécialité mathématiques de première. Il présente les définitions, les propriétés et les méthodes essentielles, accompagnées d'exemples résolus pour bien comprendre. Au programme : Population, échantillon et proportion, Variable aléatoire associée à l'échantillonnage, Fluctuation d'échantillonnage, Simulation et loi de la fréquence. Chaque notion est expliquée pas à pas, puis mise en pratique grâce à des exercices interactifs, un QCM et une évaluation corrigée. Idéal pour réviser à son rythme, combler ses lacunes et progresser, en autonomie ou avec un professeur. Cours rédigé par un professeur particulier à Marseille pour aider les élèves de première à réussir en spécialité mathématiques.

Au programme

1 · Population, échantillon et proportion

2 · Variable aléatoire associée à l'échantillonnage

3 · Fluctuation d'échantillonnage

4 · Simulation et loi de la fréquence

5 · Intervalle de confiance à 95 %

6 · Estimation d'une proportion inconnue

7 · Taille de l'échantillon et précision

1Population, échantillon et proportion

En statistiques, on étudie souvent une population entière (tous les élèves d'un lycée, tous les produits fabriqués…), mais il est parfois impossible ou trop coûteux de les examiner tous. On prélève alors un échantillon, c'est-à-dire un sous-ensemble de taille $n$ de cette population.

Définition. Soit une population dans laquelle une proportion $p$ d'individus possède un caractère donné (ex. : être gaucher, être défectueux…). On appelle proportion (ou fréquence théorique) le réel $p \in [0 ; 1]$. Dans un échantillon de taille $n$, la fréquence observée est $f = \frac{k}{n}$ où $k$ est le nombre d'individus de l'échantillon possédant le caractère.

Exemple. Une usine produit des pièces dont 3 % sont défectueuses, donc $p = 0{,}03$. On prélève $n = 200$ pièces et on en trouve $k = 7$ défectueuses. La fréquence observée est $f = \frac{7}{200} = 0{,}035$.

Vocabulaire. On dit que l'on effectue un sondage aléatoire lorsque chaque individu de la population a la même probabilité d'être choisi dans l'échantillon (tirage au sort sans remise ou avec remise selon le contexte).

2Variable aléatoire associée à l'échantillonnage

Lorsque l'on prélève au hasard un échantillon de taille $n$ dans une population où la proportion du caractère est $p$, le nombre $X$ d'individus possédant le caractère dans l'échantillon est une variable aléatoire.

Loi de $X$. Si le tirage est effectué avec remise (ou si la population est très grande devant $n$), $X$ suit une loi binomiale : $X \sim \mathcal{B}(n, p)$. On a alors :
$$E(X) = np \qquad \text{et} \qquad V(X) = np(1-p).$$

La fréquence (proportion observée dans l'échantillon) est la variable aléatoire $F_n = \dfrac{X}{n}$. Elle est souvent notée $\hat{p}$ (« $p$ chapeau ») pour souligner qu'elle estime $p$.

Espérance et variance de $F_n$. $$E(F_n) = p \qquad \text{et} \qquad V(F_n) = \frac{p(1-p)}{n}.$$ L'espérance de $F_n$ est égale à $p$ : la fréquence observée est un estimateur sans biais de $p$.

Attention ! La loi de $F_n$ n'est pas la loi binomiale : ce sont les valeurs de $F_n$ qui sont $0, \frac{1}{n}, \frac{2}{n}, \ldots, 1$, chacune avec une probabilité donnée par la loi $\mathcal{B}(n,p)$.

3Fluctuation d'échantillonnage

Si l'on répète l'expérience de prélèvement (même $n$, même population), on n'obtient pas la même fréquence $f$ à chaque fois. Ce phénomène s'appelle la fluctuation d'échantillonnage.

Fluctuation d'échantillonnage. Pour une proportion fixée $p$ dans la population, la fréquence observée $F_n$ varie d'un échantillon à l'autre. Cette variabilité diminue lorsque la taille $n$ de l'échantillon augmente.

Exemple. On lance 10 fois une pièce équilibrée ($p = 0{,}5$). On peut obtenir 4 faces, soit $f = 0{,}4$, ou 6 faces, soit $f = 0{,}6$, alors que $p = 0{,}5$. Ces variations sont normales : c'est la fluctuation.

On observe que les fréquences oscillent autour de la vraie proportion $p = 0{,}4$ sans jamais être toutes égales. Plus $n$ est grand, plus les fréquences se resserrent autour de $p$.

4Simulation et loi de la fréquence

La simulation numérique (tableur, calculatrice, Python…) permet d'observer empiriquement la fluctuation d'échantillonnage. En répétant le tirage d'un échantillon de taille $n$, on obtient une distribution des fréquences.

Propriété (programme de 1re). Lorsque $n$ est grand (en pratique $n \geq 30$ et $np \geq 5$, $n(1-p) \geq 5$), la loi de $F_n$ est approximativement une loi normale centrée en $p$ et d'écart-type $\sigma = \sqrt{\dfrac{p(1-p)}{n}}$. On note :
$$F_n \approx \mathcal{N}\!\left(p,\; \frac{p(1-p)}{n}\right).$$

Exemple. Pour $p = 0{,}4$ et $n = 100$ :
$E(F_n) = 0{,}4$ et $\sigma = \sqrt{\frac{0{,}4 \times 0{,}6}{100}} = \sqrt{0{,}0024} \approx 0{,}049.$
Environ 95 % des fréquences observées se trouvent dans $[0{,}4 - 2 \times 0{,}049 ;\ 0{,}4 + 2 \times 0{,}049] = [0{,}302 ;\ 0{,}498]$.

Attention ! En classe de 1re, on utilise l'approximation $2\sigma \approx \frac{1}{\sqrt{n}}$ pour simplifier les calculs (valable si $p$ est proche de $0{,}5$).

5Intervalle de confiance à 95 %

Lorsque $p$ est connu, on peut délimiter un intervalle dans lequel la fréquence observée $F_n$ se trouve avec une probabilité proche de 95 %.

Intervalle de fluctuation à 95 %. Pour un échantillon de taille $n$ dans une population de proportion $p$, l'intervalle de fluctuation est :
$$I_{0{,}95} = \left[p - \frac{1}{\sqrt{n}}\ ;\ p + \frac{1}{\sqrt{n}}\right].$$
La probabilité que $F_n \in I_{0{,}95}$ est supérieure ou égale à 95 %.

Interprétation. Si l'on réalise 100 échantillons de taille $n$, environ 95 d'entre eux donneront une fréquence comprise dans cet intervalle. Les 5 qui ne le font pas correspondent à la « marge d'erreur ».

Exemple. Un sondage est réalisé avec $n = 400$ personnes. La vraie proportion de personnes favorables à une mesure est $p = 0{,}52$. L'intervalle de fluctuation à 95 % est :
$\left[0{,}52 - \frac{1}{\sqrt{400}}\ ;\ 0{,}52 + \frac{1}{\sqrt{400}}\right] = \left[0{,}52 - 0{,}05\ ;\ 0{,}52 + 0{,}05\right] = [0{,}47\ ;\ 0{,}57].$
On a donc une probabilité $\geq 95\%$ que la fréquence observée se trouve dans $[0{,}47 ; 0{,}57]$.

6Estimation d'une proportion inconnue

Dans la pratique, $p$ est inconnu et on cherche à l'estimer à partir de la fréquence observée $f$ sur un échantillon de taille $n$.

Intervalle de confiance à 95 %. À partir d'une fréquence observée $f$ dans un échantillon de taille $n$, l'intervalle de confiance pour $p$ à 95 % est :
$$\left[f - \frac{1}{\sqrt{n}}\ ;\ f + \frac{1}{\sqrt{n}}\right].$$
On dit que $p$ est estimé par $f$ à $\frac{1}{\sqrt{n}}$ près, au niveau de confiance 95 %.

Attention ! L'intervalle de fluctuation est centré sur le $p$ connu (on vérifie si la fréquence est « normale »). L'intervalle de confiance est centré sur la fréquence observée $f$ (on estime $p$ inconnu). Ne pas confondre les deux !

Exemple. Un sondage auprès de $n = 900$ personnes donne $f = 0{,}44$ (44 % sont satisfaites). L'intervalle de confiance à 95 % est :
$\left[0{,}44 - \frac{1}{\sqrt{900}}\ ;\ 0{,}44 + \frac{1}{\sqrt{900}}\right] = \left[0{,}44 - \frac{1}{30}\ ;\ 0{,}44 + \frac{1}{30}\right] \approx [0{,}407 \ ;\ 0{,}473].$
On estime que la proportion de personnes satisfaites dans la population est comprise entre 40,7 % et 47,3 %, avec un niveau de confiance de 95 %.

7Taille de l'échantillon et précision

La demi-largeur de l'intervalle de confiance est $\frac{1}{\sqrt{n}}$. Pour obtenir une précision $e$ (marge d'erreur), on doit avoir $\frac{1}{\sqrt{n}} \leq e$, soit $n \geq \frac{1}{e^2}$.

Marge d'erreur $e$	Taille minimale $n$
±10 % = 0,10	$n \geq 100$
±5 % = 0,05	$n \geq 400$
±2 % = 0,02	$n \geq 2500$
±1 % = 0,01	$n \geq 10000$

Règle pratique. Les sondages d'opinion utilisent généralement $n \approx 1000$ à 1200 personnes, ce qui donne une marge d'erreur d'environ $\pm 3 \%$.

Exemple. Un chercheur souhaite estimer une proportion avec une précision de ±4 % (soit $e = 0{,}04$). Il doit utiliser un échantillon de taille au moins $n \geq \frac{1}{0{,}04^2} = \frac{1}{0{,}0016} = 625$ individus.

★À retenir

À retenir :
• Un échantillon de taille $n$ donne une fréquence observée $F_n$ qui fluctue autour de la proportion $p$.
• L'intervalle de fluctuation à 95 % (p connu) : $\left[p - \frac{1}{\sqrt{n}} ; p + \frac{1}{\sqrt{n}}\right]$.
• L'intervalle de confiance à 95 % (p inconnu, estimé par f) : $\left[f - \frac{1}{\sqrt{n}} ; f + \frac{1}{\sqrt{n}}\right]$.
• La demi-largeur $\frac{1}{\sqrt{n}}$ décroît quand $n$ augmente : plus l'échantillon est grand, plus l'estimation est précise.
• Pour une précision $e$ : choisir $n \geq \frac{1}{e^2}$.

→Continuer ce chapitre

✏️ Exercices 🧩 Problèmes ❓ QCM 🎯 Évaluation

↔Autres chapitres

← Variables aléatoires discrètes Logique, raisonnement et vocabulaire ensembliste →

Bloqué sur ce chapitre ?

Cours particuliers de spécialité mathématiques à Marseille, en présentiel ou à distance — un prof qui s'adapte à ton rythme et reprend ce qui coince.

Réserver un 1^er cours → Voir les tarifs