← Retour aux ressources
Maths complémentaires (option Tle) · Classe de Terminale

Statistiques — série double et régression

Nuage de points, droite des moindres carrés et coefficient de corrélation linéaire (programme Maths complémentaires Terminale)

À propos de cette page
Ce cours de maths complémentaires (option tle) en terminale sur « Statistiques — série double et régression » suit le programme officiel de maths complémentaires (option tle) de terminale. Il présente les définitions, les propriétés et les méthodes essentielles, accompagnées d'exemples résolus pour bien comprendre. Au programme : Série statistique double — vocabulaire et notation, Représentation graphique : nuage de points, Point moyen, variance et covariance, Coefficient de corrélation linéaire. Chaque notion est expliquée pas à pas, puis mise en pratique grâce à des exercices interactifs, un QCM et une évaluation corrigée. Idéal pour réviser à son rythme, combler ses lacunes et progresser, en autonomie ou avec un professeur. Cours rédigé par un professeur particulier à Marseille pour aider les élèves de terminale à réussir en maths complémentaires (option tle).
Au programme
1 · Série statistique double — vocabulaire et notation
2 · Représentation graphique : nuage de points
3 · Point moyen, variance et covariance
4 · Coefficient de corrélation linéaire
5 · Droite des moindres carrés
6 · Prévisions et limites du modèle linéaire
7 · Utilisation de la calculatrice ou d'un tableur
1Série statistique double — vocabulaire et notation

En statistiques, on étudie souvent deux caractères quantitatifs simultanément sur un même ensemble d'individus. On obtient alors une série statistique double.

Définition. Une série statistique double est un ensemble de $n$ couples $(x_i, y_i)$ pour $i = 1, 2, \ldots, n$, où chaque individu est décrit par deux variables quantitatives $X$ et $Y$.

Exemples de couples de variables :

  • Taille (cm) et poids (kg) d'une personne
  • Température (°C) et ventes de glaces
  • Note de maths et note de physique d'un élève
  • Dépense publicitaire (k€) et chiffre d'affaires (k€) d'une entreprise
Exemple. On relève la dépense publicitaire $x_i$ (en k€) et le chiffre d'affaires $y_i$ (en k€) de 6 entreprises :
$x_i$ (pub)2356810
$y_i$ (CA)152028334052

On notera : $n = 6$ individus, et on cherche s'il existe une liaison entre $X$ et $Y$.

2Représentation graphique : nuage de points

La première étape est de représenter graphiquement les données dans un repère orthogonal : c'est le nuage de points.

Définition. Le nuage de points associé à une série double $(x_i, y_i)$ est l'ensemble des points de coordonnées $(x_i, y_i)$ représentés dans un repère $(O, \vec{i}, \vec{j})$ où l'axe des abscisses porte $X$ et l'axe des ordonnées porte $Y$.
Astuce. Avant tout calcul, tracez le nuage de points. La forme du nuage vous renseignera sur la liaison : si les points semblent alignés, une liaison linéaire est vraisemblable.

Nuage de points représentant les couples (dépense publicitaire, chiffre d'affaires). L'alignement suggère une liaison linéaire positive.

On distingue plusieurs types de liaisons :

  • Liaison linéaire positive : quand $X$ augmente, $Y$ augmente.
  • Liaison linéaire négative : quand $X$ augmente, $Y$ diminue.
  • Pas de liaison : le nuage est dispersé sans direction apparente.
Attention ! La forme du nuage est indicative, mais elle ne suffit pas à conclure. On utilisera le coefficient de corrélation $r$ pour mesurer objectivement l'intensité de la liaison.
3Point moyen, variance et covariance

Pour quantifier la liaison, on a besoin de plusieurs indicateurs statistiques.

Définition — Point moyen. Le point moyen $G$ de la série double est le point de coordonnées $(\bar{x}, \bar{y})$ où :
$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \qquad \text{et} \qquad \bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$$
La droite de régression passe toujours par $G$.
Définition — Variance. La variance de la variable $X$ est :
$$V(X) = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 = \overline{x^2} - \bar{x}^2$$
où $\overline{x^2} = \frac{1}{n}\sum_{i=1}^n x_i^2$. De même pour $V(Y)$.
Définition — Covariance. La covariance de $X$ et $Y$ est :
$$\text{Cov}(X,Y) = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}) = \overline{xy} - \bar{x}\cdot\bar{y}$$
où $\overline{xy} = \frac{1}{n}\sum_{i=1}^n x_i y_i$.
Exemple. Avec les données de l'exemple initial ($n=6$) :
$\bar{x} = \frac{2+3+5+6+8+10}{6} = \frac{34}{6} \approx 5{,}67$ k€
$\bar{y} = \frac{15+20+28+33+40+52}{6} = \frac{188}{6} \approx 31{,}33$ k€

$\overline{x^2} = \frac{4+9+25+36+64+100}{6} = \frac{238}{6} \approx 39{,}67$
$V(X) = 39{,}67 - 5{,}67^2 \approx 39{,}67 - 32{,}15 \approx 7{,}52$

$\overline{xy} = \frac{30+60+140+198+320+520}{6} = \frac{1268}{6} \approx 211{,}33$
$\text{Cov}(X,Y) \approx 211{,}33 - 5{,}67 \times 31{,}33 \approx 211{,}33 - 177{,}64 \approx 33{,}69$
Astuce. La formule $\text{Cov}(X,Y) = \overline{xy} - \bar{x}\cdot\bar{y}$ est souvent plus rapide à calculer que la définition.
4Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire $r$ mesure l'intensité et le sens de la liaison linéaire entre $X$ et $Y$.

Définition. Le coefficient de corrélation linéaire est :
$$r = \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y}$$
où $\sigma_X = \sqrt{V(X)}$ et $\sigma_Y = \sqrt{V(Y)}$ sont les écarts-types de $X$ et $Y$.

Propriétés fondamentales :

Valeur de $r$Interprétation
$r = 1$Liaison linéaire parfaite positive (points alignés sur une droite de pente positive)
$r = -1$Liaison linéaire parfaite négative (droite de pente négative)
$|r|$ proche de 1Liaison linéaire forte
$|r|$ proche de 0Pas de liaison linéaire significative
$-1 \leq r \leq 1$Toujours entre −1 et 1 (inégalité de Cauchy-Schwarz)
Attention ! $r$ proche de 0 ne signifie pas qu'il n'y a pas de liaison, mais qu'il n'y a pas de liaison linéaire. Il peut exister une liaison non linéaire (parabolique, exponentielle…).
Exemple (suite). $V(X) \approx 7{,}52$ donc $\sigma_X \approx 2{,}74$.
$V(Y) = \overline{y^2} - \bar{y}^2 = \frac{225+400+784+1089+1600+2704}{6} - 31{,}33^2 \approx 1133{,}67 - 981{,}37 \approx 152{,}3$, soit $\sigma_Y \approx 12{,}34$.
$$r \approx \frac{33{,}69}{2{,}74 \times 12{,}34} \approx \frac{33{,}69}{33{,}81} \approx 0{,}996$$
La liaison est très forte et positive.

Interprétation qualitative de l'intensité de la liaison linéaire selon |r|.

5Droite des moindres carrés

Lorsque la liaison linéaire est suffisamment forte (on admet en général $|r| > 0{,}87$ en terminale), on peut ajuster le nuage par une droite.

Définition — Droite des moindres carrés. La droite de régression de $Y$ en $X$ est la droite $y = ax + b$ qui minimise la somme des carrés des résidus $\sum_{i=1}^n (y_i - ax_i - b)^2$. Ses coefficients sont :
$$a = \frac{\text{Cov}(X,Y)}{V(X)} \qquad b = \bar{y} - a\bar{x}$$
Astuce — Méthode pratique.
1. Calculer $\bar{x}$, $\bar{y}$, $V(X)$, $\text{Cov}(X,Y)$.
2. Calculer $a = \text{Cov}(X,Y)/V(X)$.
3. Calculer $b = \bar{y} - a\bar{x}$.
4. Vérifier que $G(\bar{x}, \bar{y})$ est bien sur la droite.
Exemple (suite). $$a = \frac{33{,}69}{7{,}52} \approx 4{,}48 \qquad b = 31{,}33 - 4{,}48 \times 5{,}67 \approx 31{,}33 - 25{,}40 \approx 5{,}93$$
La droite de régression est $y = 4{,}48x + 5{,}93$.
Vérification : $y(5{,}67) = 4{,}48 \times 5{,}67 + 5{,}93 \approx 31{,}33 = \bar{y}$ ✓
Attention ! La droite de régression de $Y$ en $X$ est différente de celle de $X$ en $Y$. On utilise la première pour estimer $Y$ à partir de $X$, et la seconde pour estimer $X$ à partir de $Y$. La droite de $X$ en $Y$ a pour coefficient directeur $a' = \text{Cov}(X,Y)/V(Y)$.
6Prévisions et limites du modèle linéaire

Une fois la droite de régression déterminée, on peut l'utiliser pour faire des prévisions (estimations) : c'est l'interpolation (si on prédit dans l'intervalle des données) ou l'extrapolation (si on prédit au-delà).

Exemple. Avec $y = 4{,}48x + 5{,}93$ :
Si la dépense pub est $x = 7$ k€, on prédit $y = 4{,}48 \times 7 + 5{,}93 = 31{,}36 + 5{,}93 = 37{,}29$ k€ de CA. (Interpolation : $x=7$ est dans $[2;10]$)
Si $x = 15$ k€ (extrapolation) : $y = 4{,}48 \times 15 + 5{,}93 = 73{,}13$ k€ — estimation risquée.
Attention — Limites du modèle linéaire.
• L'extrapolation loin des données est très peu fiable.
• Une corrélation forte n'implique pas de causalité (exemples de corrélations fallacieuses).
• Le modèle linéaire peut être inadapté (liaison quadratique, exponentielle…).
• Des valeurs aberrantes peuvent fortement fausser la droite.
Astuce. Comparer la droite au nuage visuellement après calcul : si certains points sont très éloignés, le modèle est peut-être inadapté.

Remarque : Pour un ajustement exponentiel ou logarithmique, on peut transformer les variables (poser $Z = \ln Y$ par exemple) pour se ramener à un ajustement linéaire.

7Utilisation de la calculatrice ou d'un tableur

En terminale, l'utilisation de la calculatrice ou d'un tableur est attendue pour les calculs de régression. Voici les étapes sur calculatrice (mode statistiques).

ÉtapeDescription
1. Saisir les donnéesEntrer les $x_i$ dans L1 et les $y_i$ dans L2 (ou colonnes A, B d'un tableur)
2. LinRegUtiliser la fonction régression linéaire : la calculatrice donne $a$, $b$ et $r$
3. Lire les résultats$y = ax + b$, vérifier $r^2$ (coefficient de détermination)
4. TracerTracer le nuage et superposer la droite pour validation visuelle
Astuce tableur. Sous Excel ou Calc : utiliser $=DROITEREG(B2:B7;A2:A7)$ pour obtenir $a$ et $b$, et $=COEFFICIENT.CORRELATION(A2:A7;B2:B7)$ pour $r$.
Exemple — Lecture des résultats calculatrice. Après saisie des données de l'exemple pub/CA, la calculatrice affiche :
$a = 4{,}48$ ; $b = 5{,}93$ ; $r = 0{,}996$ ; $r^2 = 0{,}992$.
Le coefficient de détermination $r^2 \approx 0{,}992$ signifie que 99,2 % de la variance de $Y$ est expliquée par la régression sur $X$.
Définition. Le coefficient de détermination $r^2$ mesure la proportion de variance de $Y$ expliquée par le modèle linéaire. $0 \leq r^2 \leq 1$. Plus $r^2$ est proche de 1, meilleur est l'ajustement.
À retenir
À retenir — Série double et régression :
• Une série double $(x_i, y_i)$ décrit deux variables sur les mêmes individus.
• Le nuage de points permet de visualiser la liaison.
• $\bar{x}$, $\bar{y}$, $V(X)$, $V(Y)$, $\text{Cov}(X,Y) = \overline{xy} - \bar{x}\bar{y}$.
• Coefficient de corrélation : $r = \dfrac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}$, toujours dans $[-1 ; 1]$.
• Droite des moindres carrés : $y = ax + b$ avec $a = \dfrac{\text{Cov}(X,Y)}{V(X)}$, $b = \bar{y} - a\bar{x}$.
• $G(\bar{x}, \bar{y})$ appartient toujours à la droite de régression.
• Extrapolation loin des données = résultats peu fiables.
Continuer ce chapitre
Autres chapitres
Bloqué sur ce chapitre ?

Cours particuliers de maths complémentaires (option tle) à Marseille, en présentiel ou à distance — un prof qui s'adapte à ton rythme et reprend ce qui coince.

Réserver un 1er cours → Voir les tarifs