Enseignement scientifique · Classe de Terminale

Données et algorithmes

Du recueil des données numériques aux algorithmes d'apprentissage : comment l'exploitation des données fonde l'intelligence artificielle — thème « Une histoire du vivant : les entreprises et l'intelligence artificielle » (programme d'enseignement scientifique de Tle générale)

À propos de cette page

Ces exercices corrigés sur « Données et algorithmes » en terminale permettent de s'entraîner et de vérifier ses acquis en enseignement scientifique. Ils suivent le programme officiel de terminale et sont classés par difficulté (facile, moyen, difficile). Au programme : La donnée numérique : nature, codage et contexte, Du recueil au stockage : la croissance des données (big data), Qu'est-ce qu'un algorithme ?, Efficacité d'un algorithme : la question de la complexité. Écris ta réponse puis clique sur « Vérifier » : la correction est immédiate et tolère majuscules, espaces et ponctuation. Cet entraînement aide à mémoriser les méthodes, repérer ses erreurs et gagner en confiance avant un contrôle. Exercices gratuits proposés par un professeur particulier à Marseille pour réviser enseignement scientifique en terminale.

Exercices corrigés, classés du plus simple au plus complexe. Cherche d'abord seul au brouillon, puis déplie la correction détaillée pour vérifier ta méthode et tes raisonnements.

Exercice 1 — Donnée, métadonnée et contexte

Pour chaque cas, indique s'il s'agit d'une donnée brute ou d'une métadonnée, et explique pourquoi le contexte est indispensable.

La valeur « 48,85 ; 2,35 » enregistrée par un smartphone.
La mention « coordonnées GPS (latitude ; longitude), relevées le 14/06 à Paris ».
Pourquoi le nombre « 48,85 » est-il inexploitable sans information complémentaire ?

Corrigé :
1. « 48,85 ; 2,35 » est une donnée brute : une simple suite de nombres, sans signification immédiate.
2. « coordonnées GPS (latitude ; longitude), relevées le 14/06 à Paris » est une métadonnée : elle décrit la donnée (sa nature, son unité, sa date, son lieu) sans être la donnée elle-même.
3. Le nombre « 48,85 » pourrait être une température, un prix, une latitude, un pourcentage… Sans contexte ni métadonnées (de quoi parle-t-on ? quelle unité ?), il est impossible de l'interpréter : une donnée n'a de sens qu'une fois replacée dans son contexte.

Exercice 2 — Conversions et unités de stockage

Effectue les conversions en utilisant la progression par puissances de 1000 (1 ko ≈ 10³ o, 1 Mo ≈ 10⁶ o, etc.).

Combien de mégaoctets (Mo) y a-t-il dans 1 gigaoctet (Go) ?
Un disque dur a une capacité de 2 To. Exprime cette capacité en gigaoctets (Go).
Une photo pèse en moyenne 5 Mo. Combien de photos peut-on, en ordre de grandeur, stocker sur ce disque de 2 To ?

Corrigé :
1. On passe d'une unité à la suivante en multipliant par 1000. Donc $1\ \text{Go} = 1000\ \text{Mo}$.
2. $1\ \text{To} = 1000\ \text{Go}$, donc $2\ \text{To} = 2 \times 1000 = 2000\ \text{Go}$.
3. $2\ \text{To} = 2000\ \text{Go} = 2\,000\,000\ \text{Mo}$. Nombre de photos $= \dfrac{2\,000\,000}{5} = 400\,000$ photos environ. (Ordre de grandeur : quelques centaines de milliers de photos.)

Exercice 3 — Lire un algorithme simple

On considère l'algorithme suivant qui parcourt une liste de nombres ; réponds aux questions.

Algorithme. max ← premier élément de la liste ; pour chaque élément e de la liste : si e > max alors max ← e ; renvoyer max. — Que calcule cet algorithme ?
Quelles sont les données d'entrée et le résultat de sortie de cet algorithme ?
Sur la liste [4 ; 9 ; 2 ; 7], indique la valeur successive de la variable max à chaque étape, puis le résultat final.

Corrigé :
1. Cet algorithme calcule le plus grand élément (maximum) de la liste : il garde en mémoire le plus grand nombre rencontré et le met à jour dès qu'il en trouve un supérieur.
2. Donnée d'entrée : la liste de nombres. Résultat de sortie : la plus grande valeur de la liste (un seul nombre).
3. Suivi de max : on initialise max = 4 ; on lit 9 → 9 > 4 donc max = 9 ; on lit 2 → 2 < 9, max reste 9 ; on lit 7 → 7 < 9, max reste 9. Résultat final : 9.

Exercice 4 — Efficacité : recherche séquentielle ou dichotomique

On cherche un nom dans un annuaire trié de $n$ entrées ; compare les deux méthodes.

Combien de comparaisons faut-il, au maximum, pour une recherche séquentielle dans une liste de 1000 noms ?
La recherche dichotomique demande environ $\log_2(n)$ comparaisons. Sachant que $2^{10} = 1024$, estime le nombre de comparaisons pour 1000 noms.
Que conclus-tu sur l'importance du choix de l'algorithme lorsque les données sont volumineuses ?

Corrigé :
1. En recherche séquentielle, on teste les noms un par un : au pire, il faut $n = 1000$ comparaisons (le nom cherché est le dernier, ou absent).
2. Comme $2^{10} = 1024 \approx 1000$, on a $\log_2(1000) \approx 10$. La recherche dichotomique ne demande donc qu'environ 10 comparaisons.
3. Pour 1000 noms, on passe de 1000 à 10 comparaisons : la dichotomie est environ 100 fois plus rapide. Et l'écart se creuse avec $n$ : pour un million d'entrées, c'est 1 000 000 contre 20 ! Le choix de l'algorithme (sa complexité) est donc décisif dès que les données sont volumineuses (big data).

Exercice 5 — Apprentissage supervisé : filtrer les spams

Un logiciel anti-spam est entraîné par apprentissage supervisé ; réponds aux questions.

Quelles données d'entraînement faut-il fournir pour que le modèle apprenne à reconnaître un spam ?
Pourquoi parle-t-on d'apprentissage « supervisé » dans ce cas ?
Le modèle classe à tort un courriel important comme spam. Cite une cause possible liée aux données d'entraînement.

Corrigé :
1. Il faut fournir un grand nombre de courriels déjà étiquetés « spam » ou « non-spam » : ce sont les exemples sur lesquels le modèle apprend à associer certaines caractéristiques (mots, expéditeurs…) à une catégorie.
2. On parle d'apprentissage supervisé parce que, pour chaque exemple, on fournit au modèle la bonne réponse (l'étiquette). Le modèle apprend en comparant ses prédictions aux étiquettes connues.
3. Causes possibles : les données d'entraînement étaient insuffisantes ou peu variées (ce type de courriel légitime était sous-représenté), ou bien elles contenaient un biais ; le modèle généralise alors mal sur des cas nouveaux. La qualité et la représentativité des données conditionnent directement la fiabilité du modèle.

Exercice 6 — Analyse de document scientifique — biais d'un algorithme

À partir du document ci-dessous, réponds aux questions de lecture et d'interprétation.

Document. Une entreprise teste un logiciel de tri automatique de candidatures, entraîné sur les CV des personnes recrutées au cours des dix dernières années. Or, durant cette période, 80 % des personnes recrutées étaient des hommes. Après mise en service, on mesure le taux de candidatures retenues par l'algorithme selon le genre du candidat :
Décris ce que montre le graphique concernant le taux de candidatures retenues selon le genre.
Explique l'origine probable de cet écart en mobilisant la notion de biais des données d'entraînement.
Propose une mesure permettant de limiter ce type de biais.

Corrigé :
1. Le graphique montre que l'algorithme retient 42 % des candidatures masculines contre seulement 18 % des candidatures féminines, soit un taux plus de deux fois supérieur pour les hommes. À compétences comparables, il existe donc un écart marqué défavorable aux femmes.
2. Cet écart provient d'un biais des données d'entraînement : le modèle a appris sur des recrutements passés majoritairement masculins (80 % d'hommes). Il a donc « appris » à associer le profil masculin à un recrutement réussi et reproduit cette discrimination passée. Un algorithme n'est pas neutre : il reproduit, voire amplifie, les biais contenus dans ses données.
3. Mesures possibles : rééquilibrer les données d'entraînement (corpus représentatif des deux genres), retirer ou neutraliser les variables liées au genre, auditer régulièrement les décisions de l'algorithme et garantir une supervision humaine. L'encadrement légal (RGPD, droit de la non-discrimination) impose par ailleurs transparence et contrôle.

→Continuer ce chapitre

📖 Cours ❓ QCM 🎯 Évaluation

↔Autres chapitres

← L'intelligence artificielle La santé, les médicaments et les sciences →

Bloqué sur ce chapitre ?

Cours particuliers de enseignement scientifique à Marseille, en présentiel ou à distance — un prof qui s'adapte à ton rythme et reprend ce qui coince.

Réserver un 1^er cours → Voir les tarifs