Du recueil des données numériques aux algorithmes d'apprentissage : comment l'exploitation des données fonde l'intelligence artificielle — thème « Une histoire du vivant : les entreprises et l'intelligence artificielle » (programme d'enseignement scientifique de Tle générale)
Évaluation complète de fin de chapitre, tout en niveau difficile. Travaille seul et sans aide, puis vérifie tes réponses avec le corrigé détaillé dépliable en bas de page.
Réponds aux questions en mobilisant les notions du cours.
Exploite le document pour répondre par un raisonnement scientifique rigoureux.
Exploite le document pour construire un raisonnement scientifique.
Croise les informations des deux documents pour répondre.
Rédige une réponse organisée d'une dizaine de lignes.
Exercice 1 — Données numériques et stockage
Q1. Une donnée numérique est une information codée sous forme de nombres (in fine en binaire, des 0 et des 1), que l'ordinateur peut stocker, transmettre et traiter. Les métadonnées sont des données qui décrivent la donnée (date, lieu, format, unité, auteur) ; elles lui donnent un contexte sans lequel elle n'est pas interprétable. (1 pt définition + 1 pt rôle des métadonnées)
Q2. Volume total $= 5 \times 10^9 \text{ photos} \times 4\ \text{Mo} = 2 \times 10^{10}\ \text{Mo}$. Conversion : $\dfrac{2 \times 10^{10}}{10^9} = 20\ \text{Po}$. Le service nécessite donc environ 20 pétaoctets de stockage. (1 pt pour le calcul du volume en Mo, 1 pt pour la conversion en Po)
Exercice 2 — Raisonnement sur un document : efficacité de deux algorithmes
Q1. Le nombre d'opérations de l'algorithme A augmente proportionnellement à $n$ : il passe de 1000 à 1 000 000 lorsque $n$ est multiplié par 1000. Celui de l'algorithme B augmente très lentement : de 10 à 20 seulement quand $n$ est multiplié par 1000. (1,5 pt)
Q2. L'algorithme A correspond à la recherche séquentielle : son coût est de l'ordre de $n$ (croissance linéaire, il teste les éléments un par un). L'algorithme B correspond à la recherche dichotomique : son coût est de l'ordre de $\log_2(n)$ (il divise par deux à chaque étape), ce qui explique sa croissance très lente. (1 pt par bonne association justifiée)
Q3. Pour plusieurs millions d'entrées, je choisis l'algorithme B (dichotomique) : sa complexité en $\log_2 n$ le rend bien plus économe (≈ 20 opérations) que A (≈ plusieurs millions). À l'ère du big data, un algorithme de faible complexité est indispensable pour traiter de grands volumes en un temps raisonnable. (1,5 pt)
Exercice 3 — Apprentissage automatique et qualité des données
Q1. Il s'agit d'apprentissage supervisé : les images sont étiquetées par des dermatologues (chaque exemple est associé à sa bonne réponse, mélanome ou non). Le modèle apprend en comparant ses prédictions à ces étiquettes. (1,5 pt)
Q2. La précision augmente fortement avec le nombre d'images : de 61 % (500 images) à 87 % (10 000 images). Puis elle croît plus lentement et tend à plafonner autour de 93–95 % au-delà de 50 000 images. Ce plafonnement montre qu'au-delà d'un certain volume, chaque image supplémentaire apporte un gain de performance de plus en plus faible. (1 pt évolution + 1 pt interprétation du plafond)
Q3. Si les données ne représentent presque que des peaux claires, le modèle sera peu fiable sur les peaux foncées (sous-représentées) : il risque de manquer des mélanomes ou de produire de fausses alertes pour ces patients. C'est un biais des données d'entraînement (manque de représentativité) : le modèle généralise mal aux cas absents de son apprentissage, avec des conséquences graves en santé. (1,5 pt)
Exercice 4 — Systèmes de recommandation : analyse de documents
On attend un raisonnement croisant les deux documents.
• Le document 1 montre que l'algorithme de recommandation oriente massivement le visionnage (plus de 70 % du temps provient de ses suggestions). (1 pt)
• Le document 2 montre qu'au fil des semaines, la part d'un même thème passe de 35 % à 82 % : l'utilisateur est de plus en plus exposé à un seul type de contenu, conforme à ses goûts. C'est la bulle de filtre : l'algorithme enferme progressivement l'utilisateur dans ses propres préférences. (1 pt)
• Risque : la réduction de la diversité des contenus et des points de vue (appauvrissement de l'information, renforcement des opinions, voire désinformation). L'esprit critique et une démarche active de diversification sont nécessaires. (1 pt)
Exercice 5 — Synthèse argumentée
Éléments attendus dans une synthèse organisée (introduction – arguments – conclusion) :
• Un modèle d'IA fondé sur l'apprentissage automatique ne suit pas des règles « objectives » : il apprend à partir de données fournies par des humains. Ses décisions dépendent donc entièrement de ces données et des choix de conception. (1 pt)
• Si les données d'entraînement contiennent un biais (déséquilibre, préjugé, manque de représentativité), le modèle l'apprend et le reproduit, voire l'amplifie : exemples du tri de CV discriminant les femmes, ou du diagnostic médical défaillant sur les peaux peu représentées. Un algorithme n'est donc jamais neutre. (1 pt)
• Conclusion : l'affirmation est fausse. La prétendue objectivité de l'IA masque des choix humains. Cela impose transparence, supervision humaine, données représentatives et encadrement (RGPD) pour les décisions à fort enjeu. (1 pt pour la conclusion nuancée)
Cours particuliers de enseignement scientifique à Marseille, en présentiel ou à distance — un prof qui s'adapte à ton rythme et reprend ce qui coince.