À propos de cette page
Ce cours de enseignement scientifique en terminale sur « Données et algorithmes » suit le programme officiel de enseignement scientifique de terminale. Il présente les définitions, les propriétés et les méthodes essentielles, accompagnées d'exemples résolus pour bien comprendre. Au programme : La donnée numérique : nature, codage et contexte, Du recueil au stockage : la croissance des données (big data), Qu'est-ce qu'un algorithme ?, Efficacité d'un algorithme : la question de la complexité. Chaque notion est expliquée pas à pas, puis mise en pratique grâce à des exercices interactifs, un QCM et une évaluation corrigée. Idéal pour réviser à son rythme, combler ses lacunes et progresser, en autonomie ou avec un professeur. Cours rédigé par un professeur particulier à Marseille pour aider les élèves de terminale à réussir en enseignement scientifique.
Au programme
1 · La donnée numérique : nature, codage et contexte
2 · Du recueil au stockage : la croissance des données (big data)
3 · Qu'est-ce qu'un algorithme ?
4 · Efficacité d'un algorithme : la question de la complexité
5 · L'apprentissage automatique : apprendre à partir des données
6 · L'apprentissage supervisé et ses applications
7 · Les systèmes de recommandation et le ciblage
8 · Données, algorithmes et société : enjeux et limites
1La donnée numérique : nature, codage et contexte
Une donnée est une information brute : un nombre, un mot, une couleur de pixel, une position GPS, un « j'aime »… Dans un ordinateur, toute donnée est numérique : elle est codée in fine en binaire, c'est-à-dire sous forme de suites de 0 et de 1 (les bits).
Définition. Une donnée numérique est une information codée sous forme de nombres, manipulable par un ordinateur (stockage, transmission, traitement). Huit bits forment un octet (en anglais byte).
Une donnée isolée a peu de sens : elle doit être replacée dans un contexte et accompagnée de métadonnées (données qui décrivent la donnée : date, lieu, format, auteur…).
Exemple. Le nombre « 37,5 » n'a aucun sens seul. Avec ses métadonnées — « température corporelle, en °C, mesurée le 12 juin à 8 h » — il devient une donnée exploitable.
Attention ! Ne confondez pas donnée (information brute) et information au sens courant : c'est le traitement et la mise en contexte des données qui produisent de l'information utile et de la connaissance.
2Du recueil au stockage : la croissance des données (big data)
Nos activités numériques (capteurs, smartphones, réseaux sociaux, objets connectés, transactions) produisent un volume colossal de données. On parle de mégadonnées ou big data.
Définition. Le big data désigne des ensembles de données si volumineux, variés et produits si rapidement qu'ils dépassent les capacités des outils classiques. On le résume par les « 3 V » : Volume, Vélocité (vitesse de production) et Variété (textes, images, sons, positions…).
Les unités de stockage suivent une progression par puissances de 1000 (ou 1024 en informatique) : l'octet, le kilooctet (ko, ≈ 10³ octets), le mégaoctet (Mo, ≈ 10⁶), le gigaoctet (Go, ≈ 10⁹), le téraoctet (To, ≈ 10¹²), le pétaoctet (Po, ≈ 10¹⁵).
Astuce. Pour passer d'une unité à la suivante, on multiplie par 1000. Ainsi 1 To = 1000 Go = 1 000 000 Mo. Cette croissance des données est l'un des moteurs essentiels de l'essor de l'intelligence artificielle.
3Qu'est-ce qu'un algorithme ?
Une fois les données disponibles, encore faut-il les traiter. C'est le rôle des algorithmes.
Définition. Un algorithme est une suite finie et ordonnée d'instructions élémentaires qui, à partir de données d'entrée, produit un résultat de sortie en résolvant un problème donné. Un programme est la traduction d'un algorithme dans un langage compris par l'ordinateur.
Un algorithme repose sur quelques briques de base : des instructions exécutées dans l'ordre, des conditions (si… alors… sinon), des boucles (répéter tant que…) et des variables pour stocker des valeurs.
Exemple. « Trouver le plus grand nombre d'une liste » : on parcourt la liste, on garde en mémoire le maximum provisoire, on le met à jour si on rencontre une valeur plus grande, puis on renvoie le résultat. C'est un algorithme simple, fini et reproductible.
4Efficacité d'un algorithme : la question de la complexité
Pour un même problème, plusieurs algorithmes existent : certains sont beaucoup plus rapides que d'autres. On évalue l'efficacité d'un algorithme par sa complexité : le nombre d'opérations qu'il effectue selon la taille $n$ des données.
Définition. La complexité d'un algorithme mesure la quantité de ressources (temps de calcul, mémoire) qu'il consomme en fonction de la taille $n$ des données à traiter.
Exemple — chercher un mot dans un dictionnaire trié. Une recherche séquentielle teste les mots un par un : jusqu'à $n$ comparaisons. Une recherche dichotomique coupe la liste en deux à chaque étape : environ $\log_2(n)$ comparaisons. Pour $n = 1\,000\,000$, c'est près d'un million de comparaisons contre seulement une vingtaine !
Attention ! Avec le big data, la complexité devient cruciale : un algorithme trop coûteux peut devenir inutilisable dès que les données sont volumineuses. Optimiser les algorithmes est un enjeu économique et écologique (consommation d'énergie des centres de données).
5L'apprentissage automatique : apprendre à partir des données
Les algorithmes classiques suivent des règles écrites à l'avance par un programmeur. Mais pour certaines tâches (reconnaître un visage, traduire une phrase), il est impossible d'énumérer toutes les règles. On utilise alors l'apprentissage automatique (machine learning), branche de l'intelligence artificielle.
Définition. L'apprentissage automatique est un ensemble de méthodes par lesquelles un programme construit lui-même son modèle à partir d'un grand nombre d'exemples (les données d'entraînement), au lieu de suivre des règles fixées par avance.
Plus les données d'entraînement sont nombreuses et variées, plus le modèle est performant : c'est pourquoi le big data et l'IA progressent ensemble. L'apprentissage se déroule en deux temps : une phase d'entraînement (le modèle ajuste ses paramètres sur les données) puis une phase d'utilisation (le modèle traite de nouvelles données jamais vues).
6L'apprentissage supervisé et ses applications
La forme la plus courante d'apprentissage est l'apprentissage supervisé.
Définition. En apprentissage supervisé, on fournit au programme des données déjà étiquetées : chaque exemple est associé à la bonne réponse. Le modèle apprend à relier les entrées aux sorties, afin de prédire l'étiquette de nouvelles données.
Exemple — reconnaissance d'images. Pour apprendre à reconnaître des chats, on entraîne le modèle sur des milliers d'images étiquetées « chat » ou « non-chat ». Après entraînement, il classe une image inédite.
| Type d'apprentissage | Données fournies | Exemple de tâche |
|---|
| Supervisé | Exemples étiquetés (entrée + bonne réponse) | Reconnaître un chiffre manuscrit, filtrer les spams |
| Non supervisé | Données sans étiquette | Regrouper des clients par profils similaires |
La qualité et la quantité des données étiquetées déterminent directement la performance du modèle : un modèle entraîné sur des données insuffisantes ou de mauvaise qualité fera de mauvaises prédictions.
7Les systèmes de recommandation et le ciblage
Une application majeure des algorithmes d'apprentissage est le système de recommandation, omniprésent dans les plateformes commerciales (achats, vidéos, musique, réseaux sociaux).
Définition. Un système de recommandation analyse les données d'un utilisateur (historique, clics, achats, « j'aime ») et celles d'utilisateurs aux profils proches pour prédire et proposer les contenus susceptibles de l'intéresser.
Exemple — filtrage collaboratif. « Les clients qui ont acheté ce livre ont aussi acheté… » : l'algorithme repère des utilisateurs aux goûts similaires et recommande à l'un ce que les autres ont apprécié.
Ces systèmes reposent sur la collecte massive de données personnelles : ils sont au cœur du modèle économique de nombreuses entreprises (publicité ciblée). Le ciblage permet d'adresser à chaque personne un contenu ou une publicité adaptés à son profil.
Astuce. Derrière « gratuit » se cache souvent un échange : l'utilisateur fournit ses données, qui ont une valeur économique. C'est le sens de la formule « si c'est gratuit, c'est vous le produit ».
8Données, algorithmes et société : enjeux et limites
Le couple données–algorithmes transforme l'économie et la société, mais soulève d'importants enjeux éthiques, sociaux et environnementaux.
| Enjeu | Description |
|---|
| Vie privée | Collecte et exploitation de données personnelles ; encadrement par le RGPD en Europe. |
| Biais des données | Un modèle entraîné sur des données biaisées reproduit, voire amplifie, ces biais (discriminations). |
| Transparence | Certains algorithmes sont des « boîtes noires » : leurs décisions sont difficiles à expliquer. |
| Environnement | L'entraînement des modèles et le stockage des données consomment beaucoup d'énergie. |
| Bulles de filtre | Les recommandations enferment l'utilisateur dans ses propres goûts et opinions. |
Attention ! Un algorithme n'est jamais neutre : ses résultats dépendent des données qui l'ont entraîné et des choix de ses concepteurs. « Le modèle reproduit ce qu'on lui a appris. »
Exemple de biais. Un logiciel de tri de CV entraîné sur des recrutements passés majoritairement masculins peut apprendre à défavoriser les candidatures féminines : le biais des données devient un biais de décision.
Astuce. Esprit critique requis : derrière chaque recommandation ou décision automatisée, posez-vous trois questions — quelles données ?, quel algorithme ?, au service de quel objectif ?
★À retenir
À retenir :
• Une donnée numérique est une information codée en binaire (0 et 1) ; elle prend sens avec son contexte et ses métadonnées.
• Le big data (Volume, Vélocité, Variété) explose : les unités vont de l'octet au pétaoctet (× 1000 à chaque palier).
• Un algorithme est une suite finie d'instructions qui transforme des données d'entrée en sortie ; son efficacité se mesure par sa complexité (ex. dichotomie en $\log_2 n$ contre recherche séquentielle en $n$).
• L'apprentissage automatique construit un modèle à partir d'exemples ; en apprentissage supervisé, les données sont étiquetées. Plus de données ⇒ meilleur modèle (jusqu'à un plafond).
• Les systèmes de recommandation exploitent les données personnelles pour cibler contenus et publicités (modèle économique).
• Données et algorithmes posent des enjeux : vie privée (RGPD), biais des données, transparence, coût environnemental, bulles de filtre. Un algorithme n'est jamais neutre.