← Retour aux ressources
Sciences numériques et technologie (SNT) · Classe de 2ⁿᵈᵉ

Traitement et visualisation des données

Collecter, trier, analyser et représenter graphiquement des données — programme SNT 2nde (lycée général)

À propos de cette page
Ce cours de sciences numériques et technologie (snt) en seconde sur « Traitement et visualisation des données » suit le programme officiel de sciences numériques et technologie (snt) de seconde. Il présente les définitions, les propriétés et les méthodes essentielles, accompagnées d'exemples résolus pour bien comprendre. Au programme : La donnée : définition et nature, Collecter et stocker des données, Trier et filtrer des données, Calculer sur des données : statistiques de base. Chaque notion est expliquée pas à pas, puis mise en pratique grâce à des exercices interactifs, un QCM et une évaluation corrigée. Idéal pour réviser à son rythme, combler ses lacunes et progresser, en autonomie ou avec un professeur. Cours rédigé par un professeur particulier à Marseille pour aider les élèves de seconde à réussir en sciences numériques et technologie (snt).
Au programme
1 · La donnée : définition et nature
2 · Collecter et stocker des données
3 · Trier et filtrer des données
4 · Calculer sur des données : statistiques de base
5 · Visualiser des données
6 · Algorithmes de traitement
7 · Qualité et biais des données
8 · Enjeux éthiques et protection des données
1La donnée : définition et nature

Une donnée (en anglais data) est une information brute, représentée sous une forme exploitable par un ordinateur. Les données peuvent être :

  • numériques : entiers, réels (ex. : température, prix, note) ;
  • textuelles : chaînes de caractères (ex. : nom, ville) ;
  • booléennes : vrai/faux (ex. : majeur : oui/non) ;
  • temporelles : dates, heures (ex. : 2024-03-15).
Définition. Un jeu de données (ou dataset) est une collection organisée de données relatives à un même sujet. Il est souvent représenté sous forme d'un tableau dont chaque ligne correspond à un individu (enregistrement) et chaque colonne à un attribut (champ).
Exemple. Le tableau suivant regroupe des données sur des élèves d'une classe :
NomÂgeVilleNote (/20)
Alice15Marseille14
Bob16Lyon11
Carla15Marseille17
Chaque ligne est un enregistrement ; « Âge » et « Note » sont des attributs numériques.
2Collecter et stocker des données

Les données proviennent de nombreuses sources : capteurs, formulaires en ligne, réseaux sociaux, applications mobiles, satellites… Leur collecte massive a donné naissance au concept de Big Data.

Format CSV. Le format texte CSV (Comma-Separated Values) est l'un des formats les plus utilisés pour stocker des données tabulaires. Chaque ligne correspond à un enregistrement ; les valeurs sont séparées par une virgule (ou un point-virgule).
Exemple de fichier CSV :
nom,age,ville,note
Alice,15,Marseille,14
Bob,16,Lyon,11
Carla,15,Marseille,17

D'autres formats courants sont JSON (utilisé pour les API web) et XML. Pour des données volumineuses ou relationnelles, on utilise des bases de données gérées par un SGBD (Système de Gestion de Bases de Données).

Astuce. Un fichier CSV s'ouvre facilement dans un tableur (LibreOffice Calc, Excel) ou se lit avec Python (import csv). C'est le point d'entrée standard pour analyser des données.
3Trier et filtrer des données

Deux opérations fondamentales permettent d'explorer un jeu de données :

Définition — Tri. Trier un tableau consiste à ordonner ses enregistrements selon la valeur d'un ou plusieurs attributs, par ordre croissant, décroissant ou alphabétique.
Définition — Filtrage. Filtrer un tableau consiste à ne conserver que les enregistrements qui satisfont une condition (ou prédicat) portant sur un ou plusieurs attributs.
Exemple. Sur le tableau de la section 1 :
  • Tri par note décroissante → Carla (17), Alice (14), Bob (11).
  • Filtre « ville = Marseille » → Alice et Carla.
  • Filtre « note ≥ 14 ET ville = Marseille » → Alice et Carla.

En Python, on peut utiliser des listes en compréhension ou la bibliothèque pandas pour réaliser ces opérations efficacement sur de grands jeux de données.

Attention ! L'ordre des opérations compte : filtrer avant de trier réduit la taille du tableau et accélère le tri. Trier en premier n'est pas une erreur mais est moins efficace sur de grands volumes.
4Calculer sur des données : statistiques de base

Après le tri et le filtrage, on calcule souvent des indicateurs statistiques qui résument le jeu de données.

IndicateurDéfinitionExemple (notes : 14, 11, 17)
MinimumPlus petite valeur$\min = 11$
MaximumPlus grande valeur$\max = 17$
Étendue$\max - \min$$17 - 11 = 6$
Moyenne$\bar{x} = \frac{\sum x_i}{n}$$\bar{x} = \frac{14+11+17}{3} = 14$
MédianeValeur centrale après trimédiane $= 14$
Astuce. La médiane est moins sensible aux valeurs extrêmes (outliers) que la moyenne. Si la distribution est très asymétrique, la médiane est souvent plus représentative.
Exemple Python :
notes = [14, 11, 17]
moyenne = sum(notes) / len(notes) # → 14.0
minimum = min(notes) # → 11
maximum = max(notes) # → 17
5Visualiser des données

La visualisation transforme des données brutes en représentations graphiques pour faciliter leur compréhension. Le choix du graphique dépend du type de données et du message à transmettre.

GraphiqueUsage
Diagramme en barresComparer des catégories
HistogrammeDistribution d'une variable continue
Camembert (pie)Proportions d'un tout (≤6 catégories)
Courbe (line)Évolution dans le temps
Nuage de pointsCorrélation entre deux variables
Règle. Un bon graphique doit toujours avoir : un titre, des axes légendés avec leurs unités, et une échelle adaptée qui ne tronque pas artificiellement les données.
Attention ! Un graphique peut tromper si l'axe des ordonnées ne commence pas à 0, si l'échelle est non linéaire ou si les étiquettes sont absentes. Toujours vérifier la source et la construction d'un graphique avant d'en tirer des conclusions.
6Algorithmes de traitement

Le traitement des données repose sur des algorithmes : des suites d'instructions précises, finies et non ambiguës.

Algorithme de tri par sélection (principe). Pour trier un tableau de $n$ valeurs par ordre croissant :
  1. Parcourir le tableau pour trouver le minimum.
  2. L'échanger avec le premier élément non encore trié.
  3. Répéter jusqu'à ce que tout le tableau soit trié.
Complexité : $O(n^2)$ comparaisons.
Exemple Python — algorithme de filtrage :
donnees = [
{"nom":"Alice", "ville":"Marseille", "note":14},
{"nom":"Bob", "ville":"Lyon", "note":11}
]
marseillais = [e for e in donnees if e["ville"] == "Marseille"]

En SNT, on décrit les algorithmes en pseudo-code ou en Python sans nécessité de les optimiser ; l'essentiel est de comprendre leur logique.

7Qualité et biais des données

Un traitement fiable exige des données de qualité. Plusieurs problèmes peuvent altérer les résultats :

  • Valeurs manquantes : un champ vide fausse les calculs (ex. : une note absente abaisse la moyenne si on la compte comme 0).
  • Valeurs aberrantes (outliers) : une valeur très éloignée des autres (ex. : une note de 200/20 due à une saisie erronée).
  • Doublons : un même enregistrement présent deux fois gonfle les effectifs.
  • Biais de collecte : si l'échantillon n'est pas représentatif de la population, les conclusions sont biaisées (ex. : sondage fait uniquement en ligne excluant les non-connectés).
Attention ! Le biais algorithmique peut amplifier des inégalités existantes. Un algorithme entraîné sur des données biaisées reproduit et parfois renforce ces biais (ex. : logiciels de reconnaissance faciale moins précis sur certaines ethnies).
Astuce. Avant tout traitement, effectuer un nettoyage des données (data cleaning) : supprimer les doublons, corriger les valeurs aberrantes et gérer les données manquantes (suppression de la ligne ou remplacement par la moyenne).
8Enjeux éthiques et protection des données

La collecte et le traitement massifs de données personnelles soulèvent des enjeux éthiques et juridiques majeurs.

RGPD. Le Règlement Général sur la Protection des Données (RGPD, 2018) est la loi européenne qui encadre le traitement des données personnelles. Ses principes clés sont :
  • Consentement : l'utilisateur doit accepter explicitement la collecte de ses données.
  • Finalité : les données ne peuvent être utilisées que pour la finalité déclarée.
  • Minimisation : on ne collecte que les données strictement nécessaires.
  • Droit d'accès et d'effacement : toute personne peut consulter et demander la suppression de ses données.

En France, la CNIL (Commission Nationale de l'Informatique et des Libertés) veille au respect du RGPD et peut sanctionner les entreprises en infraction.

Exemple. Une application de fitness collecte localisation, fréquence cardiaque et habitudes de sommeil. Selon le RGPD, l'utilisateur doit être informé, donner son consentement, et peut demander la suppression de toutes ces données à tout moment.
À retenir. La pseudonymisation (remplacer les noms par des identifiants anonymes) et le chiffrement sont deux techniques qui réduisent les risques liés à la fuite de données personnelles.
À retenir
En bref :
• Une donnée est une information brute (numérique, textuelle, booléenne, temporelle) stockée dans un fichier ou une base de données.
• Un jeu de données tabulaire s'organise en lignes (individus) et colonnes (attributs) ; le format CSV est le plus courant.
Trier = ordonner ; Filtrer = sélectionner selon un critère.
• Les indicateurs statistiques clés : $\min$, $\max$, moyenne $\bar{x}=\frac{\sum x_i}{n}$, médiane.
• Choisir le bon graphique : barres pour comparer, courbe pour l'évolution, camembert pour les proportions.
• Des données de mauvaise qualité (manquantes, aberrantes, biaisées) conduisent à des conclusions erronées.
• Le RGPD protège les données personnelles en Europe ; la CNIL veille à son application en France.
Continuer ce chapitre
Autres chapitres
Bloqué sur ce chapitre ?

Cours particuliers de sciences numériques et technologie (snt) à Marseille, en présentiel ou à distance — un prof qui s'adapte à ton rythme et reprend ce qui coince.

Réserver un 1er cours → Voir les tarifs