À propos de cette page
Ce cours de sciences numériques et technologie (snt) en seconde sur « Données structurées » suit le programme officiel de sciences numériques et technologie (snt) de seconde. Il présente les définitions, les propriétés et les méthodes essentielles, accompagnées d'exemples résolus pour bien comprendre. Au programme : Qu'est-ce qu'une donnée ?, Collections de données et descripteurs, Le format CSV, Le format JSON. Chaque notion est expliquée pas à pas, puis mise en pratique grâce à des exercices interactifs, un QCM et une évaluation corrigée. Idéal pour réviser à son rythme, combler ses lacunes et progresser, en autonomie ou avec un professeur. Cours rédigé par un professeur particulier à Marseille pour aider les élèves de seconde à réussir en sciences numériques et technologie (snt).
Au programme
1 · Qu'est-ce qu'une donnée ?
2 · Collections de données et descripteurs
3 · Le format CSV
4 · Le format JSON
5 · Données ouvertes (Open Data)
6 · Trier et filtrer des données
7 · Qualité et protection des données
1Qu'est-ce qu'une donnée ?
Une donnée est une information représentée sous une forme permettant d'être stockée, traitée et transmise par un ordinateur. Les données sont omniprésentes : températures relevées par des capteurs météo, notes d'élèves, résultats sportifs, prix de produits en ligne…
Définition. Une donnée numérique est toute information encodée sous forme binaire (suite de 0 et de 1) dans un système informatique. Elle peut être un nombre, un texte, une date, un booléen (vrai/faux)…
On distingue différents types de données :
| Type | Exemples | Description |
|---|
Entier (int) | 42, -7, 0 | Nombre entier positif ou négatif |
Décimal (float) | 3.14, -0.5 | Nombre à virgule flottante |
Texte (str) | "Paris", "Alice" | Suite de caractères |
Booléen (bool) | True, False | Valeur logique vrai/faux |
| Date | "2024-01-15" | Représentation d'une date |
Astuce. Les données numériques brutes n'ont pas de sens seules : elles prennent de la valeur lorsqu'elles sont organisées et accompagnées de leur contexte (unité, date, lieu…).
2Collections de données et descripteurs
Lorsque l'on regroupe plusieurs données de même nature concernant plusieurs objets ou individus, on forme une collection de données (aussi appelée dataset).
Définition. Un descripteur (ou attribut) est le nom d'une propriété caractérisant chaque objet de la collection. Il correspond à l'en-tête d'une colonne dans un tableau.
Exemple. Collection « Villes de France » :
| Nom | Département | Population | Superficie (km²) |
|---|
| Marseille | 13 | 861635 | 240.6 |
| Lyon | 69 | 513275 | 47.9 |
| Toulouse | 31 | 471941 | 118.3 |
Les descripteurs sont : Nom, Département, Population, Superficie. Chaque ligne correspond à un enregistrement (ou objet).
Pour qu'une collection soit exploitable, chaque descripteur doit avoir un type homogène : toutes les valeurs de la colonne « Population » sont des entiers.
Attention ! Mélanger les types dans une même colonne (ex. : « 50000 » et « cinquante mille ») rend le traitement automatique impossible.
Structure d'une collection de données tabulaires
3Le format CSV
Le format CSV (Comma-Separated Values — valeurs séparées par des virgules) est l'un des formats les plus répandus pour stocker des données structurées tabulaires dans un fichier texte simple.
Définition. Un fichier CSV est un fichier texte dans lequel :
- La première ligne contient les descripteurs séparés par un délimiteur (virgule
, ou point-virgule ;). - Chaque ligne suivante contient un enregistrement, les valeurs étant séparées par le même délimiteur.
Exemple. Fichier CSV « eleves.csv » :
Nom;Prénom;Age;Ville
Dupont;Alice;16;Marseille
Martin;Bob;15;Lyon
Petit;Clara;16;ParisCe fichier contient 3 enregistrements décrits par 4 descripteurs.
Astuce. En France, le séparateur ; (point-virgule) est souvent préféré à la virgule car celle-ci est déjà utilisée comme séparateur décimal (ex. : 3,14).
Attention ! Si une valeur texte contient le séparateur (ex. : Marseille, 13e), elle doit être entourée de guillemets doubles : "Marseille, 13e".
Le CSV est lisible dans n'importe quel éditeur de texte et importable dans un tableur (LibreOffice Calc, Excel) ou dans un langage de programmation (Python).
4Le format JSON
Le format JSON (JavaScript Object Notation) est un autre format standard pour échanger des données structurées. Contrairement au CSV, il peut représenter des structures imbriquées (listes dans des objets, objets dans des listes…).
Définition. Un fichier JSON est constitué de paires clé : valeur placées entre accolades { }. Les listes sont délimitées par des crochets [ ].
Exemple. Représentation JSON d'une collection d'élèves :
[
{"nom": "Dupont", "prénom": "Alice", "age": 16, "ville": "Marseille"},
{"nom": "Martin", "prénom": "Bob", "age": 15, "ville": "Lyon"}
]Ici, chaque élément de la liste est un objet JSON avec les mêmes clés. Les clés jouent le rôle de descripteurs.
| Critère | CSV | JSON |
|---|
| Lisibilité | Très lisible | Lisible |
| Structure | Plate (2D) | Hiérarchique (imbriquée) |
| Taille fichier | Compact | Plus verbeux |
| Usage typique | Tableurs, stats | API web, config |
Astuce. Le format JSON est très utilisé dans les API web : lorsqu'une application demande des données à un serveur (météo, réseaux sociaux, géolocalisation), la réponse est généralement en JSON.
Pipeline de traitement des données structurées
5Données ouvertes (Open Data)
Les données ouvertes (open data) sont des données mises librement à disposition du public, généralement par des organismes publics (État, collectivités) ou des organisations internationales.
Définition. L'open data désigne des données accessibles à tous, sans restriction d'usage, de redistribution ou de réutilisation (hors citation de la source).
En France, le portail data.gouv.fr centralise des milliers de jeux de données : résultats électoraux, statistiques de santé, données météo, trafic routier, horaires de transports…
Exemple. Le jeu de données « Base des accidents corporels de la circulation » (data.gouv.fr) contient des millions d'enregistrements avec les descripteurs : date, heure, département, conditions météo, nombre de blessés…
Astuce. Les licences open data les plus courantes sont la Licence Ouverte (LO) d'Etalab et la licence ODbL. Elles imposent de citer la source et, pour ODbL, de repartager les données modifiées sous la même licence.
Attention ! Toutes les données publiques ne sont pas open data : certaines contiennent des informations personnelles et sont protégées (données médicales, judiciaires…).
Ordres de grandeur des jeux de données disponibles sur quelques portails open data
6Trier et filtrer des données
Deux opérations fondamentales permettent d'explorer une collection de données :
Trier. Réordonner les enregistrements selon les valeurs d'un (ou plusieurs) descripteur(s), de façon croissante ou décroissante.
Filtrer. Sélectionner uniquement les enregistrements qui satisfont une condition (ou un ensemble de conditions).
Exemple. Sur la collection Villes :
• Trier par Population décroissante → Marseille, Lyon, Toulouse…
• Filtrer Population > 500 000 → {Marseille, Lyon}
• Filtrer Département = 13 → {Marseille}
En Python, ces opérations peuvent s'effectuer avec la bibliothèque pandas :
import pandas as pd
df = pd.read_csv("villes.csv", sep=";")
# Trier par population décroissante
df_tri = df.sort_values("Population", ascending=False)
# Filtrer les villes de plus de 500 000 habitants
df_filtre = df[df["Population"] > 500000]Astuce. Dans un tableur (LibreOffice Calc), les fonctions « Données → Trier » et « Données → AutoFiltre » permettent de réaliser ces opérations sans programmer.
7Qualité et protection des données
La valeur d'une collection de données dépend de sa qualité et du respect des règles de protection des données personnelles.
Qualité des données. Une donnée est de bonne qualité si elle est :
- Exacte : correspond à la réalité
- Complète : sans valeurs manquantes
- Cohérente : même format sur toute la colonne
- À jour : pas obsolète
Attention ! Des données de mauvaise qualité conduisent à des analyses fausses : « garbage in, garbage out » (« données pourries → résultats pourris »).
RGPD. Le
Règlement Général sur la Protection des Données (règlement européen 2016/679, en vigueur depuis 2018) encadre la collecte et le traitement des
données personnelles (nom, adresse, email, localisation…).
Principes clés :
- Consentement de la personne concernée
- Finalité limitée et explicite
- Droit d'accès, de rectification et d'effacement
- Minimisation des données collectées
Astuce. En France, la CNIL (Commission Nationale de l'Informatique et des Libertés) est l'autorité qui contrôle le respect du RGPD et sanctionne les manquements.
Métadonnées : une donnée peut être accompagnée de métadonnées qui décrivent son contexte (date de création, auteur, source, unité, licence…). Elles sont indispensables pour interpréter correctement les données.
★À retenir
À retenir — Données structurées :
• Une donnée est une information encodée ; elle possède un type (entier, texte, booléen…).
• Une collection est un ensemble d'enregistrements partageant les mêmes descripteurs (colonnes).
• Le format CSV (lignes/colonnes séparées par ;) et le format JSON (clé:valeur) sont les deux formats standards.
• L'open data désigne des données librement accessibles (portail data.gouv.fr).
• Trier = réordonner ; Filtrer = sélectionner selon une condition.
• Le RGPD protège les données personnelles ; la CNIL en est le gardien en France.