Régénérer le dataset (autres seeds, autre volume)¶
Pourquoi¶
Le dataset par défaut (100 apprenants, seed=42) est reproductible et adapté à la démo. Tu peux le re-générer avec d'autres paramètres pour :
- tester la robustesse du clustering à un volume différent ;
- explorer une seed alternative ;
- raccourcir la génération pour itérer.
Commande¶
uv run python scripts/generate_dataset.py [OPTIONS]
Options principales :
| Flag | Défaut | Effet |
|---|---|---|
--learners |
100 |
Nombre d'apprenants (Léa incluse) |
--traces-mean |
60 |
Nombre moyen de traces par apprenant |
--traces-std |
15 |
Écart-type du nombre de traces |
--window-days |
90 |
Étendue temporelle (jours) |
--seed |
42 |
Seed RNG (numpy + Faker) — reproductibilité totale |
--output-dir |
data/generated |
Dossier de sortie |
Exemples¶
Petit dataset rapide pour itérer¶
uv run python scripts/generate_dataset.py --learners 20 --traces-mean 30 --seed 1
Gros dataset (plus de variance dans les clusters)¶
uv run python scripts/generate_dataset.py --learners 500 --traces-mean 80
⚠️ Au-delà de 200 apprenants, le précompute des recommandations au boot de l'API prend plus de temps. Compter ~25 s pour 100 apprenants, ~120 s pour 500.
Régénérer en passant aussi par le LRC¶
uv run python scripts/generate_dataset.py --via-lrc=http://localhost:8080
Émet en plus data/generated/sample_mathia.csv et data/generated/traces_via_lrc.jsonl
(échantillon converti par le vrai LRC). Voir
How-to — ingérer via le LRC.
Effets sur la vitrine et l'API¶
- L'API charge les fichiers à son
lifespan. Pour qu'elle voie le nouveau dataset, relance l'API (make apioumake demo). - La vitrine lit
learners.jsonllocalement pour la validation cluster ↔ archétype. Le cache@st.cache_data(ttl=300)peut retenir des données stale — clique sur le bouton "Clear cache" du menu Streamlit, ou attends 5 minutes.