Aller au contenu

Régénérer le dataset (autres seeds, autre volume)

Pourquoi

Le dataset par défaut (100 apprenants, seed=42) est reproductible et adapté à la démo. Tu peux le re-générer avec d'autres paramètres pour :

  • tester la robustesse du clustering à un volume différent ;
  • explorer une seed alternative ;
  • raccourcir la génération pour itérer.

Commande

uv run python scripts/generate_dataset.py [OPTIONS]

Options principales :

Flag Défaut Effet
--learners 100 Nombre d'apprenants (Léa incluse)
--traces-mean 60 Nombre moyen de traces par apprenant
--traces-std 15 Écart-type du nombre de traces
--window-days 90 Étendue temporelle (jours)
--seed 42 Seed RNG (numpy + Faker) — reproductibilité totale
--output-dir data/generated Dossier de sortie

Exemples

Petit dataset rapide pour itérer

uv run python scripts/generate_dataset.py --learners 20 --traces-mean 30 --seed 1

Gros dataset (plus de variance dans les clusters)

uv run python scripts/generate_dataset.py --learners 500 --traces-mean 80

⚠️ Au-delà de 200 apprenants, le précompute des recommandations au boot de l'API prend plus de temps. Compter ~25 s pour 100 apprenants, ~120 s pour 500.

Régénérer en passant aussi par le LRC

uv run python scripts/generate_dataset.py --via-lrc=http://localhost:8080

Émet en plus data/generated/sample_mathia.csv et data/generated/traces_via_lrc.jsonl (échantillon converti par le vrai LRC). Voir How-to — ingérer via le LRC.

Effets sur la vitrine et l'API

  • L'API charge les fichiers à son lifespan. Pour qu'elle voie le nouveau dataset, relance l'API (make api ou make demo).
  • La vitrine lit learners.jsonl localement pour la validation cluster ↔ archétype. Le cache @st.cache_data(ttl=300) peut retenir des données stale — clique sur le bouton "Clear cache" du menu Streamlit, ou attends 5 minutes.