Génération d'échantillons d'apprentissage et de test

Cette option permet de générer à partir d'un jeu de données des couples d'échantillons d'apprentissage et de test.

Interface Java :

Menu Données, option Générer échantillons.

Les fichiers générés se trouvent dans le répertoire de travail de FisPro, ou dans le répertoire bin de l'installation, selon le système d'exploitation.

En ligne de commande :

Argument du programme sample :

Options :

 -nNs où Ns est le nombre de couples d'échantillons (par défaut : 1 partage le jeu de données en 1 jeu d'apprentissage et 1 jeu de test)
 -pApp où App est la fraction du jeu de données utilisée pour le jeu d'apprentissage (par défaut : 0.75)
 -sSeed
il faut donner la même valeur de Seed pour reproduire le même tirage aléatoire, donc le même couple d'échantillons
(par défaut, 0 donne un nouveau tirage à chaque appel)
 -c pour créer des échantillons qui respectent la proportion des classes du fichier de données
 -oNumC : utilisé avec l'option -c, pour préciser le numéro de la colonne du fichier de données, utilisée pour affecter les classes (par défaut, dernière colonne)
 -eTol : utilisé avec l'option -c, Tol=précision
Le paramètre Tol n'a de sens qu'avec l'option -c (échantillon de classification). Dans le cas où les classes de la sortie ne sont pas des entiers, mais des nombres réels $c_1, c_2 \ldots c_k$, les classes seront construites en regroupant les nombres $c_i \ldots c_j$ tels que $abs(c_i-c_j)<=Tol)$.
 -a pour affichage détaillé

Exemple de ligne de commande

sample iris -n4 -c

génère à partir du fichier iris 4 paires de fichiers :

iris.lrn.sample.0, iris.lrn.sample.1, ...iris.tst.sample.0, iris.tst.sample.1 ...qui respectent les proportions des classes (variétés 1,2,3) dans le fichier iris.

Les fichiers iris.lrn.sample.0 et iris.tst.sample.0 constituent un premier couple apprentissage-test, et ainsi de suite.