Générer des échantillons

Ce sous-menu permet de générer des fichiers échantillons par tirage aléatoire à partir des données. Deux possibilités : génération de couples de fichier apprentissage et test, ou genération de K fichiers. Notons N le nombre de lignes du fichier de données.

Dans le premier cas, chaque couple est composé d'un fichier d'apprentissage (A lignes) et de son complément par rapport au fichier de données (N-A lignes). On peut préciser le nombre de couples et la taille du fichier d'apprentissage par rapport à celle du fichier de données, soit A/N.

La génération crée autant de couples de fichiers que demandé, ils portent le nom du fichier de données, suivi de lrn.sample.n pour le 1er fichier du couple et de tst.sample.n pour le second, où n varie de 0 (1er couple) à N-1 (Nième couple).

Dans le second cas, le programme partage le fichier de données en K blocs, tous de taille égale à floor(N/K) si l'option taille constante est choisie, ou sinon de taille égale à floor(N/K) pour les K-1 premiers, et N-K*floor(N/K) pour le dernier.

Paramètres supplémentaires (valables dans les deux cas) : germe du tirage aléatoire et option classification.

le germe 0 correspond à un nouveau tirage à chaque fois, une autre valeur, 1 par exemple, permet de fixer le germe, et donc de reproduire un tirage donné.
La case à cocher classif. permet d'imposer que le tirage de l'échantillon respecte les proportions des classes dans une des variables du fichier de données, par défaut la dernière colonne. Dans ce cas, on peut préciser une valeur de tolérance numérique (par défaut 0.01), qui peut être utile dans le cas où les classes sont des valeurs approchées.