Les arbres de décision flous sont une extension des arbres de décision classiques [1,13]. Ils sont composés d'une racine, qui est le sommet ou point de départ de l'arbre, et de nuds. Les nuds terminaux sont appelés feuilles de l'arbre. Chaque nud correspond à un sous-ensemble de valeurs d'une variable d'entrée (variable explicative) du problème traité. Ces éléments sont déterminés de façon à avoir une homogénéité maximale des exemples appartenant au nud, par rapport à la variable à expliquer (variable de sortie). Cette homogénéité se traduit par une maximisation de l'entropie. Les chemins allant de la racine aux feuilles peuvent être interprétés de façon naturelle comme des règles de décision, strictes ou floues selon la nature de l'arbre.
Un élagage de l'arbre peut être effectué, en transformant un nud en feuille, si la perte de performance qui en découle est faible. Cette procédure facilite l'interprétation.
L'élagage est basé sur la performance, à l'inférence, du SIF équivalent à l'arbre.
Remarque : il est possible que l'arbre élagué ait une meilleure performance que l'arbre complet. En effet, la construction de l'arbre complet est basée sur la réduction de l'entropie, et non pas directement sur la performance.
Les arbres de décision flous proposés dans FisPro sont basés sur une implémentation floue de l'algorithme ID3 [15].
Génération
Pour générer un arbre de décision flou avec FisPro, un SIF et un fichier de données doivent être ouverts. La construction de l'arbre se fait par apprentissage sur une seule sortie, même si le SIF en compte plusieurs. Cette sortie est choisie par l'utilisateur.
Pour construire automatiquement le SIF, on peut utiliser l'option Générer un SIF sans règles du menu Arbre (voir 1.6).
Type de la sortie
Quatre cas sont possibles :
Quand la sortie est nette, avec l'option classification, les classes sont construites à partir des données, et des SEF discrets correspondant aux classes sont affectés automatiquement à la sortie. Le nombre maximal de classes ou de SEF en sortie est de 100.
Avec l'option classification, la classe majoritaire est associée à chaque nud, sinon, la moyenne des observations arrivant au nud lui est affectée.
Dans le cas d'une sortie floue, le résumé de l'arbre indique les proportions floues des observations arrivant au nud pour chaque SEF.
Règles
Si le SIF possède des règles, elles sont ignorées.
Options
La fenêtre Génère arbre permet de choisir :
L'option gain relatif d'entropie favorise les variables, pour lesquelles la répartition des exemples (et non des classes) est inégale entre les différents SEF. Le gain relatif favorise aussi les variables avec un petit nombre de SEF.
L'élagage consiste en la suppression récursive des nuds, depuis le bas de l'arbre en remontant vers la racine, si cette suppression ne diminue pas, ou diminue peu, la performance du SIF équivalent à l'arbre.
La perte relative de performance autorisée (par rapport à la performance de l'arbre avant élagage) est par défaut de 0.1. Elle est modifiable par l'utilisateur. La performance peut être calculée sur un fichier de validation différent du fichier de données : données actives ou inactives gérées par l'option table du menu Données, ou autre fichier.
L'élagage peut se faire par branches entières, en supprimant tous les nuds fils d'un certain nud (valeur par défaut), ou feuille par feuille.
Pour élaguer, on peut choisir un fichier différent de celui utilisé pour construire l'arbre.
Résultats
L'application de la procédure déclenche la création d'un arbre, ou de deux arbres, si l'option élagage a été choisie, ainsi que :
L'utilisateur peut choisir d'afficher différentes informations pour tous les nuds, ou seulement pour les feuilles de l'arbre : nombre d'exemples attirés par le nud, entropie/déviance du nud, classe majoritaire et répartition d'effectif par classe (en classification), ou bien moyenne et écart type (en régression). La partie de l'arbre visible dans la fenêtre peut être exportée ou imprimée.
Le placement initial de l'arbre dans la fenêtre est automatique, mais l'utilisateur peut aussi sélectionner des branches de l'arbre et les déplacer manuellement pour améliorer leur placement. L'échelle et la police de caractères utilisées sont modifiables.
Chacune des lignes décrit un arbre flou (complet ou élagué) : la première colonne indique le nom du fichier de configuration correspondant à l'arbre. On a ensuite les indices décrits dans la section 2 :
Suivent les indices spécifiques a l'arbre flou :
Visualisation 2 options sont possibles pour visualiser un arbre créé par Fispro.