Accueil > Outils Datamining > Présentation SPAD V7

Présentation SPAD V7

écrit par

30 juin

Je suis un praticien de SPAD tant dans mes activités d’enseignement que professionnelle, car le produit a une richesse dans le domaine des analyses factorielles et typologies, et les filières de traitement garantissaient une utilisation conforme des techniques statistiques, même par des novices. Mais j’étais resté sur ma faim sur les aspects de data management (chargement et travail des données) et sur les aspects de scoring et arbre de décision, ce qui imposait souvent le recours à un second outil pour le compléter.

La nouvelle version 7 présente des avancées importantes sur plusieurs points, et a su conserver, voire améliorer sa facilité d’utilisation.

La première surprise est la « console » de traitement qui reprend les concepts mis en avant par Clémentine

La console se décompose en 3 grandes parties
– en bas à gauche : les différentes méthodes
– en haut à droite : les différents enchaînements
– en bas à droite : le suivi des traitements ou la lecture de la base de données

La seconde surprise est la facilité de transformer et modifier la base de données initiales pour binariser les variables, découper en classes, modifier les enregistrements, compléter avec de nouvelles variables sans passer par des opérateurs complexes et en suivant de manière immédiate le résultat (et la pertinence) des transformations. On peut suivre pas à pas dans un mode proche de l’outil Amadéa les transformations effectuées.

La troisième surprise (en fait une demi surprise) est l’amélioration dans la richesse des techniques proposées :
– une palette très riche dans les techniques d’analyses multi-variées avec des Analyses Factorielles, des Régressions PLS, analyse conjointe, etc..
– une amélioration ergonomique des techniques de data mining avec un arbre de décision enfin graphique, des analyses d’association, du text mining
– la richesse de la documentation (une des points forts depuis plus de 20 ans du produit)

Les faiblesses identifiées sont relatives :


– aux fonctions de scoring avec l’absence « curieuse » des régressions logistiques classiques, même si SPAD V7 propose des fonctions de scores, toutefois assez éloignées des pratiques usuelles (mais M. Lenouvel m’a dit que la RetD était en train de corriger ce point).
– les réseaux de neurones qui s’avèrent à l’usage assez peu performants .. sur un fichier pourtant facile, donc plus pour le « fun » que pour la performance,
– la faiblesse de la documentation sur l’approche PLS avec un renvoi sur un site dans la documentation, et une documentation pas totalement homogène avec la nouvelle version.

En synthèse, le constat est très positif et donne vraiment envie de manipuler et explorer des données. Les fans de technos avancées (réseaux de neurones, algorithmes génétiques, réseaux bayésiens) ne trouveront pas leur bonheur, mais les data miners plus classiques tireront profit des arbres de décision, typologies, analyses d’association … qui constituent 80 % à 90 % des besoins actuels.

Les anciennes versions de SPAD étaient riches mais le data miner avait besoin d’un second outil pour manipuler les données, choix difficile à accepter au niveau budgétaire. Désormais, SPAD V7 peut « vivre » seul, tout au moins si les traitements de traitements de données ne sont pas trop complexes, ni trop volumineux et très industrialiser. Donc un excellent choix pour les data miners n’ayant pas de trop gros volumes en traiter, ni des besoins forts d’intégration avec une informatique de gestion.

On ne devient pas SAS en un jour !

Pas encore de commentaire

Faire un commentaire