Accueil > Datamining, Outils Datamining > Datalab V8 : The Magical Mining Machine ……

Datalab V8 : The Magical Mining Machine ……

écrit par René Lefebure

9 juil

Un petit article avant les vacances pour vanter la performance d’un outil de Data Mining qui mérite vraiment d’être utilisé et connu.

Je suis un utilisateur de Datalab depuis sa version 1 et j’ai pu suivre la croissance de la maturité du produit dans le temps. Il mérite son  qualificatif de « MMM : Magical Mining Machine » car il permet pour un « non expert » du data mining de réaliser une large palette de traitements comme des segmentations, des scores en garantissant un résultat proche de l’optimum dans un délai court.

Un expert pourra l’utiliser en complément des solutions SAS ou SPSS pour accélérer certaines phases d’audit, de discrétisation ou de recherche des relations entre variables (les phases amont de l’étude) et ensuite repivoter dans son outil préféré pour passer en mode programme (Datalab ne génère pas de code pour industrialiser les accès à des bases de données … il est un outil de découverte et pas un outil d’industrialisation du data mining). Les « codeurs SAS » trouveront donc cette limite.

Mais dans les aspects « découverte » il offre un périmètre très large d’interventions possibles …. Datalab est un peu le couteau suisse du data mining (facile, pratique et pas cher).

Datalab se caractérise depuis sa création par une logique « guidée » des différentes étapes de traitement d’une analyse de données qui permet de concilier rigueur  et délégation, car un « jeune statisticien » pourra suivre tranquillement les différentes étapes, le manager pouvant valider les étapes intermédiaires. Une logique qui se retrouvait dans les versions antérieures de SPAD.

Il n’est pas dans mon propos de détailler l’ensemble des fonctionnalités de Datalab (j’invite les curieux à télécharger une version de démonstration sur le site de Complex-Systems avec le lien suivant : http://www.complex-systems.fr/formulaire_demo.shtml), mais plutôt d’expliquer la philosophie, les avantages et certaines limites du produit.

Datalab décompose un traitement avec les étapes suivantes :

–          Importation, audit du fichier et typage des variables,

–          Statistiques descriptives et module de discrétisation,

–          Analyse croisée et recherche d’associations.

Cette première partie permet de prendre connaissance rapidement des données et de sélectionner rapidement les variables les plus pertinentes (avec des tests comme le Khi2).

Ensuite, Datalab propose de réaliser une très large palette de modèles

–          Un nouveau module d’associations permet de réaliser des analyses d’associations dans des fichiers en ligne et des fichiers en colonne. J’ai beaucoup apprécié la performance de la gestion des dates qui permet de construire des analyses de séquences avec une intégration des délais écoulés.

–          Un module d’analyse factorielle des correspondances qui permet d’analyser 5 axes (limites) et de positionner les groupes homogènes sur un plan factoriel

–          Un module de description des groupes créés qui permet de s’interfacer avec Excel pour produire des graphiques rapides.

Mais la spécificité de Datalab reste son « moteur » de construction de scores qui intègre un algorithme génétique pour tester les combinaisons de variables.

Concernant la réalisation d’un « bon score », nous dirons que deux écoles s’affrontent :

–          Ceux qui cherchent à limiter les interactions entre les variables pour respecter les principes d’indépendance,

–          Ceux qui cherchent à tirer profit des interactions entre les variables pour améliorer le pouvoir de prédiction du modèle.

J’avoue clairement que je suis plutôt dans la deuxième « école » et que j’aime analyser les interactions entre les variables «dites indépendantes » et la variable « cible » pour combiner et créer une nouvelle variable le cas échéant. Personnellement, je pense qu’il n’y a jamais indépendance entre l’âge, la situation de famille, la profession, la situation d’habitation … et une quelconque variable cible (comme l’achat d’une voiture). Le marketing et le risque doivent apprendre à vivre de ces « dépendances » qui font le charme de la vie … et le flair de l’expert. Devoir choisir LA variable parmi les 2 ou 3 variables corrélées sur l’autel du V de Cramer m’apparaît difficile et parfois incohérent au niveau fonctionnel. Donc je suis un adepte d’une introduction de règles de combinaison ou de « typologies » dans les scores (ce qui d’ailleurs est devenu une partie de ma « marque de fabrique »). A ce titre Datalab est une véritable mine d’inventivité à ma disposition pour « booster » les modèles et « gratter » les % de performance (et aussi de logique marketing).

Dans la construction d’un score avec Datalab il est possible de combiner les variables ou de les transformer un menu très riche qui combine les variables avec des opérateurs logique ou mathématiques !.

« ,&ç »,eù$* » …. devez vous penser ….

Mais qu’est-ce que je vais faire avec une variable comme (épargne/(age- ancienneté)/ nbre de personnes ……

Évidemment certaines combinaisons sont « curieuses », mais parfois on « pressent » une logique interne dans l’agrégat « qui émerge ». Un peu comme un lever de soleil sur le Grand Canyon, on commence à reconnaître les contours d’une structure ….

Et oui un peu comme votre capacité d’épargne dépendra du temps …et du nombre de personnes à nourrir …. Datalab peut vous guider avec quelques opérateurs pour vous faire comprendre que la distribution n’est peut être pas « normale » (au sens de la loi normale !) et dès lors les dernières zones d’ombre se lèvent.

Certes une formule de score est moins jolie qu’un lever de soleil sur le Grand Canyon, mais n’oubliez que les statistiques aiment laisser des « zones d’ombre » !

Mais, pour rassurer les puristes de l’indépendance, il reste toujours le choix :

–          Score sans transformation, ni combinaison (« la rigueur »)

–          Score intégrant des variables combinées ou transformées (« l’invention »).

Dans tous les cas la seconde variante « la plus inventive » est plus performante. Évidemment il importe de mesurer la robustesse (ce qui est possible avec la définition d’un échantillon de test et de validation). Donc, il est possible de développer son côté « latin » dans les statistiques, sans perdre sa courbe de lift !

Datalab offre la possibilité ensuite de « sélectionner » parmi les variables que l’on souhaite entrer ou exclure du modèle et de rechercher les variables qui permettent d’optimiser le modèle (ou qui sont attendus par le demandeur !).  Lorsque l’on est satisfait de sa grille de score on peut l’exporter dans du code pseudo SQL ou un code SAS, ce qui facilite ensuite son intégration dans les environnements informatiques plus standards.

Au final, on peut juger de la performance du modèle avec les courbes de lift, les matrices de confusion et un moteur de simulation qui permet de déterminer le seuil de rentabilité (cas d’un envoi de courrier) avec des hypothèses de coûts fixes, de couts variables, de panier moyen, etc … pour déterminer la quantité « optimale » à cibler …. qui maximise les retours.

Bref, une vraie petite « machine » à faire des scores intelligents, et tirer profit des vastes entrepôts de données … et s’aventurer dans les parties les plus « sombres » des Data Warehouses.

J’allais oublier que Datalab propose un arbre de décision pour décrire les cibles, et qu’une cible peut être rapidement décrite avec les éléments de profiling du produit.

Pour éviter de sombrer dans le 100 % satisfaction ….   qui pourrait être suspect, je dirais que Datalab pourrait s’améliorer les éléments suivants :

–          Possibilité de créer des « nouvelles données » par combinaison des variables existantes (ce que l’on définit comme un « virtual field »),

–          Augmenter les possibilités de filtrage et de redressement des populations pour augmenter les contraintes sur la population,

–          Optimiser son algorithme de discrétisation par une meilleure gestion des données manquantes (et éviter la dernière classe par défaut) ou définir une discrétisation optimale,

–          Augmenter les capacités de son Analyse factorielle en termes d’axes et de choix de méthode de clusterisation,

–          Mieux filtrer les règles de combinaisons les plus pertinentes et intégrer un arbre de décision dans ses bases de règles,

–          Produire un tableau des « odds ratios » pour mieux apprécier l’impact des variables dans le score (et fiabiliser le modèle),

–          A quand une réintroduction des algorithmes bayésiens de M. Canarelli pour compléter les options de scoring et gestion des données manquantes …

Mais je sais …. qu’ils y travaillent …. donc j’attends la V9 avec impatience.

Pour en savoir plus … le lien suivant http://www.complex-systems.fr/datalab_demo.shtml … que je vous recommande.

Bonne pratique.

Faire un commentaire