Accueil > Datamining > Comment créer sa population d’apprentissage dans un score ?

Comment créer sa population d’apprentissage dans un score ?

écrit par René Lefebure

9 mai

Au fil de mes missions, j’ai souvent été interpellé par des chargés d’études qui me demandaient comment créer l’échantillon d’apprentissage.

Si j’ai 15 % d’acheteurs dans ma population mère, est-ce que je crée un échantillon d’apprentissage 15/85 ou un échantillon 50/50 ?

Visiblement les tenants du 50/50 sont plutôt présents dans la littérature … et dans les pratiques de l’enseignement du scoring avec des fichiers « analyse de crédit ».

Comme mon camarade Sébastien m’a poussé plusieurs fois dans ce raisonnement, j’ai choisi de répondre sur les avantages et les inconvénients des 2 approches, et bien évidemment je n’ai pas pu m’empêcher de proposer une troisième méthode (pour rester l’iconoclaste du scoring !).

Pour faire simple, dans la création des bases d’analyses pour un score on distingue les « positifs » et les « négatifs ».

Combien dois je mettre de positifs et de négatifs dans ma population d’apprentissage ?

That’s the question.

Pour la méthodologie on retrouve 3 écoles :

1) Le 50/50

– la logique 50/50 qui se justifie dans les mécanismes de décision basés sur des seuils. En effet, en partant de 50/50, on comprend que dès que l probabilité dépasse 0.5 ….. on prédit l’événement « positif » (au dessus de 0.5 c’est bon et en dessous de 0.5 .. c’est moins bon). Si on multiple la note par 200 on retrouve le seuil d’acceptation a 100 .. et les tranches de scores qui permettent ensuite de suivre les rendements (taux de risque ou retour par décile).

Le défaut de ce type de score est qu’il ne permet pas de simulation des retours futurs ….et que si il y a une modification importante du taux de « positif » ou « négatif », on risque de ne pas le percevoir rapidement (effet retard plus important).

2) Le respect de l’Observé

La seconde école respecte la représentativité de la population d’apprentissage par rapport à la population globale? Ainsi, si on a un taux de retour ou d’équipement de 15 % …. on créera un échantillon avec 15 et 85.

La probabilité reflétera une certaine capacité de retour ou de concrétisation, ainsi dans la tranche de 0.25 à 0.3, on espère un taux de remontée ou d’équipement de 20 à 30 %. Cette approche permet par des études de simulation de définir le CUT qui offre un bon rendement … ainsi il me faut un taux minimal de 12 % pour atteindre le ROI de mon opération, je peux modéliser avant envoi mes couts et ma marge.

Le défaut est que le seuil « varie » par score (bref pas de norme transverse et simple), mais un avantage est de percevoir rapide l’évolution avec l’amélioration ou dégradation du taux moyen (plus de réactivité).

3) La population « E dream »

Il existe un cas ou les 2 approches ne sont pas possibles … lorsque l’on se trouve avec un produit très récent sur lequel les enjeux de développement sont importants. Dans ce cas on peut « stratifier » son échantillon en faisant concorder la population « cible » et l’objectif.

Ainsi si je vise un équipement de 15 % de mes clients … mais qu’actuellement on a seulement 3 %, on multipliera le poids de chaque individu détenteur par 5 (fonction weight dans les outils)… ce qui permettra de dégager des zones à potentiel (par exemple des régions, des territoires et donc ajuster les objectifs).

On se projette un peu plus vers « l’objectif » et on se décolle de la réalité.

Au final

Dans tous les cas , on peut ordonner les individus avec la note de score, mais les méthodes ont des impacts lorsqu’il s’agit de choisir parmi plusieurs scores (pour déterminer le produit à pousser)

Le plus simple : le 50/50 a un intérêt pour hiérarchiser une batterie de score …. le produit prioritaire devient celui qui a la note max.

Le plus lourd : pour le réel, on identifie le produit prioritaire en modifiant le score par un indice. Ainsi si la probabilité de souscription IARD est de 0.5 avec un taux de base de 0.25, le lift est de 2 … et donc on sélectionne l’indice le plus fort (mais c’est plus complexe à déterminer que le max précédent … et peu favoriser les produits « rares »)

Bref ces approches

And continue hair clean it’s lavetrinadellearmi.net januvia online order 2 volume and http://www.lavetrinadellearmi.net/geneic-cialis.php sneak lots wasn’t.

répondent à des problématiques différentes :

– population stratifiée : population trop restreinte et expression d’une vision cible

– Population 50/50 : simplicité de détermination du seuil et contrôle des tranches de scores en performance

– Population réelle : complexité de gestion des seuils, mais précision dans le volume des charges « à venir« (appels entrants, retours, etc..) et précision des simulations.

… si vous voulez apporter votre évaluation sur ce point, je suis preneur ….

Une réponse pour “Comment créer sa population d’apprentissage dans un score ?”

  1. René Lefebure 09. fév, 2015 à 15:27 #

    Bonjour pour la construction de la formule de score, je vous invite à consulter le site Wikipedia sur les techniques de régression. Le détail dans la sélection des variables et la détermination des différents coefficients est décrite

Faire un commentaire