Accueil > Datamining > Les 11 recommandations pour faire un score performant

Les 11 recommandations pour faire un score performant

écrit par

3 août

La création d’un score peut apparaître « faussement » plus simple que la création d’une segmentation.

Toutefois, la pratique de la régression logistique (sous SAS ou autres outils)   m’a conduit à constater qu’il existe des subtilités dans la construction « d’un bon score » que j’ai eu envie de faire partager avec les « novices » du domaine (les experts ne trouveront certainement pas d’éléments majeurs dans cet article).

Cet article vise à aider les « jeunes data miners » qui doivent construire leurs premiers scorings pour leur éviter quelques déconvenues techniques, mais aussi commerciales, car un bon score ne se mesure pas au R2 (indice de convergence) mais à l’enthousiasme des utilisateurs qui vous font des demandes répétées par la suite. Comme me l’a dit une fois Amélie sur un score de « potentiel », la réussite du score a été les félicitations des télé conseillers .qui attestaient des résultats de vente sur la liste.

Enfin, cet article ne traite pas des scores de « risque » de crédit, qui sont spécifiques dans leurs constructions et outils de contrôles (Bale II), mes conseils s’appliquent pour les scores « d’appétences » à des produits ou des offres pour les Directions Marketing ou Commerciales.

Règle 1 : Définir le contexte d’utilisation du score
Il est important de comprendre dans quel contexte s’inscrit la construction du score. S’agit-il de s’inscrire dans la « continuité » … où il existe un score actuel et une mise en jour est simplement à faire … où le score actuel est en véritable « faiblesse » et une rupture est nécessaire.
Dans un contexte de continuité..il est primordial d’évaluer les variables existantes, d’évaluer les poids des modalités.. et de prouver qu’une nouvelle variable peut s’insérer dans la formule.
Dans une stratégie de « rupture », il convient de ne pas trop respecter les variables précédentes.. effectivement si les ciblages de 3 dernières années ont été faits avec un score … il est logique de les souscripteurs des 3 dernières années soient conformes aux scores passés. il faut être capable de « sortir de l’ornière » des pratiques et des usages.

Règle 2 : Choisir sa période d’observation et ses individus
La construction d’un score répond à une problématique d’optimisation commerciale « à venir ». il faut donc se concentrer sur le passé récent .. et éviter de faire une étude sur un stock de détenteurs basés sur un historique trop long. Ainsi, il convient souvent de donner plus d’importance aux individus récents, recrutés avec des techniques et des contextes commerciaux proches de celui qui prévaudra pour l’action future.
Il faut aussi bien vérifier si certains mécanismes commerciaux ou promotionnels n’ont pas eu une incidence trop forte sur le profil des clients. Evidemment faire des « promos canons » se traduit par des cibles spécifiques … si la nouvelle offre n’est pas aussi « canon » alors il faut exclure ces individus de la matrice d’apprentissage. Si vous avez donné des Iphones gratuits pendant 3 mois pour des souscriptions de contrats, et que demain vous n’avez ni Iphone, ni le levier de la gratuité … il est probable que votre score fonctionne en « stat »  et soit lamentable « dans la vraie vie ».

Règle 3 : Construire une matrice de travail « imaginative »
Peut-être un des traits les plus distinctifs d’un score « fraîcheur ». Mes clients savent que ma capacité à transformer un entretien fonctionnel en une « nouvelle piste » est importante. L’intuition des acteurs du  marketing ou du commerce est souvent très salutaire. Ils « sentent » que telle variable a une incidence (à tort ou à raison), mais ils ont des convictions. Il est important d’introduire ces « intuitions », « perception » dans la démarche pour vérifier si elles se vérifient statistiquement, sont capables de bouleverser une variable ancienne. Un exemple récent était la conviction qu’une gamme de produits influait positivement sur la fidélisation. L’introduction de cette variable dans la construction du score a mis en évidence, qu’elle jouait .. à l’inverse de la croyance. Immédiatement la mécanique commerciale (et les achats de produits) a réagi. Le score n’était pas encore appliqué, mais il avait des effets « managériaux ».

Règle 4 : Optimiser le découpage des variables continues
La construction d’un score au moyen d’une régression logistique nécessite de discrétiser la variable continue. L’utilisation des quartiles ou déciles automatiques peut s’avérer suffisante, mais ne garanti pas l’optimum. Certains outils permettent de démarrer avec des découpages très fins (par exemple des centiles) et de réduire pas à pas le découpage pour avoir une discrétisation optimale. Ainsi, il m’arrive d’utiliser des arbres de décision (comme Alice d’Isoft) pour dégager le découpage « optimal » (celui qui crée le plus de variance).

Règle 5 : Faire vivre et survivre ses taxonomies
Les variables discrètes posent des problèmes spécifiques… comme réduire les modalités, sans perdre du pouvoir explicatif. Ici encore l’utilisation des arbres de décision (et d’outils comme les réseaux bayésiens) permet de définir des très bons regroupements. Une étude récente sur les modèles de véhicules (relativement nombreux) a permis de dégager des regroupements adaptés (un coupé Z4 est signifiant) et différents en fonction de certaines données (une Mini « porte » des informations différentes selon le cycle de vie du client).
Il faut parfois laisser vivre des modalités parfois peu présentes, rejetés par les indices de type Chi2, et savoir « prendre le pas sur le programme ». Il y aura toujours peu de gens qui paient l’ISF, mais ne pas prendre cette information sous prétexte que moins de 0.5 % de la population présente cette caractéristique est un « non sens » pour des scores de fidélité. Pas « robuste » au sens statistique, mais tellement signifiant pour un commercial.

Règle 6 : Sortir des « tautologies » basiques
Attention aux variables qui contribuent trop dans le modèle. Il est important de ne pas avoir une seule variable (ou modalité) qui explique plus de 25 % de la variance du modèle. On aboutit parfois à un modèle complexe .. pour pas grand chose, mais on peut aussi avoir loupé l’occasion de faire des modèles spécifiques. Ainsi si le type de véhicule « neuf ou occasion » pèse sur la variable cible .. peut-être est-il plus utile de faire 2 modèles séparés (un pour occasion et un pour neuf) afin de trouver des cibles de développement en quantité suffisante. Se coller sur une variable revient souvent à « tarir » la capacité d’extension du score, Un bon score doit avoir du « ventre » (au contraire de l’homme). Une belle courbe de lift est une garantie de trouver des cibles potentielles (c’est à dire non équipées).

Règle 7 : Tester les modes de sélection des variables
Les outils de régression logistiques permettent d’agir sur les modes de sélection (stepwise, backward, est..). Une bonne analyse testera les différentes méthodes pour mieux comprendre comment « entrent » les variables. Une analyse « pas à pas » permet de mieux comprendre comment se constitue le modèle.

Règle 8 : Tester les variables et les poids sur plusieurs générations
Lorsque vous êtes content de votre premier modèle … je vous recommande de le tester sur une autre population plus récente. Si vous avez mis 3 mois à faire votre score … que donne-t-il en terme de résultat sur les 3 derniers mois d’activités … bref s’est-il révélé pertinent pour prédire ou se contente-t-il seulement de modéliser le passé. Savoir expliquer à 90 % ce qui s’est passé l’année dernière .. n’a jamais voulu dire que l’on pouvait savoir ce qui se passera demain. On peut être le « roi de la modélisation » et être totalement « à côté » du futur. Il est différent de faire de l’histoire ou de la prospective. Les scorings commerciaux s’intéressent souvent à une qualité de prédiction du business à venir.

Règle 9 : Savoir prendre de la liberté avec les poids
La détermination du poids d’une modalité s’appuie sur le passé. Evidemment si l’entreprise avait décidé d’allouer des offres intéressantes à « des jeunes couples », il est logique de cette modalité joue positivement dans le score. Mais si maintenant l’entreprise souhaite se repositionner sur « les familles avec enfants », il faut se révéler capable de modifier les modalités pour aller dans le sens de la stratégie de l’entreprise. Il n’existe rien de pire que d’avoir des listes « scorés » sur des principes anciens. On est à peu prêt sur de ne jamais atteindre les objectifs de l’entreprise. A ce titre, certains scores conçus il y a plus de 5 ans (avant le véritable décollage d’Internet et de la mobilité) se révèle de magnifique « piège à mouche », on ne peut sortir de son ancienne cible.

Règle 10 : Mesurer la performance réelle
Avant de crier victoire sur un score, il est judicieux de vérifier « dans le réel » sa capacité à améliorer la performance commerciale. Les nouveaux canaux de communication comme le Web se révèle des moyens simples et non coûteux de tester la véritable courbe de lift (à peu de frais). Si le « haut du score » marche mieux … on pourra le voir sur des ventes réelles. Pouvoir dire que un gain de 10 % du score se traduit par une croissance du taux de conversion de 8 % et un panier moyen de + 23 % ….. se révèle plus percutant qu’un beau R2 théorique.

Règle 11 : Savoir ne pas suivre les 10 règles ci-dessus
Savoir sortir du « sentier battu » est important pour identifier des « nouvelles opportunités. Un score se base sur le passé … il faut donc se méfier de l’effet rétroviseur et savoir « quitter » l’ornière tracée.

Merci à Amélie, Kaoutar, Florence, Marie-Pierre, Stéphanie, Wendy et tous les data miners avec qui j’ai travaillé pour la source d’inspiration de cet article.

Pas encore de commentaire

Faire un commentaire