Accueil > Big Data > Conexance intègre le Machine Learning

Conexance intègre le Machine Learning

écrit par René Lefebure

9 fév

Conexance intègre les algorithmes de Machine Learning dans ses modélisations prédictives et passe à la seconde étape de son plan stratégique vers le Big Data.

Conexance construit chaque année plus de 2.000 modèles pour répondre aux demandes de sélection en acquisition et fidélisation sur des matrices chaque année de plus en plus importantes :

  • Une qualification avec plus de 1.700 variables majoritairement transactionnelles (plus de 2.500 prévues à fin 2016),
  • Une base de données de plus de 25 Millions de profils,
  • 900 Millions de transactions commerciales mises à jour.

La fourniture des sélections sur les 18 derniers mois se déroule dans un contexte très évolutif :

  • Nécessité de faire progresser les rendements des campagnes
  • Multiplication des types de scores : Clone, New, Focus, Affinity Boost, etc.
  • Intégration d’une démarche de segmentation en amont pour déployer des scores spécifiques (Valeur, Type de Produit, Age, etc.)
  • Raccourcissement des délais de livraison

Afin de concilier les besoins de puissance de traitement et d’analyse dans ce contexte de complexification des demandes, Conexance a mis en place une démarche d’évolution de son architecture technique et applicative vers le Big Data en Juin 2014.

Une première phase du projet s’est attachée à sélectionner la plate-forme technique pour héberger les données sur une architecture Hadoop. Conexance a signé un partenariat avec Microsoft pour héberger une partie de ses données « non structurées » (essentiellement les données de navigation) sur la plate forme Cloud Azure. Cette partie technique continue avec la recherche de la meilleure plateforme interne Conexance permettant d’aboutir à un environnement hybride entre les bases de données relationnelles et les bases de données No SQL.

La seconde phase du projet s’est orientée vers les aspects « métiers » avec la participation de Conexance au programme de béta-test de la solution PASSAU depuis Septembre 2014.

En effet compte tenu de la spécificité des données traitées par Conexance, les techniques statistiques comme la régression logistique présentent quelques limites qui imposent d’intervenir de manière « experte » dans les traitements :

  • Corrélations relativement nombreuses entre les variables qui ne permettent pas de respecter les principes d’indépendance requis (matrice non inversible)
  • Présence de variables répondant davantage aux lois de Poisson qu’aux lois Gaussiennes
  • Distribution non normalisées de certaines variables
  • Sélection et regroupement « manuel » des variables pour définir la « formule finale » composée de 20 critères maximum.

Cette démarche se révèle globalement consommatrice de ressources expertes et au final assez frustrante car le processus de sélection ne permet pas de tirer profit de la richesse de la plate-forme de données à ce jour.

Des tests avec les régressions biaisées et des arbres de décision avaient été mises en œuvre pour contourner ces problématiques, mais il était techniquement difficile de construire un processus totalement intégré.

La solution de Machine Learning de Microsoft PASSAU offre de nombreux avantages pour répondre aux problématiques spécifiques de Conexance :

  • Présence d’opérateurs permettant de construire les différentes matrices dans le processus d’apprentissage : apprentissage, validation, tests
  • Possibilités de lancer des traitements spécifiques sous R pour compléter le dispositif d’analyse et/ou de restitution des résultats
  • Présence de composants de filtrage permettant de gérer les données aberrantes et manquantes
  • Présence de nombreuses techniques dans le domaine de l’apprentissage supervisé avec les techniques de régression, la régression « Ridge », les types de réseaux de neurones multi couches et perceptron, les réseaux bayésiens, les techniques vectorielles (SVM) et les techniques traditionnelles ou foisonnantes dans le domaine des arbres de décision
  • Présence d’u moteur de text mining permettant d’extraire les éléments pertinents dans un Verbatim

Cette richesse fonctionnelle a permis de mettre en œuvre de nouvelles approches de scoring permettant de mettre en compétition de nombreuses techniques de modélisation.

Après un processus de préparation des données pour répondre aux spécificités des différentes techniques (normalisation par exemple), Microsoft PASSAU permet de sélectionner le meilleur modèle parmi l’ensemble des modèles développés.

Un outil d’optimisation sur un critère de performance (AUC, Confusion, etc..) apporte un gain supplémentaire de performance sur le modèle sélectionné.

Pour indication sur une matrice de 400.000 lignes et 400 colonnes les temps de traitement pour l’apprentissage sont inférieurs à 23 Minutes (sans aucun travail d’optimisation sur la localisation et le stockage des données).

La solution Microsoft présente ensuite des options plutôt riches pour gérer les différentes modèles construits. Selon les problématiques il est possible :

  • De sélectionner le meilleur modèle (selon un ou plusieurs critères)
  • De combiner les différents modèles et/ou leurs résultats.

Les différentes approches effectuées par Conexance ont donné quelques résultats probants :

  • Aucun cas de baisse des rendements par rapport à une régression logistique classique
  • Progression de l’ordre de 5 à 10 % sur des bases d’apprentissage « restreinte » (variables codées retenues par une régression logistiques de 10 variables)
  • Progression comprise entre 50 et 250 % ( !) sur des bases de données intégrant une plateforme de données beaucoup plus large (> 400).

Pour établir des éléments tangibles de performance cette approche a été effectuée sur un problème de « Churn » (résiliation). La performance effective des modélisations sera mesurée sur le nombre de contrats résiliés au 1 er Trimestre 2015 prévus par les différents modèles à la date du 31/12/2014.

Conexance continue à participer au programme d’optimisation du Produit PASSAU avec Microsoft pour enrichir le processus décrit et est très satisfait des performances et de la réactivité des équipes de développement Microsoft.PASSAU_WorkFlow

La phase prochaine du projet consiste à intégrer des tests opérationnels avec des clients Alliance de Conexance et de démarrer la mise en place de nouveaux services disponibles sur la Market Place de Microsoft.

Pas encore de commentaire

Faire un commentaire