Accueil > Big Data, Divers > Il était une fois des Data Scientist

Il était une fois des Data Scientist

écrit par René Lefebure

22 juin

Algo mon amour ?

Après les annonces sur les Datas qui allaient manger le monde, on voit apparaître que les algorithmes s’apprêtent à manger le Monde … et pour mieux nous aider à le digérer le Machine Learning apparait comme le remède qui nous permettra de ne pas avoir d’indigestion.

En effet, par sa capacité de construire des modèles à partir des données, les algorithmes de Machine Learning nous promettent d’extraire de manière automatique, ce que nous serions incapables de percevoir ou de modéliser.

Ouvrir le chemin de la connaissance dans la mer de données qui se prépare … ça me rappelle un passage de la Bible (celui où on franchit la Mer Rouge).

On pourrait croire à des incantations, mais quand un centre de cancérologie annonce l’acquisition de Watson, solution d’intelligence artificielle développée par IBM, pour aider au diagnostic médical, on commence à se dire que cette forme d’apprentissage à partir des données n’est plus aussi lointaine.

Machine Learning : Go / No Go ?

Face à cette demande en « machine à algorithmes », on peut néanmoins constater qu’il existe aujourd’hui des solutions relativement différentes, ce qui complexifie le choix des entreprises.

Pour essayer d’y voir clair et aider à la prise de décision, je me suis dit que d’essayer de faire une mini typologie des profils de Data Scientists et de les mettre en correspondance face à des profils d’entreprises permettrait peut-être d’y voir plus clair, permettre de se poser quelques « bonnes questions » pour choisir (ou pas) d’aller vers le Machine Learning, avec quel profil et avec quels types d’outils.

Savoir recruter son Data Scientist peut devenir un mal de tête, alors pour éviter le mal d’estomac et les maux de tête … je vous recommande de lire ce petit article … sur les types de Data Scientist.

Alors, êtes-vous prêt à découvrir quel est votre profil de Data Scientist ?

  • Glamour,
  • Aventurier,
  • Contraint,
  • Théologien ?

Et une fois reconnu, vers quel type d’entreprises devez-vous aller ?

 

Matrice de positionnement

Pour commencer à « classer » rien de mieux qu’une bonne carte pour réussir à positionner sa zone de jeu. Pour faire simple, je propose de conserver 2 dimensions majeures :

  • La volonté de maîtriser la complexité algorithmique,
  • Le volume des données et la multiplicité des cas d’usages dans les modèles.

Ce qui donne la représentation suivante avec 4 grandes zones de jeu ;

  • La zone Hadoop où domine la gestion des volumes de données, mais sans pratique experte de sa transformation,
  • La zone Fisher où domine plus la culture statistique ou mathématique de recherche, mais sans contrainte de volume ou de performance en temps de réponse,
  • La zone Sparks où les 2 besoins se fusionnent pour descendre sous les 30 millisecondes et le stream learning,
  • Et enfin la zone Alice, que personnellement je n’ai jamais connu, et donc je me réfère à la réplique du chat de Lewis Caroll :

Alice : Pouvez-vous me dire quelle route je dois prendre à partir d’ici ?

Le Chat : Cela dépend de là où vous voulez aller ?

Alice : Cela m’est égal

Le Chat : Donc, la direction est sans importance !

Je pense que si vous lisez cet article, vous ne devez pas être aussi rêveuse que Alice, commençons à identifier les acteurs dans les différentes zones.

 

Quel est ton profil de Data Scientist ?

 

Le type A : les Aventuriers (Signe Python, ascendant Hadoop)

Les profils de Type A sont des surdoués, aux capacités multiples (informatique, statistique, mathématique, algorithmique, etc..) qui utilisent des « langages » dédiés comme Python, R ou Sparks, et n’hésite pas à se retourner vers Hive pour manipuler et transformer les données.

Ces « data scientists » experts, forcément geeks, suivent l’actualité foisonnante dans la production de techniques de modélisation et dans l’application du « stream learning ».

Plutôt que de s’intéresser au combat entre Batman et Spiderman, ils s’intéresseront aux compétitions sur Kaggle entre XGBoost et Random Forest, et comptabiliseront les victoires dans les différents « contests ».

Ces « data scientist » s’attacheront à transformer des données « brutes » dans des « features pertinents », porteurs d’information et permettant d’optimiser des processus. Ils passeront sans problème de R, à Python ou Sparks pour trouver le meilleur algorithme capable de répondre aux contraintes posées sur les volumes, la rapidité de réponse ou la fréquence des mises à jour.

Ils se spécialiseront sur les données textuelles, les données de type « image ou son », ou les données plus traditionnelles (celles que nous sommes habitués à mettre en colonnes). Pour eux, l’ascension du R² est aussi mythique que celle du K2, et ils se mettent en compétition sur Kaggle pour se bench marker et continuer à apprendre.

 Ces athlètes de la modélisation (Médaille d’Or sur Kaggle) sont les « géants » du métier et il faut arriver à les suivre, et aussi à les manager. Pas facile de leur apporter le frisson de l’exploit dans des structures lourdes, aussi on les retrouve beaucoup plus dans les Directions de start up.

Pleins d’idées, ils aiment chercher et créer.

Le problème annoncé pour ce type de profil est sa rareté.

A la fois parce que les enseignements sont récents (bravo à Andrews Ng pour son travail d’évangélisation à Stanford et sur Coursera), mais aussi parce qu’il s’agit d’un métier relativement exigeant en terme de formation (la conceptualisation des kernels dans les algorithmes de SVM ne relève pas de l’intuition primaire), et enfin parce qu’un investissement personnel est quotidien (on doit re-apprendre tous les jours dans ce domaine en pleine évolution), et de même que l’amour de la compétition et du dépassement de soi.

Avoir les nerfs pour mettre des modèles en production capables de décider en 30 millisecondes et de recevoir en temps réel la performance de son modèle n’est pas de tout repos.

C’est un athlète.

Même s’il a été cité comme le métier « le plus sexy » (avec les développeurs de jeux vidéos), c’est un métier où ce type d’expert se sent souvent un peu seul et incompris (sauf avec ses pairs).

Désolé mais les algorithmes complexes, surtout lorsque l’on commence à vouloir les expliquer, ne mobilisent pas les foules … sauf dans les entreprises qui ont appris à les transformer en Business model comme Google ou Amazon.

Dans une entreprise qui débute sur le sujet, le Data Scientist de type Aventurier a plutôt le sentiment de jouer à Walking Dead dans un Parc Disney…. (qu’il se souvienne que Turing était fan de Blanche Neige, mais que lui aussi a eu des problèmes pour faire reconnaître sa différence)

Mais hormis ce sentiment d’être souvent incompris, il faut reconnaître que la demande est importante, que les salaires montent … mais bonne nouvelle, comme ces datas scientist utilisent des logiciels du monde Open Source, on dira que le ratio « Software / Brain » tend presque vers 0.

Retenez bien ce ratio : Software/Brain(Aventurier) => 0

Le type G : le data Scientist Glamour (Signe Cortana, ascendant Cloud)

Le « Data scientist » de type Glamour est souvent moins geek, plus attaché à des outils graphiques et visuels, il aimera enrober ses travaux avec des outils de visualisation, plus sympathiques pour faciliter la compréhension. Souvent son parcours sera « antérieur » à la génération des aventuriers, et il aura pratiqué des outils de modélisation de type data mining.

Quand l’aventurier s’illumine pour la découverte du polynôme ou du « blending » de modèles qui arrachent la performance, le data Scientist de type Glamour sera souvent plus respectueux des variables initiales, car il devra expliquer et convaincre.

Cela ne le délivre pas de savoir bien maîtriser les impacts des méta paramètres pour suivre les courbes de progression … mais il va moins vite et moins haut que le type A. On dira qu’un sommet de 5.000 m est plus dans ses cordes que le K2, même s’il est parfois capable d’un exploit !

Il sera parfois meilleur que le type « Aventurier « dans les techniques d’apprentissage non supervisée et pour sa capacité à raconter une histoire … un conteur en quelque sorte.

Il utilisera des plateformes comme Cortana Analytics, Knime, ou Haven qui proposent des modèles plus « visuels », packagés avec une interface plus user friendly que R, mais qui permettent de mettre en concurrence des modèles et de faciliter le passage en production avec des boites à outils permettant de construire des API ou de délivrer du code.

Dans ces solutions les méta-paramètres d’une technique (gestion de la régularisation, gestion des gradients, des taux d’apprentissage, des folds, etc..) sont présentés comme des choix avec des possibilités de conserver un paramétrage par défaut.

On s’éloigne de la rudesse de « X <- rbind() », mais une culture statistique poussée, voire mathématique est nécessaire. Le « data scientist » Glamour ne devra pas se préoccuper de la gestion d’une singularité dans sa matrice d’analyse (est-elle inversable ?) ou de la localisation des données sur les différents clusters, le package ayant la possibilité de gérer ces cas « internes ». 

Pour continuer dans la catégorie de jeu de rôle, on dira que ce profil de Data Scientist Glamour a plus le sentiment d’être un Kandisky cherchant à faire partager sa vision du monde à la cour de Louis XVI (on le prend pour un gentil excentrique).

Ils sont plus nombreux … mais rares malgré tout, mais s’adaptent davantage aux structures plus formelles. Un mec un peu « fun » c’est parfois vécu comme sympa.

Les outils qu’ils utilisent, même s’ils sont ouverts aux langages Open Source comme R et Python, ne sont pas totalement gratuits et proposent différents modes de facturation. On peut dire que le ratio « Software/Brain » se rapproche d’une situation d’équilibre.

On transfère dans le cout du software une partie de la rémunération du Docteur en Mathématiques.

Ratio Software/Brain(Glamour) => 1

 

Le type T : le Théologien (Signe Data Robot, Ascendant Tableau)

Le Théologien est plus un « Data Analyste » qui aime les données mais qui a plus la capacité à comprendre les problématiques « métiers » avec la définition de la « Cible » (le problème posé) et les données pertinentes à collecter. Il a souvent de la bouteille et de la connaissance métier (marketing, risque, commerce, internet, etc..) et connait la valeur des chiffres.

Le Data Scientist Théologien connait effectivement la théorie et les principes des différentes techniques (il les connait sans vraiment les maîtriser), et ne rentrera pas dans les méta-paramétrages (enfin pas tout de suite).

Pour éviter d’être dépendant, il a le courage de « chercher » et de dépasser son environnement présent. Il a trouvé l’outil qui lui apporte des éléments de choix (du modèle, de la performance, etc.) et qui lui permet de restituer et convaincre son client de l’efficacité du modèle (un directeur marketing par exemple).

Il cherche une solution qui lui proposera « le meilleur » selon un ensemble restreint de solutions et d’options.

Il utilisera des solutions qui ont mis du Machine Learning dans le Machine Learning comme Data Robot ou Dataiku. Les méta paramètres sont présents, mais pas faits à la base pour être modifiés, la solution accompagnera le Théologien dans sa montée en compétence, et on peut l’espérer dans sa frustration, ce qui signifiera qu’il est prêt pour devenir un Aventurier.

Ces outils accompagnent la montée en compétence, de Data Analyste qui ne souhaitent pas dépendre et attendre pour aller vers le prédictif. Même s’ils sont moins experts, ils sont nécessairement appétents à la donnée, mais ils laisseront un degré de liberté plus grand aux algorithmes.

Ces Théologiens sont souvent amenés à utiliser plusieurs outils dans le domaine de la Business Intelligence avec des outils comme Tableau ou Qlik et ils combineront les résultats prédictifs avec les données de pilotage pour extraire les données, présenter les résultats et intégrer les modèles dans les outils décisionnels.

Le Data Scientiste Théologien s’attachera plus à mesurer et post bench-marcher la performance opérationnelle des modèles. Contrairement au Data Scientiste de Type Aventurier qui gravit le K2, le Théologien s’intéresse plus à la diffusion de la « bonne parole ».

C’est un prêcheur.

Un modèle n’est pas « bon » parce qu’il a un bon R2, qu’il minimise le RSME, il est bon parce qu’il est utilisé et qu’il rapporte ou qu’il se révèle un bon outil capable de faire converger prévision et réalité … au jour le jour.

Le Théologien, expert dans la diffusion, sera souvent plus synthétique, la compréhension étant un élément important d’acceptation. Si les codes de sa construction sont moins complexes, ils peuvent s’avérer plus robustes.

Pour vous aider à le catégoriser dans mon jeu de rôle, il est le Jean Michel Jarre de la data science, capable par une maîtrise des claviers de produire une musique originale et plaisante, capable de rompre avec la tradition, mais apportant du sang neuf.

Evidemment ces profils sont moins rares, plus disponibles et l’analyse des éditeurs présents sur ce marché est plus que pertinente, car elle vise à transformer un potentiel existant plutôt que de croire à une arrivée massive de génies surdoués.

Dans ce contexte le prix du logiciel augmente, et le salaire du Data Scientiste baisse, notre ratio « Software/Brain » commence à augmenter.

Ratio Software/Brain(Théologien) = 3

… et maintenant le dernier type …

Le « Data Scientist » Contraint (Signe : aucun, Ascendant : Descendant)

Il représente celui qui n’a pas pris une des 3 options précédentes et qui est resté sur ses « bases » et ses références.

Il est parfois contraint par son existant, les choix de son entreprise ou des contraintes juridiques (par exemple dans les contraintes réglementaires baloises). Il aimerait changer mais son métier ou son organisation ne lui permette pas.

Il est aussi parfois auto-contraint, pris dans ses habitudes et ses pratiques. Ça « fonctionne » depuis plus de 10 ans, alors pourquoi changer. Il dénoncera les « effets de mode » du Machine Learning, du Big Data (all is bullshit !). Il jouera sur la dialectique des mots pour nier certaines évidences. Il restera aveugle devant les enjeux des objets connectés, du changement de paradigme du prédictif vers le préventif …. et découvrira un jour dans la douleur qu’un UBER like a pris son métier !.

Un jour prochain il découvrira que Watson (le produit d’IBM cité au début) s’installera sur les postes de ces interlocuteurs traditionnels, que Watson « apprendra » les interrogations de son utilisateur et lui proposera les réponses et les graphiques les plus adaptés, et que Watson l’avertira lorsque des « alertes » potentielles se présentent qui peuvent intéresser son utilisateur.

On peut espérer que Watson ne se comporte pas comme le HAL de l’Odyssée de Kubrick et ne mette pas tout l’équipage dehors.

Et pourtant, même si il semble impossible de « battre » Watson, on peut constater qu’aujourd’hui il n’a jamais été aussi facile de se former sur les métiers du Machine Learning avec la fourniture d’outils d’évaluation (Offres Freemium), accès à des MOOC de plus en plus accessibles (Stanford, Columbia, Berkeley, etc.) et des solutions full Open Source ou vraiment accessibles (moins de 30 euros/mois), et enfin des communautés plus que dynamiques sur le sujet.

Pour le jeu de rôle, il commence à se sentir un peu dépassé, et il occupe de moins en moins l’avant-scène. On lui demande systématiquement d’aller plus vite à l’essentiel, ses histoires n’intéressent plus.

Enfin, s’il y a quelqu’un qui commence à constater que le ratio « Software/Brain » est peut-être en train de s’éloigner de la normale … avec un écart type supérieur à 3 ou 4, c’est le Directeur Financier.

Ratio Software/Brain(Contraints) = 10

Si tout le monde ne peut pas être un Aventurier, il est temps pour lui de rêver à devenir un Théologien ou un Glamour … bref de réapprendre à conter des « belles histoires », car les outils de type Watson seront les outils de « traitement de texte » des cadres demain (comme Word a fait disparaître une partie importante des emplois de secrétariat).

Quelle aventure pour ces 3 datas scientist ?

Maintenant la seconde dimension avec le volume des données et la multiplicité des cas d’usages dans les modèles.

Cas 1 : Si vous n’avez pas de données et ne comptez pas en avoir … le Machine Learning restera « virtuel » pour vous et dans tous les cas, vous ne recruterez pas de « Data Scientist » (en tout cas c’est sympathique d’avoir lu jusqu’ici). Vous avez la chance d’être dans un secteur d’activités qui échappe à la « vague de digitalisation », vous ne vivrez pas les affres de la sécurité, du respect de la vie privée (mais attention … êtes-vous certain de ne pas avoir de données demain ?).

Cas 2 : Vous avez beaucoup de données et beaucoup de « use case » (et des concurrents qui commencent à inventer des nouveaux produits), il est probable qu’il vous faudra côtoyer un Data Scientiste Aventurier soit par des contrats de Partenariats avec des start-up, soit par des embauches dans des postes spécifiques (un peu éloigné des forces inertielles de la structure).

Certaines grandes entreprises conscientes des facteurs disruptifs dans le traitement de la data, ont mis en place cette démarche, avec parfois un choix de s’installer là où ça se passe … sur la côte Ouest des USA, et en injectant des fonds dans les start-ups.

Evidemment, l’arrivée de cette « nouvelle » culture posera des problèmes d’intégration, un peu comme au moment de l’arrivée d’Internet et la refonte des canaux. Ces entreprises savent gérer ces mutations.

Reste le facteur « vitesse » qu’il faudra savoir gérer pour éviter de se réveiller avec un UBER like.

Elles devront aussi entreprendre le travail de transformation des Théologiens avides de nouvelles connaissances .. et réveiller leurs Directions Ressources Humaines pour libérer le réservoir des Contraints.

Elles devront donc suivre plusieurs chemins et avoir plusieurs outils.

Cas 3 : vous n’avez pas encore de données, mais les use case semblent évidents. Je pense plus spécifiquement aux secteurs de la Publicité ou des Marques, autrefois sans relations directes avec les clients, qui n’avaient pas de données individuelles, mais qui ont vu les succès de Google, de Critéo et comprennent que « l’algorithme » crée de la valeur. La construction des DMP est devenue une de leurs priorités stratégiques. Il leur sera probablement difficile d’intégrer des Aventuriers qui ne trouveront pas immédiatement sous la main les données leur permettant de s’éclater, mais le profil « Glamour » est plus adapté pour s’intégrer dans des environnements qui souhaitent allier du contenu, de la création et un zeste de quantitatif.

L’apport de contrats d’accompagnement avec des Starts Up, réservoir d’Aventuriers est plus que recommandé. Un choc culturel est à prévoir dans des « créatifs » et des « prédictifs » qui n’ont pas vraiment la même vision sans compter les défis techniques à relever pour collecter et gérer les données (Chief Data Officer hautement recommandé).

Cas 4 : vous avez des données (et parfois vous ne le saviez pas), mais vous pouvez créer des Nouveaux Use case. Je pense plus spécifiquement au secteur des Objets connectés avec les Maisons intelligentes, les voitures connectés, les machines connectées, les applications urbaines dans l’optimisation du trafic ou de la sécurité, l’intégration des données sociales au service de l’aménagement du territoire (majoritairement le monde industriel hors les secteurs informatiques déjà matures).

Compte tenu des enjeux techniques et des challenges importants à relever : deux solutions possibles, soit passer des alliances avec une entreprise non concurrente qui commence à maîtriser cette partie, soit recruter à prix d’or un Aventurier … et lui laisser vivre sa vie et ses ambitions, mais avec le risque final de ne pas se trouver dans le bon standard de communication.

Comme vous pouvez le constater … il existe des profils adaptés ou pas en fonction des challenges à relever et des degrés de liberté que votre structure est prête à accepter.

A un moment où le mot de « flexibilité » est souvent employé pour qualifier les emplois, il est utile de savoir aussi définir la « flexibilité » de ses structures.

Un Data Scientist (Glamour)

  • Qui admire les Aventuriers
  • Qui forme les Théologiens
  • …. Qui comprend assez peu la contrainte

PS : comment j’ai commencé à construire l’arche de Noé des Data Scientist, si vous connaissez d’autres profils, n’hésitez pas à me remonter vos propositions ;

 

 

Pas encore de commentaire

Faire un commentaire