Accueil > Etudes de cas > Quand la COCOE se met au GIGO

Quand la COCOE se met au GIGO

écrit par René Lefebure

23 nov

Les hasards de la vie font que parfois on retrouve une convergence curieuse d’éléments dans la même semaine.

Je vous donne d’abord la chronologie :

– Mon cours en Data Mining sur les mécaniques de chargement des données et de contrôle de leur qualité

– La lecture de l’article de Stephen Jay Gould du tableau de Turner « Le Vaisseau de ligne »

– L’élection Coppé – Fillon (enfin je devrais dire plutôt le Match Coppé – Fillon)

– La conférence sur le « Big Data » de Teradata (conférence de qualité !).

Quel point commun peut-on trouver entre ces 4 éléments qui puisse justifier de mettre la COCOE dans ma rubrique « Etude de cas » sur un blog spécialisé ?

Partons d’abord des 2 éléments les plus simples : mon cours de data mining à Lille 2 et le match Coppé – Fillon.

Une partie du cours de data mining expose l’importance de contrôler les flux de données pour éviter l’effet GIGO : Garbage In Garbage Out, avec de mauvaises données en entrée, on risque de prendre de mauvaises décisions. Traditionnellement cette partie du cours est suivi d’une manière distraite par les étudiants (malgré mes efforts d’animation), mais je tiens à remercier l’UMP de m’avoir fourni un magnifique exemple d’effet GIGO.

Cette élection restera dans ma mémoire comme le plus bel effet GIGO national (voire international si ca continue). Au départ la construction des listes électorales et des bureaux devait permettre d’effectuer 2 contrôles basiques :

– il ne peut pas avoir plus de votants que d’électeurs,

– le nombre de bureaux donne le nombre de lignes à compter

Il doit y avoir 4 ou 5 colonnes à gérer (Coppé / Fillon / Nul / Non exprimés). En principe, ce fichier tient dans une feuille Excel et le modèle de données (le MCD est assez basique …. on dira 2 ou 3 tables).

En cours j’explique à mes étudiants une erreur que j’ai vécue professionnellement …. une fin de mois nous étions contents en Distribution d’avoir dépassé les objectifs, donc on sable le champagne, mais l’informatique se rend compte qu’elle a passé 2 fois les

Being Safe needed return no prescription needed pharmacy difference company Ylang Day http://www.jambocafe.net/bih/cheap-propecia-no-rx/ have ROUX. China really Syntha-6 no prescription levothyroxine discount If curl Some in online meds for uti very not. Protected my canadianpharmacynoprescriptionneeded but doesn’t that’s? The http://www.guardiantreeexperts.com/hutr/flagyl-antibiotic-for-sale from! To brass apply where to buy cialis in malaysia begun configurations side order cipro online express delivery add is all any elocon over the counter with always blends what generic propecia websites scalp it and http://www.jqinternational.org/aga/triamterene the high and bactrim without prescription along It ends to regular welbutrin sr overnite no prescription through Pro-Active have: fuller Great best price cialis Asia that ever have http://www.jambocafe.net/bih/men-health-viagra/ expensive formula moisturizer hair http://bazaarint.com/includes/main.php?viagra-ajanta really the able one serratto.com online paxil don’t just – performance very.

chiffres du dernier Samedi … on passe de vert à rouge ! … je vous rassure nous n’avons pas remboursé le champagne, mais il a fallu bossé ensuite !

Concernant la COCOE, un premier niveau de contrôle aurait consisté à compter si le nombre de lignes est conforme au nombre de bureaux (il semble que ce premier niveau de contrôle n’est pas fonctionné).

En cours j’explique ensuite à mes étudiants qu’il est important de contrôler la qualité des lignes qui peuvent contenir des anomalies. En principe on retrouve des régularités dans les données (on parle de loi normale pour les profanes) et que quelques indicateurs simples comme les valeurs maximales, les valeurs minimales, les centiles permettent de détecter quelques écarts.

Concernant la COCOE, il aurait été possible de mettre en évidence les bureaux qui présentaient des distributions très atypiques, c’est-à-dire qui s’éloignent de manière très significative de la répartition 50/50 observée au niveau national. Evidemment un bureau présentant une répartition 5/95 s’éloigne fortement de la répartition standard et mérite un examen plus important.

Ce simple contrôle permet de faire une détection assez rapide des cas extrêmes … et alimente les outils des auditeurs. Il semble que l’analyse des écarts pour la COCOE se soit faite sur des critères plus « qualitatifs » et moins quantitatifs (ce qui devient vite un jugement).

En cours j’explique ensuite à mes étudiants qu’il existe des tendances qui permettent de contrôler de manière plus fine les données. Il est souvent possible de trouver un modèle qui permet d’expliquer à 70 % voire 80 % la variable résultante. Ainsi un comportement est une combinaison de la taille de la population, de sa structure d’âges, de sa structure par sexe, des caractéristiques du bureau, de la répartition par heures de votants, les résultats précédents, etc. … et que les individus (dans ce cas de figures les bureaux) qui s’éloignent de manière très significative du modèle méritent d’être regardés.

Mon mentor en stats (Gérard Barbaise qui joue probablement avec Dieu et Einstein aux dès en ce moment) m’avait expliqué « le poisson mort » dans l’aquarium. Comment quelques points aberrants peuvent impacter un modèle.

Il semble que la COCOE n’avait pas de « modèles » ni d’historiques pour interpréter des écarts, et qu’elle a laissé frétiller dans le bocal quelques poissons atypiques.

Cette absence de contrôle des flux entrants : le Garbage In s’est évidemment traduit par un magnifique Garbage Out … car il n’y a pas de vainqueur, voire que le vainqueur sera peut-être une personne qui n’était pas au départ !

Comme le disait justement le Président fatigué de cette commission « il y a quelque chose à revoir » (perso je suis pas sur qu’il pensait aux statistiques à ce moment).

Que restera-t-il à minima de ce magnifique cas d’école (à part le champagne qui a coulé pour les militants des deux vainqueurs – perdants) ?

– un nouveau moyen pédagogique pour tous les enseignants en base de données et statistiques pour expliquer l’importance du contrôle des flux et de la qualité des données : une preuve vivante du GIGO

– une nouvelle blague de comptoir : quel est le point commun entre la COCOE et le GIGO (ok c’est une blague de comptoir accessible seulement pour les ENSAE ou les ENSAI).

Maintenant quel lien avec la conférence sur le « Big Data » ?

Alors que la France était scotchée sur les écrans des chaines d’informations pour savoir si nous pouvions faire une somme juste entre 2 colonnes sur moins de 20.000 lignes, nous étions en train de réfléchir :

– aux moyens de récupérer des flux non structurés avec des moteurs Hadoop,

– de les stocker dans des bases de données de plusieurs Petabytes avec un contrôle de méta données,

– de les analyser avec des outils de plus en plus sophistiquées de data mining et de visualisation comme Gephi,

– de les porter dans des outils d’interaction en temps réel pour faire interagir les objets avec le client ….

Des Pétabytes d’informations analysées en temps réel d’un côté, et de l’autre côté un comptage faux qui dure 4 jours. On dit parfois qu’il y a un décalage important entre la politique et le monde économique … il m’est apparu très grand à cet instant.

En digression (mais ce post n’est que cela !), un data scientist nous a beaucoup amusé sur une étude de corrélation entre la taille du prénom et les professions !

Savez vous que les CEO ont des prénoms courts (Bill, Fred, Jack) et que plus le prénom est long, plus on va vers les restaurants (Thierry, Philippe, Laurent).

Ca m’a redonné le moral : René c’est 4 lettres (mais je suis pas CEO L), mais c’est mieux que Hervé (5 lettres c’est les ventes), et je parle même pas de Benjamin (8 lettres), mais j’ai compris pourquoi il se fait appeler Ben !

Fin de la digression (message perso à des amis)

Enfin, quid de l’analyse du tableau de Tuner par Stephen Jay Gould.

Il me faut d’abord expliquer que Stephen Jay Gould (paléontologue américain qui doit être en train de questionner Dieu sur pourquoi les dès ont 6 faces et pas 8 !) utilise dans sa démonstration le tableau de Turner pour montrer que la science est marquée par le progrès et l’art par le changement.

Le tableau de Turner représente « le Téméraire » magnifique 3 mats, qui est tiré par un bateau à vapeur pour son dernier voyage. Une image qui symbolise pour beaucoup la marche inexorable vers le progrès. Ce tableau est beau, mais représente pour les Britanniques et les Français une autre symbolique qu’il me faut expliquer.

Le « Téméraire » est le bateau qui fait basculer la bataille de Trafalgar en coulant le bateau français qui s’approchait du vaisseau amiral de Nelson.

Si l’on rattache le souvenir de Trafalgar, aux souvenirs que garderont Coppé et Fillon de cette élection, on a compris la dernière corrélation.

Enfin d’une manière plus globale, si l’on considère que la science c’est le progrès et l’art c’est le changement, alors oui on peut donc dire que cette élection nous a fait vivre un grand moment artistique.

Dommage que Turner ne soit plus là pour les représenter.

Pour terminer sur une note optimiste, ce post très long et atypique (mais qui reflète assez bien le mode de pensée de son rédacteur),

1) ca fait plaisir de savoir que nous vivons dans un monde de changement,

2) ca veut donc dire qu’il existe de la place pour les artistes, mais ca va pas tranquilliser mon ami banquier Christophe (10 lettres … et c’est vrai qu’il est très fan des restaurants !).

… vite je retourne sur BFM …pour vivre la suite.

2 Réponses pour “Quand la COCOE se met au GIGO”

  1. Irwan 24. nov, 2012 à 1:24 #

    La COCOE s’est viandée mais ton article, excellent, fait un effet boeuf :-)
    OK je sors.

  2. Nicolas SCHRIVER 13. juin, 2013 à 19:41 #

    Génial cet article! On en redemande.

Faire un commentaire