Deutsch (DE-CH-AT)French (Fr)English (United Kingdom)

Le Big Data

« Si un homme raisonne mal, c'est qu'il n'a pas les données pour raisonner mieux » (Denis Diderot 1771). Mais quand trop de données nuisent au raisonnement il faut savoir faire des choix.

« Google , le nouvel Einstein » titrait récemment Science et Vie « en quelques centièmes de secondes le moteur de recherche le plus puissant de la planète extrait chaque jour des informations pertinentes de 20 pétaoctets de données. Soit environ 20 fois le volume stocké par la Bibliothèque Nationale de France. » A défaut de définition académique des « Big Data », cet ordre de grandeur devrait suffire.

C'est un phénomène général qui touche tant la science que la culture ou le commerce. Plusieurs facteurs ont contribués à ce phénomène.  Le coût dérisoire du stockage des données en est un. En 1986 un PC avec un disque dur de 10 Mo coutait environ 30 000  F soit 450 € le Mo. Aujourd'hui une clé usb de 64 Go coute moins de 30 €, soit 0.47 € le giga . Le rapport est de 96 million pour 100 !

Et puis il y a la facilité de récolte de ces données, via Internet. Tout le monde récolte des données à tout va, y compris les opérateurs de la VAD. Mais la facilité avec laquelle ces données nous sont désormais accessibles, doit nous inciter à un peu de prudence et de réflexion, pour ne pas se laisser rapidement submerger par le tsunami des Big Data. N'est pas Google qui veut !

L'expression « big data » dans le contexte de la vente à distance, porte en elle  toute la lourdeur et la complexité  que pose désormais la gestion de la relation client multi canal et donc multi sources de données.  D'une situation de « carence de la donnée » qui existait il y a encore dix ans, au début de l'ère du web et des prémices des réseaux sociaux, nous sommes passés à un environnement de données pléthoriques, voire en surnombre. Une surcharge pondérale de données issues d'origines diverses et variées, sans homogénéité. Hétéroclites à souhait ! Et surtout faciles et peu couteuses à récolter. Donc, si ça ne coute rien (ou presque !) pourquoi s'en priver ? Récoltons de la donnée en masse, puisqu'elle est là,  on fera le tri ensuite. Vite  dit...

Quand la donnée était rare, et que  les moyens de l'exploiter coutaient cher,  les statisticiens (qu'on n'appelait pas encore dataminer) au services des stratèges et hommes de marketing, ont su construire des modèles très pertinents axés sur une recherche constante de la rentabilité, et de l'efficacité. Il n'y avait pas le choix. Envoyer, plusieurs fois par an, 50 000 catalogues à 2 €  ou 1 million de mailings à 0.80 € à des personnes qui de toute évidence n'allaient pas commander pouvait mettre la société en péril et l'erreur était rarement répétée deux fois.   La performance était liée à la qualité de la segmentation des données internes et aux choix des cibles externes.   La donnée était chère. Couteuse à récolter et à exploiter. On en prenait soin. Et c'est toujours le cas de nos jours dans les entreprises qui ont de tous temps  baigné dans cette culture.  Puis, les multiples canaux qui s'ouvrirent tour à tour  vinrent nous inonder de données qu'il nous faut désormais apprendre à canaliser avant qu'ils ne se déversent dans la mare du CRM et viennent noyer la donnée pertinente dans la masse des données sans valeur, mais que l'on stocke..au cas où !

Dans l'impossibilité de passer tous ces canaux en revue, intéressons-nous à internet et tout particulièrement à  l'e-commerce.  Ici la donnée la plus simple, la plus facile, la moins couteuse à récolter - de prime abord, entendons nous bien-  est l'adresse email.  C'est la plus évidente aussi. Mais voilà, combien d'entrepreneurs du net se rendent compte, après quelques années d'existence, qu'ils ont négligé tout un pan de l'architecture de leur bases de données clients, et qu'ils se retrouvent aujourd'hui avec  des fichiers bien bancals ? Faute de s'être focalisé sur les taux de hard et de soft bounds, d'avoir emmagasiné des leads à tout va, ils en sont venus à oublier l'essentiel.


La recrudescence des SDF

Un exemple. Il n'a pas échappé aux entrepreneurs du net qu'il est possible de valoriser leurs bases clients en les  mettant sur le marché de la location. Et là souvent, le malentendu s'installe dès la première prise de contact entre l'e-commerçant et le courtier en adresses. A la question, incontournable :

-combien cela peut me rapporter de vous confier mon fichier ? » le propriétaire du fichier s'entendra répondre :

-entre 2 et 3 € par adresse et par an ». Pour avancer ce chiffre le list broker aura pris pour base le rendement moyen d'un ficher de VAD, « classique » et géré dans les règles de l'art.  Mais il ne fera cette erreur qu'une fois. Car, au moment de traiter le fichier en question il se rendra compte que la seule donnée « valable » qui lui a été confiée est l'adresse e-mail. Point barre. Et quelque fois, quand celle-ci est assortie d'une adresse physique, le summum du folklore peut être atteint ! Dans une base de plusieurs millions d'adresses issue d'un comparateur de services sur le net, les informaticiens ont du rivaliser d'imagination pour détecter toutes les adresses physiques farfelues, récoltées sans filtre ni contrôle. Ainsi  les SDF étaient les plus nombreux (tout un symbole quand l'adresse est requise, mais pas étonnant quand on regarde son clavier) après les AAA ou XXX et avant les AZERTY, et autres NICOLAS SARKOZY.  Au minimum   42% des adresses postales du fichier étaient inexploitables. Mais que penser de la « valeur » de l'adresse email de ce type d'internautes  qui, même si elle est techniquement « propre » (validée et opt-in...) n'en est pas moins totalement impropre à toute valorisation marchande vu le peu d'entrain de son propriétaire à s'impliquer dans un processus d'achat.  C'est entre autre, ce qui a fait que la location d'une adresse postale issue d'un fichier VAD bien tenu vaut toujours entre 180 et 250 € du mille, alors que les fichiers emails « secs » se négocient aujourd'hui à moins de 10 € en CPM. Donc à défaut de disposer d'adresses de qualité, on se rattrape sur la masse. Et vive le spam et les dégâts collatéraux !

Autre exemple. Je me suis entretenu récemment avec une collaboratrice d'un grand opérateur de l'e-marketing interactif, en France. Nous avons pu faire le constat que tant leur expertise était grande dans des domaines très pointus comme le retargeting et l'affiliation, autant la technique interne de traitement de l'adresse postale relevait de l'amateurisme. Pour détecter les doublons on y emploie  les bons vieux matchcodes  (CP+ 1eres lettres du nom et prénom..). Technique très approximative qui n'est plus utilisée en déduplication depuis bien 25 ans, mais dont la trouvaille a du remplir d'aise un jeune développeur entre deux lignes de code html ou php.

Or, à quoi sert une fiche client, si nous n'avons pas les moyens de lui affecter son adresse physique juste et unique, ou l'adresse physique de son point de vente préféré (cela peut servir  pour du géomarketing , sans être obligé d'attendre que son prospect active le service de géolocalisation sur son mobile...). Quelle image véhicule une société qui envoie trois emails identiques à trois adresses électroniques différentes, mais avec toujours qu'un seul ouvreur au final ?

 

Alors, que manque t-il donc aux bases des e-commerçants ?

Au delà des outils qui permettent de disposer d'un fichier propre d'un point de vue RNVP (restructuration, normalisation, validation postale) la notion même de segmentation  RFM, (récence, fréquence, montant de commande), outil « historique » de la relation client est inconnue ou alors délaissée par bon nombre de nouveaux opérateurs sans pour autant avoir été remplacée par un nouveau modèle fiable et ayant fait ses preuves.

Prenons la récence, donnée obtenue à partir de la date de dernière commande. Dans un contexte multi canal, il y aurait lieu logiquement de stocker la date de la commande la plus récente pour chaque canal d'achat. La date du dernier achat en boutique, la  date du dernier achat sur le web, la date du dernier achat passé par un mailing. Dans cet exemple de canal d'achat  tridimensionnel il y aura lieu également de stocker la fréquence et le montant d'achat spécifique par canal. Compliqué  tout ça ? Alors on garde souvent la dernière date rentrée, sur le dernier canal... Qu'elle erreur ! Car rien ne prouve que cet achat n'ait pas été un achat impulsif et qu'en fait, il ne traduise en rien le vrai comportement du client que seule l'analyse de  son historique d'achats peut déduire.

Mais avant l'acte d'achat, le prospect aura parcouru les multiples chemins de la communication multi canal : le site web, les forums d'avis de consommateurs , il aura tchaté du produit convoité, partagé une info sur Twitter et Facebook, aura cliqué sur une ou plusieurs bannières, issues d'un retargeting savant, aura comparé les prix, aura vu une publicité en presse ou en 4 x 3, aura été abordé en street marketing, aura lu une news letter spécialisée, se sera renseigné par téléphone, ou déplacé deux fois en boutique...Bref, aura couté un peu d'argent en laissant une masse de données au passage. En toute logique il y aura donc également lieu de stocker dans le big réservoir toutes ces données, pour peu qu'elles aient été récoltées légalement, et en leur affectant leur coût unitaire. C'est-à-dire celui lié à la fraction du budget de communication spécifique à chaque canal et réaffecté à chaque client. Mais combien d'opérateurs sont capables de faire ceci aujourd'hui ?

On peut bien sûr décider de ne retenir que la date de commande la plus récente en zappant le mode d'achat, de ne stocker qu'un montant global de commandes cumulées et de comptabiliser la fréquence indifféremment de l'origine de commande. Et de considérer le budget de com dans sa globalité. Mais dans ce cas il ne sera pas possible de calculer la marge réelle générée  pour chaque client et de décider de la stratégie one to one à adopter afin de communiquer personnellement avec lui et de l'orienter individuellement vers le canal d'achat le plus rentable. Autant se passer d'une base de données et de ne maintenir qu'un vulgaire « fichier clients » pour les besoins de sa comptabilité et router ses mailings et e-mailings « en vrac ». Et de constater que...ça ne marche pas ou en tous cas « plus comme avant » !


A
lors que faire pour ne pas se noyer dans les big data ?

Google viendrait du terme mathématique « googol » qui désigne 10100 . Nous étions donc prévenus ! Mais on peut aussi se laisser à croire qu'il s'agit de la contraction de goodwill qui désigne un actif commercial (la clientèle),  et de goggles , les lunettes spéciales. Des lunettes pour voir ses clients. J'aime bien cette définition.  A défaut donc, de laisser le soin au nouvel Einstein de venir s'inviter seul, pour mettre de l'ordre dans nos propres entrepôts de données, il y a des solutions simples qui permettent à tout un chacun de s'en occuper soi-même. Ces solutions passent par un minimum d'outils et de savoir faire proposés par des sociétés qui développent des logiciels  (comme ebow d' ITL) destinés à  récolter, stocker et ordonner les principales données nécessaires à une activité multi canal, tout en assurant la gestion complète d'une activité de VAD, off et on line. Puis qui les restituent sous de multiples formes de tableaux statistiques « prêts à l'emploi » ou sous forme de données brutes exploitables par un dataminer et des outils de business intelligence à des fins d'analyses plus poussées, comme des analyses prédictives (services qu'ITL peut également mettre à votre disposition).  Même si nous, français, sommes de bons nageurs, nous l'avons vu aux JO de Londres, il serait dommage de nous laisser nous noyer dans les  big data, faute de les avoir vu venir ! Equipons-nous !

Chronique Paul ADAM - VAD Mag octobre 2012
 


ITL - 13 rue du Canal 67203 OBERSCHAEFFOLSHEIM | TEL: +33(0)3 88 77 48 58 - FAX: +33(0)3 88 77 48 55 | info@itl.fr
Une société d’ITL Groupe, Data Solutions depuis 1984