Categories: Big dataBusiness intelligenceCloudData-stockageMarketing

Quand le big data redéfinit les méthodes de travail

Qu’elles se soient traduites par la mise en place d’un data lake, le recours à Oracle Exadata ou le développement de modèles prédictifs, les démarches d’exploitation de données entreprises ces derniers mois par OVH, GrDF et SendinBlue ont eu des implications d’ordre technologiques.

L’événement qui réunissait les trois sociétés ce mardi matin dans les locaux parisiens de Dataiku – dont elles sont clientes – a été l’occasion de constater que leurs initiatives respectives ont aussi entraîné des changements de nature organisationnelle.

Tandis que GrDF a constitué des « data teams », le profil de « data stewart » a émergé chez OVH !

Du côté de SendinBlue, le métier des data scientists a sensiblement évolué au gré de l’automatisation des tâches.

Ce levier, le fournisseur français de solutions d’e-mailing (qui dit gérer les campagnes de « 50 000 clients actifs » dont BMW et Michelin) l’a enclenché sous la logique collaborative dans laquelle s’inscrit la plate-forme de Dataiku.

Un pied aux U.S.A.

De la préparation des données à la mise en œuvre de modèles prédictifs, Dataiku affirme couvrir toute la chaîne de valeur de la data, en réunissant les technologies et les métiers.

Son offre « Data Science Studio », qui fédère une centaine de clients dans sa version payante, a retenu l’attention des sociétés de capital-risque, qui ont injecté plus de 40 millions de dollars.

Installée entre Paris et New York avec une centaine de collaborateurs, la start-up rêve d’une introduction en Bourse. Mais ce n’est pas pour tout de suite, clame le CEO Florian Douetteau.

Après quatre ans et demi d’activité sur un segment qu’occupent notamment IBM et SAS Institute, le bilan n’est effectivement pas encore à l’équilibre.

Dataiku accuse en l’occurrence, sur son exercice 2016, une perte nette d’un peu plus d’un million d’euros, pour un chiffre d’affaires d’environ 4 millions réalisé pour plus de moitié aux États-Unis.

Spam et réputation

Avec 90 employés entre Paris, Seattle et New York, pour un CA prévisionnel de 7,5 millions d’euros sur l’année 2017, la société SendinBlue présente un profil similaire.

L’une des problématiques qu’elle a abordées avec Dataiku concerne la fraude, plus particulièrement la dimension du spam.

Le terme est défini comme l’envoi d’e-mails à une base « non opt-in » ; c’est-à-dire à des utilisateurs qui remplissent au moins un critère parmi les suivants : ils n’ont pas donné leur accord pour être contactés, ne l’ont pas été depuis plus de deux ans ou n’ont pas la possibilité de se désinscrire.

En toile de fond, une question pour SendinBlue : comment s’assurer que les bases de contacts qu’importent les clients soient bien en opt-in ?

Il en va d’une logique de délivrabilité : laisser passer des bases volées, achetées, trouvées sur Internet ou encore reprises d’une précédente société, c’est ternir sa réputation auprès des fournisseurs de messagerie… et voir ses e-mails arriver en spam.

Automatisation

Pour déterminer le caractère opt-in d’une base, SendinBlue exploite trois métriques : les taux d’ouverture, de plainte et d’inscription. Tout en recherchant des particularités comme la présence d’adresses professionnelles et les erreurs de remise (bounce).

L’utilisation de Data Science Studio a permis d’interfacer des données externes provenant entre autres du service e-hawk, dont l’API cloud attribue des scores de confiance aux adresses électroniques.

Il a fallu trois mois à SendinBlue – dans le courant de l’été 2016 – pour déployer l’ensemble, en connectant des ressources MongoDB, MySQL et RedShift.

Les modèles construits sur cette base (avec des données relatives à 1 milliard d’e-mails et aux événements liés) prennent aujourd’hui en charge la quasi-totalité des validations de comptes.

Il reste des faux positifs, mais SendinBlue estime que la démarche lui a permis d’économiser l’équivalent d’un poste à temps plein.

Confronter les cultures

Chez GrDF, le partenariat avec Dataiku remonte à 2014.

Le groupe, qui achemine le gaz aux clients particuliers et professionnels via un réseau d’environ 200 000 km de canalisations, avait lancé, la même année, une démarche exploratoire pour « tirer le potentiel de la donnée ».

Le « DataLab » qui en est né réunit aujourd’hui sept data scientists. Placé sous la responsabilité de la DSI, il a pour objectif de « faire se rencontrer les métiers et les experts en traitement de la donnée ».

Chacune de ses expérimentations se fait par le biais d’une « data team » qui associe un responsable produit portant la problématique business, un « testeur terrain » issu des entités opérationnelles, un data engineer qui met les données à disposition du data scientist et un scrum master.

Ce dernier poste reflète le fonctionnement du DataLab : les cycles de développement sont courts, avec des « sprints » de 3 semaines à l’issue desquels un projet peut être abandonné si les résultats obtenus « ne permettent pas d’être optimistes quant à la résolution du problème », selon Paul Fournier.

L’IA et les ordures

Le responsable du DataLab donne l’exemple d’un de ces projets abandonnés : la détection des compteurs de gaz « non encartés », au sens où ils consomment sans se trouver dans les bases de données de GrDF.

Des adresses postales suspectes ont été déterminées, mais la mobilisation pour vérifier sur le terrain (en s’appuyant sur les techniciens en déplacement) a été insuffisante.

Cas d’usage plus probant : l’analyse des zones de commentaires libres dans les outils de relation client (CRM) du groupe GrDF.

La CNIL y voit des « zones à risques » et en recommande l’audit régulier, sur la base d’une liste de mots interdits.

Les premiers résultats, consécutifs à l’analyse de 800 000 commentaires sur les CRM, ont été « décevants », d’après Paul Fournier.

« Le mot ‘ordure’ est sur la liste de la CNIL, mais sa présence dans un commentaire n’est pas forcément problématique », explique l’intéressé, en donnant l’exemple de la phrase « Le compteur est situé à côté du vide-ordures. »

Ainsi l’algorithme a-t-il été entraîné avec un millier de commentaires labellisés par le responsable produit de la « data team » – qui se trouvait être le référent CNIL de GrDF.

L’initiative a permis de « détecter 7 fois plus de commentaires non conformes, avec 2 fois moins d’erreurs ».

Les usages avant l’infra

Sur 24 expérimentations menées par le datalab GrDF depuis sa création, le taux d’abandon avoisine les 20 %.

Pour le reste, l’industrialisation n’est pas systématique : elle dépend de la périodicité à laquelle un modèle doit être reproduit (au moins une fois par mois ; sinon on reste dans l’environnement du DataLab).

GrDF a choisi de se concentrer sur les usages. « On peut traiter beaucoup de sujets sans forcément avoir des Rolls en termes de machines », assure Paul Fournier, en soulignant néanmoins qu’un centre de données est en cours de construction sur base Oracle Exadata.

Parmi les autres cas d’usage teintés de prédictif, on citera l’optimisation du parcours client sur le site « Projet gaz » (sur la base de l’API Google Analytics) et la prévision du nombre d’appels sur les plateaux téléphoniques.

GrDF exploite aussi les photos prises avant la pose des compteurs de nouvelle génération Gazpar (11 millions à remplacer ; 400 000 installés) pour détecter si les équipements à proximité – dont on ignore pour certains la localisation – nécessitent une maintenance.

Au-delà du décisionnel

OVH aussi fonctionne en cycle courts – d’une à deux semaines – avec Dataiku, utilisé pour l’heure par une vingtaine de collaborateurs, dont 40 % de data scientists.

La société de services IT – qui tente de se débarrasser de l’étiquette d’hébergeur que lui attribue la pensée commune en déployant une stratégie mondiale – a mis à profit son infrastructure pour développer un entrepôt de données (data warehouse).

Dans la plupart des cas, le sourcing de données internes se fait avec une technologie « maison » qui réplique en temps réel les bases de données des applications opérationnelles sur un data lake Hadoop.

Deux data managers construisent, à partir de ces données, des modèles que quiconque doit pouvoir utiliser sans connaître la donnée source.

L’objectif à terme est de dialoguer avec tout le SI de l’entreprise ; pas seulement avec les applications décisionnelles.

Les data scientists gagneraient 40 % de leur temps par rapport à des usages classiques qui impliquent une préparation des données. Ils ont par ailleurs la possibilité de créer des plugins.

OVH en a placé plusieurs en open source, dont un pour le compte de MailJet (un spécialiste de l’e-mailing).

Photo d’illustration : Florian Douetteau, CEO et cofondateur de Dataiku