Bad data : le faux ami dissimulé dans vos données

Blog proposé par Dell EMC

Données incomplètes, fausses ou inexploitables, les bad data sont de faux amis qui se cachent dans les vastes gisements de données et qu’il faut absolument éradiquer. Faute de quoi elles nuiront aux prises de décisions nées du Big Data.

Parties intégrantes du big data, les bad data sont de faux amis qui se cachent dans les vastes gisements de données et qu’il faut absolument éviter. Il s’agit de données incomplètes, fausses ou inexploitables, qu’il convient de repérer avant qu’elles ne nuisent aux prises de décisions.

« La bonne information, à la bonne personne, au bon moment, pour prendre les bonnes décisions ». Cette célèbre phrase du professeur d’université américain Michael Porter sur les enjeux de l’intelligence économique est plus que jamais d’actualité aujourd’hui. Car si tout le monde parle des promesses que nous réservent les gisements de données internes ou externes, structurées ou non, de plus en plus de voix s’élèvent pour nous mettre en garde contre les risques liés aux bad data, ces données fausses, incomplètes ou susceptibles d’être mal interprétées. Le danger ? Prendre pour argent comptant ces mauvaises données qui se cachent dans les big data, et en tirer des conclusions erronées qui risquent de mener l’entreprise dans la mauvaise direction.

Nombreux sont les articles qui rappellent qu’au cours d’une analyse, une petite erreur d’interprétation sur un mot au départ peut générer une grande différence de résultat à l’arrivée. On ne compte plus les incidents boursiers engendrés par une interprétation hâtive ou erronée de certains chiffres ou les problèmes posés par des bases de contacts incomplètes ou obsolètes.

“Toute donnée est potentiellement mauvaise
si elle est regardée sous le mauvais prisme.”

Des analyses plus poussées

« Du big data au bad data, le pas est vite franchi et le paradoxe évident : si la granularité des données est aujourd’hui beaucoup plus forte, la fiabilité finale des chiffres ne s’est pas forcément accrue », écrit par exemple Didier Le Menestrel, président de La Financière de l’Echiquier, société française spécialisée dans la gestion de fonds, dans un billet de blog. Il invite les investisseurs à privilégier « les fourchettes », plutôt que les « chiffres exacts », et à relativiser les indicateurs toujours plus nombreux en les comparant à d’autres statistiques « moins prisées mais parfois plus pertinentes ».

D’un point de vue technologique, les solutions sont multiples : elles passent principalement par de nouveaux outils d’analyse des données, l’intégration des données stockées jusqu’alors dans des silos distincts, l’optimisation du stockage de ces données et la mise en place d’infrastructures évolutives, qui vous garantiront un accès à la demande à toute la puissance de calcul utile pour traiter en temps réel de très larges corpus de données. Ces changements aideront à conduire des recherches ad hoc et à identifier plus facilement les « bonnes » questions.

Bad un jour, bad toujours ?

Face à la croissance exponentielle des data, l’éradication pure et simple des bad data semble illusoire. D’une part, toute donnée peut être mauvaise si elle est regardée sous le mauvais prisme. Et d’autre part, une bad data est parfois aussi une « B.A.D. Data » (« Best Avalailable Data »), qui s’ignore. Autrement dit, cette dernière a peut-être simplement besoin d’être enrichie et vérifiée par un « data scientist » pour devenir « la meilleure info à disposition ». Pour le cabinet français Jems Research, « la solution consiste à fiabiliser ces mauvaises données en supprimant les doublons, en redressant celles qui sont mal formées ou incomplètes pour les amener au même niveau de qualité que les autres ». Même une bad data peut avoir bon fond.

>>> Pour plus d’information, rendez-vous sur Tech Page One

Les Podcasts de Splunk

sponsorisé

SNCF Connect & Tech explore toutes les voies de la rés…

SNCF Connect & Tech explore toutes les voies de la rés…23:13

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

“Toute donnée est potentiellement mauvaise si elle est regardée sous le mauvais prisme.”

Des analyses plus poussées

Bad un jour, bad toujours ?

S’abonner

Partager l'épisode

“Toute donnée est potentiellement mauvaise
si elle est regardée sous le mauvais prisme.”