Stockage : prévenir les pannes grâce au Machine Learning

Data-stockage
Blog proposé par Dell EMC

Déjà en vogue, les outils de Machine Learning pourraient profiter prochainement de l’arrivée de nouveaux algorithmes. Objectif : identifier plus rapidement, et de façon fiable, les risques de défaillance des disques durs.

Juste après les attaques informatiques, les crashes de disques durs figurent en tête des événements les plus redoutés par les entreprises qui hébergent leurs sites et applications critiques sur des serveurs internes. Malgré des coûts plus élevés, ces entreprises tendent à « redonder » leurs serveurs dans plusieurs centres d’hébergement, de manière à ce qu’un disque défaillant puisse être immédiatement remplacé par un autre… La plupart effectuent aussi des vérifications régulières en sondant les éventuelles erreurs signalées dans les fichiers d’accès aux disques durs et en analysant les relevés des systèmes d’autodiagnostic SMART (Self-Monitoring, Analysis, and Reporting Technology) intégrés aux disques.

Mais elles sont de plus en plus nombreuses à utiliser les technologies émergentes de « machine learning » (apprentissage machine) pour analyser en temps réel toutes les données remontées par les disques. Ces technologies ne sont pas à proprement parler nouvelles. Mais, comme le soulignait récemment l’institut Gartner, elles sont actuellement boostées par les progrès réalisés dans les technologies d’analyse big data. Et notamment la disponibilité de plates-formes de traitement des données en parallèle ou de moteurs open source, comme Spark ou TensorFlow, en mesure de prendre en charge des algorithmes prédictifs de plus en plus complexes.

Éviter les faux positifs

Une découverte récente de Junjie Qian, doctorant à l’université Nebraska Lincoln, aux Etats-Unis, laisse en outre espérer la résolution de l’une des principales difficultés auxquelles sont actuellement confrontés les spécialistes du « machine learning ». Il s’agit de réduire le nombre de « faux positifs », ces messages d’erreur qui ne sont pas émis à bon escient, sur la base d’un seul diagnostic s’avérant erroné. Le problème ? « Un taux élevé de faux positifs entraîne le risque de labelliser des disques sains comme des disques sur le point de connaître une défaillance, et donc d’entraîner une perte de ressources », explique le chercheur en introduction de l’article présentant sa découverte.

“Un taux élevé de faux positifs entraîne le risque
de labelliser des disques sains comme des disques défaillants.”

Pour mesurer les risques de défaillance, Junjie Qian propose de ne plus se limiter aux indicateurs SMART (Self-Monitoring, Analysis, and Reporting Technology) émanant des disques mais de faire tourner en complément, toutes les heures, plusieurs algorithmes de « machine learning ». Il n’y a plus un seul point de contrôle et de collecte, comme c’est le cas actuellement, mais plusieurs, ce qui permet de croiser les informations et de découvrir plus tôt et mieux les risques réels de panne. Les tests menés avec le logiciel d’apprentissage automatique Weka (sur 7 018 disques) montrent ainsi que la méthode promue par Junjie Qian diminue sensiblement la détection du nombre de disques susceptibles de tomber en panne (113, contre 122 avec les méthodes précédentes). Mais elle réduit considérablement les risques faux positifs (seulement 7, contre 34 auparavant).

Pour améliorer les processus de détection des disques « en danger », Junjie Qian invite en outre les fabricants à élargir l’éventail de données susceptibles d’être analysées, par exemple en y incluant des statistiques sur les processus de lecture et d’écriture de données opérés sur le disque. Reste à voir si ce nouveau logiciel, conçu pour être installé sur le système d’exploitation du disque ou directement sur le contrôleur de la baie de stockage, parviendra à sortir de la phase expérimentale et à se faire accepter par les principaux fournisseurs de disques.