Juste après les attaques informatiques, les crashes de disques durs figurent en tête des événements les plus redoutés par les entreprises qui hébergent leurs sites et applications critiques sur des serveurs internes. Malgré des coûts plus élevés, ces entreprises tendent à « redonder » leurs serveurs dans plusieurs centres d’hébergement, de manière à ce qu’un disque défaillant puisse être immédiatement remplacé par un autre… La plupart effectuent aussi des vérifications régulières en sondant les éventuelles erreurs signalées dans les fichiers d’accès aux disques durs et en analysant les relevés des systèmes d’autodiagnostic SMART (Self-Monitoring, Analysis, and Reporting Technology) intégrés aux disques.
Mais elles sont de plus en plus nombreuses à utiliser les technologies émergentes de « machine learning » (apprentissage machine) pour analyser en temps réel toutes les données remontées par les disques. Ces technologies ne sont pas à proprement parler nouvelles. Mais, comme le soulignait récemment l’institut Gartner, elles sont actuellement boostées par les progrès réalisés dans les technologies d’analyse big data. Et notamment la disponibilité de plates-formes de traitement des données en parallèle ou de moteurs open source, comme Spark ou TensorFlow, en mesure de prendre en charge des algorithmes prédictifs de plus en plus complexes.
Une découverte récente de Junjie Qian, doctorant à l’université Nebraska Lincoln, aux Etats-Unis, laisse en outre espérer la résolution de l’une des principales difficultés auxquelles sont actuellement confrontés les spécialistes du « machine learning ». Il s’agit de réduire le nombre de « faux positifs », ces messages d’erreur qui ne sont pas émis à bon escient, sur la base d’un seul diagnostic s’avérant erroné. Le problème ? « Un taux élevé de faux positifs entraîne le risque de labelliser des disques sains comme des disques sur le point de connaître une défaillance, et donc d’entraîner une perte de ressources », explique le chercheur en introduction de l’article présentant sa découverte.
Pour mesurer les risques de défaillance, Junjie Qian propose de ne plus se limiter aux indicateurs SMART (Self-Monitoring, Analysis, and Reporting Technology) émanant des disques mais de faire tourner en complément, toutes les heures, plusieurs algorithmes de « machine learning ». Il n’y a plus un seul point de contrôle et de collecte, comme c’est le cas actuellement, mais plusieurs, ce qui permet de croiser les informations et de découvrir plus tôt et mieux les risques réels de panne. Les tests menés avec le logiciel d’apprentissage automatique Weka (sur 7 018 disques) montrent ainsi que la méthode promue par Junjie Qian diminue sensiblement la détection du nombre de disques susceptibles de tomber en panne (113, contre 122 avec les méthodes précédentes). Mais elle réduit considérablement les risques faux positifs (seulement 7, contre 34 auparavant).
Pour améliorer les processus de détection des disques « en danger », Junjie Qian invite en outre les fabricants à élargir l’éventail de données susceptibles d’être analysées, par exemple en y incluant des statistiques sur les processus de lecture et d’écriture de données opérés sur le disque. Reste à voir si ce nouveau logiciel, conçu pour être installé sur le système d’exploitation du disque ou directement sur le contrôleur de la baie de stockage, parviendra à sortir de la phase expérimentale et à se faire accepter par les principaux fournisseurs de disques.
Vous pensiez votre PC totalement déconnecté du réseau à l’abri des pirates ? Pourtant son…
Vous pensiez l’impression 3D cantonnée à quelques prototypes en plastique ? En l’espace de quelques…
Tout arrêt de la production informatique ou toute panne sur les postes de travail peuvent…
Laisser son poste de travail librement accessible quand on quitte son bureau peut avoir des…
Les intérêts des interfaces tactiles ne se limitent pas aux petits écrans des smartphones. Sur…
Utilisées dans l’automobile ou l’architecture pour faciliter la conception d’un véhicule ou d’un bâtiment, les…