C’est une histoire belge dont Google se serait bien passé : une série d’éclairs s’abattant sur les équipements du réseau électrique en Belgique ont eu un impact sur le datacenter que Google exploite outre Quiévrain, à St Ghislain.
Une installation hébergeant la zone Europe de l’Ouest du cloud de la firme de Mountain View, la Google Cloud Platform. L’épisode a abouti à une perte de données, certes minime mais bien réelle. Un événement rarissime chez les géants du Cloud.
D’après le rapport publié par Google, la foudre a causé le 13 août dernier « une brève perte d’alimentation » pour les systèmes de stockage sur disque associés au service Compute Engine du géant, son service de calcul dans le cloud.
« Même si les systèmes auxiliaires ont restauré l’alimentation rapidement et si les systèmes de stockage intègrent des batteries de secours », certaines données écrites récemment ont été définitivement perdues.
Selon Google, moins de 0,000001% des données stockées sur les disques durs de europe-west1-b, le nom de code du datacenter de St Ghislain. Soit, si le site stockait 1 Po de données, moins de 10 Mo évaporés. Une part certes faible, mais un coup de canif dans l’image d’absolue fiabilité des grands services de cloud, ne manque pas de faire remarquer Silicon.fr.
Dans le détail, après l’orage du 13 août, des erreurs d’entrées/sorties sont apparues de « façon sporadique » sur les instances Compute Engine reliées aux disques durs ayant souffert de la panne d’alimentation.
Entre le 13 et le 17 août, environ 5% des disques durs du datacenter ont connu, au moins, une erreur d’entrée/sortie ou d’écriture. Les opérations de restauration ont permis de récupérer l’essentiel des données, sans toutefois atteindre les 100%. Google précise que les disques SSD et les snapshots de disques ne sont pas concernés par l’incident.
Dans son message aux utilisateurs, la firme de Mountain View assume « l’entière responsabilité » de la panne, tout en rappelant à ses clients qu’opter pour un stockage persistant dans une zone unique comporte des risques inhérents à ce type d’architecture. Pour le maximum de sécurité, la duplication des données dans une autre zone est nécessaire.
La firme assure avoir lancé un programme de mise à jour des équipements de stockage, avec une technologie moins sensible aux pannes d’alimentation, et identifié en parallèle plusieurs chantiers d’amélioration, y compris dans les procédures internes de réponse aux incidents.
Les différents messages postés sur la page de support de Google montrent d’ailleurs que la firme a tardé à prendre pleinement conscience de la gravité de l’incident. Quelques heures après la panne d’alimentation dont ont souffert ses baies de stockage, Google parlait ainsi seulement de performances dégradées.
Le 14, les ingénieurs de Mountain View pensaient que « pas plus de 1% » des disques durs seraient touchés et ne mentionnaient pas l’éventualité de pertes de données.
Le 16, dans un message, Google estime même que l’incident est clos, en raison « du faible taux d’erreurs de lecture » sur les disques. Avant un message posté le 18 qui, cette fois, reconnaît la réalité de la perte définitive de certaines données.
Les conséquences de la panne sur certains équipements de stockage ont donc été détectées tardivement.
« Dans presque tous les cas, les données ont été transmises avec succès à un support de stockage stable » au moment de la coupure de courant, écrit Google. C’est visiblement lors des opérations de restauration de ces données que les ingénieurs de la firme se sont aperçus que ces procédures de secours avaient fonctionné dans « presque tous les cas », mais pas dans 100% des cas.
Le géant californien n’a pas précisé le nombre d’entreprises qui, dans la panne, ont perdu des informations. Ni la criticité de ces dernières. Pas plus que les conséquences juridiques probables d’une telle mésaventure…
Crédit image : Denis Rozhnovsky – Shutterstock.com
Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…
Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…
Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…
Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…
L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…
Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…