Routage : Une panne courte mais ressentie sur le réseau OVH
En raison d’une « erreur humaine » sur la gestion d’un routeur et d’un bug BGP, OVH a rencontré des soucis temporaires de réseau cet après-midi.
OVH a rencontré mercredi après-midi un incident temporaire de routage sur Paris, en lien avec un point de présence (POP) de Global Switch.
La panne est survenue entre 15H00 et 16H00 à la suite d’une « erreur humaine » et à un bug BGP* selon Octave Klaba, Directeur technique et fondateur d’OVH.
L’effet commençait à se faire ressentir sérieusement sur le Web.
En faisant preuve de transparence, le fournisseur de services Internet pour les entreprises a fourni un déroulé de l’incident sur son site Web qui a duré environ une heure. Le suivi était également relayé sur le compte Twitter du support OVH.
« On a été principalement impacté vers les connexions gérées par gsw-1-a9 (du nom d’un routeur d’OVH sur Paris connecté au réseau Global Switch) », précise Octave Klaba qui a suivi l’évolution de l’incident et retranscrit les éléments de manière pro-active.
Une baisse sensible de trafic vers plusieurs opérateurs a été monitoré : « – 50% de Free ,- 50% d’Orange, – 30% Telefonica (Backup), – 50% Google Europe », peut-on lire dans le déroulé de l’incident. Sans compter sur les effets indésirables sur les opérateurs de transit (Cogent, Tata, Level3, Telia).
Octave Klaba précise les raisons des turpitudes temporaires rencontrées par OVH : « L’erreur humaine est à l’origine de la panne: l’un des ingénieurs de l’équipe network (c’est mon équipe ..) a effacé par erreur la configuration OSPF** sur le routeur. »
Mais il y a eu également un souci de synchronisation entre routeurs. « Nous avons eu un bug BGP sur le 3eme routeur reflector (rf-3-a1) qui n’a pas communiqué au reste du backbone que gsw-1-a9 est down. »
« Nous avons eu des yoyos dans le réseau en Europe: ça pouvait pinger ou pas durant 60-120 secondes par routeur. En suite, tout est revenu puis nous avons remis la configuration sur le routeur gsw-1-a9. Le backbone est UP », rassure Octave Klaba dans une contribution horodatée à 17h12.
Le dirigeant d’OVH s’excuse au nom de toute son équipe qui a su faire preuve de réactivité. Tout en tenant informé ses clients sur l’évolution de la panne.
« Nous sommes sincèrement désolés pour cette panne. L’erreur humaine peut arriver et le backbone est prêt à faire face à ce genre de problèmes », conclut Octave Klaba.
« On regarde pour trouver le bug sur nos RR (ASR1002). Puis on va déterrer la hache pour s’occuper des doigts de mes gars… »
Pour ceux qui ne connaissent pas l’esprit parfois potache d’OVH, surtout ne prenez pas le dernier commentaire au sens littéral.
—————–
* BGP est un protocole de routage externe standard sur Internet, c’est-à-dire un ensemble de règles que doivent suivre les routeurs pour échanger les informations nécessaires au bon acheminement des données entre différents réseaux.
** Open Shortest Path First (OSPF) : protocole de routage interne le plus répandu sur Internet
Si vous voulez en savoir plus sur les deux protocoles de routage, rendez-vous sur l’excellent blog de Stéphane Bortzmeyer.
(Crédit photo : Shutterstock.com – Droit d’auteur : rickyd)