Détecter et résoudre les problèmes de mémoire

Blog proposé par Dell EMC

Un seul bit vous manque et tout est dépeuplé. Les erreurs mémoire sont courantes et, la plupart du temps, sans conséquences majeures. Mais, dans le cas de traitements lourds et intensif, elles peuvent s’avérer dévastatrices.

Un seul bit vous manque et tout est dépeuplé. L’erreur mémoire est un problème courant et la plupart du temps sans conséquences majeures. Mais dans le cas de traitements lourds et intensif, elle peut s’avérer dangereuse.

Votre mémoire n’y échappera probablement pas. Quelques que soit la marque ou le type de module installé sur votre ordinateur, presque toutes les mémoires vives présentent d’infimes défauts. Les fabricants auront beau dépenser 10 % à 15 % du coût de fabrication pour effectuer des tests poussés et essayer de repérer ces erreurs, les barrettes DIMM (Dual Inline Memory Module) seront toujours soumises à un risque de faille dû à la chaleur ou simplement au vieillissement des composants. Environ un tiers des ordinateurs subissent une erreur réparable par an (« DRAM errors in the wild: a large-scale field study »). Pour un usage bureautique standard, cela n’aura généralement pas d’impact sur l’utilisation des applications. Dans le monde du calcul intensif (finance, recherche médicale, ingénierie…) en revanche, où l’intégrité des données est clé, ce simple bit de mémoire défaillant peut mettre à mal tout le système.

Détecter, isoler et signaler

C’est pourquoi certains serveurs et stations de travail intègrent une technologie ECC (Error Correcting Code), qui va détecter et corriger les erreurs en amont. Mais les dernières générations de workstations proposent un niveau de protection supplémentaire avec la Reliable Memory Technology (RTM). Afin de réduire les risques Cette dernière va permettre de mettre en quarantaine les bits de mémoires corrompus afin qu’ils ne soient plus utilisés par le système d’exploitation et d’éviter ainsi les plantages ultérieurs.

Autre avantage, la RMT va enregistrer le nombre d’erreurs constatées sur un même module. Lorsqu’une erreur corrigible survient, le module est alors beaucoup plus susceptible de subir une nouvelle erreur similaire dans le mois suivant. Au septième incident, un rapport est donc automatiquement généré et adressé à l’administrateur du système, qui pourra procéder à un remplacement du composant avant que le problème ne s’aggrave. Une surveillance qui, outre le fait d’améliorer la fiabilité des machines, permet d’alléger le travail des équipes IT qui ne perdent plus à diagnostiquer, tester et réparer une barrette de RAM défectueuse.

>> Pour plus d’information, rendez-vous sur Tech Page One

mémoire