Déduplication : adieu, copies inutiles?

Blog proposé par Dell EMC

Les volumes de données explosent et une même information est fréquemment copiée plusieurs fois. Comment, dans ce contexte, réduire le volume de données de façon fiable et sans risques de conflits de versions ou de pertes de fichiers sensibles ? La déduplication est la réponse.

Dans une entreprise, la plupart des documents sont stockés sur les serveurs en de multiples exemplaires. Non content de limiter l’espace de stockage nécessaire, ce phénomène ralentit les traitements et réduit les performances des équipements. Par ailleurs, les obligations de conformité réglementaire obligent souvent les entreprises à archiver des volumes considérables de données, qui sont donc autant de nouvelles copies… Comment mettre fin à ce cercle vicieux et optimiser la gestion de ces copies ?

dell

Deux approches classiques

Traditionnellement, deux techniques existent pour réduire la taille des données.
L’approche dite « Fichier » consiste à remplacer les copies d’un fichier par des pointeurs vers une “copie maître“. Seconde technique : la compression, qui supprime les copies des séquences de bits identiques. Si le poids des fichiers bureautiques ou les e-mails diminuent fortement après compression, celle-ci ne donne pas les mêmes résultats pour d’autres formats (compressés par nature) comme la plupart des images ou vidéos.

Ces deux traitements nécessitent du temps et de la puissance de calcul. C’est pourquoi ces déduplications interviennent après que l’information ait été stockée, et sont exécutées par l’équipement de stockage ou par une appliance de sauvegarde.
Dans un système d’information manipulant toujours plus de données et recourant de plus en plus à la réplication en temps réel, ces procédés s’avèrent insuffisants.

Plus efficace et plus rapide : la déduplication en ligne

La déduplication en ligne, ou à la volée, applique le traitement de déduplication avant que la donnée ne soit écrite sur le disque ou au moment de l’écriture. Associée à une infrastructure « All Flash », la déduplication en ligne affiche des gains considérables tant en capacité effective qu’en performances. Pour une efficacité optimale, la déduplication peut être combinée avec des algorithmes de compression. Les opérations en lecture bénéficient également de la déduplication en ligne, lorsque l’hyperviseur ou le système d’exploitation conserve en cache une « copie maître » des fichiers sollicités.

Un point – paradoxal – à surveiller néanmoins tient à la pression en faveur de la réduction du trafic réseau, tandis que les solutions en mode cloud se multiplient. Or, si la déduplication et la compression sont assurées par le serveur ou par un équipement dédié situé entre serveur et stockage, le trafic réseau et les écritures disque peuvent s’en trouver fortement ralentis.

Toujours dans le respect de la loi

Les contraintes de conformité réglementaire comme la loi Sarbanes-Oxley (finance) ou la loi Hipaa (santé) poussent les organisations à étudier les potentiels de la déduplication, qui ont le mérite d’être pleinement compatibles avec ces obligations. Le faible encombrement d’un fichier compressé le rend plus fiable, tandis que la déduplication associée à la réplication ou à des mécanismes RAID protège l’entreprise contre la perte de données due aux incidents matériels. Et plus encore si la réplication est effectuée vers un datacenter distant.

Un fichier chiffré ne pouvant être compressé, la déduplication en ligne et la compression sur le serveur constituent des solutions très attractives pour un environnement soumis à de fortes exigences de conformité.

Pour un maximum de performances, une bonne coopération entre hyperviseur ou système d’exploitation et logiciel de stockage est indispensable. Étant données les réductions de coûts qu’elles génèrent et les performances qu’elles procurent, la compression et la déduplication en ligne sont de plus en plus intégrées aux systèmes de stockage. Et l’entreprise doit en faire l’un de ses critères de choix, sans concession.