Data Resilience, assurer la disponibilité de vos données avec Commvault

Les risques qui mettent en danger les données des entreprises sont principalement les crimes cyber, les pannes matérielles, les erreurs humaines et les catastrophes naturelles.
Par Philippe Decherat

Les risques qui mettent en danger les données des entreprises sont principalement les crimes cyber, les pannes matérielles, les erreurs humaines et les catastrophes naturelles. Les entreprises se divisent alors en deux catégories : celles qui ont perdu un site avec des données, et celles qui vont en perdre un.

Pour se protéger contre ces risques, les entreprises doivent mettre en place une stratégie de récupération des données, en tenant compte de deux critères : le RTO (Recovery Time Objective – temps pour restaurer) et le RPO (Recovery Plan Objective – volume de données perdues).

Par défaut, une sauvegarde traditionnelle répond à des objectifs de RTO de 4h à quelques jours et un RPO de 24h. Pour réduire ces délais et volume de données perdu, il est possible de déclencher régulièrement des snapshots hardware comme autant de points de reprise rapide, de répliquer/synchroniser des VM ou des bases de données vers des copies prêtes à l’emploi (Standby ou Warm Copy), de mettre en place un cluster applicatif dans une démarche de haute disponibilité, et d’utiliser une architecture Air Gap contre les ransomwares. Ces solutions ne sont pas applicables à l’ensemble des données car elles représentent un surcoût de gestion et d’infrastructure, de valeur exponentielle vis-à-vis du niveau d’exigence.

En cartographiant et analysant les données des entreprises nous constatons que peu d’applications demandent un plan de reprise d’activité rapide. Une étude menée par COMMVAULT en 2019 montre que 74% des données sont restaurables sans impact dans les 24 ou 48 heures, elles correspondent aux données archivées, aux fichiers bureautiques et aux informations décisionnelles. Pour 15% (bases de données, serveurs d’applications) une récupération dans les 12 h est acceptable. Seules les 10 % restantes demandent des systèmes élaborés de reprise d’activité en quelques heures ou quelques minutes (systèmes critiques, applications transactionnelles). Commvault propose une solution de cartographie et analyse de vos données pour vous permettre de les catégoriser, cette solution s’appelle Commvault Activate™.

Une fois les données catégorisées, vous pouvez définir des niveaux de service à appliquer. COMMVAULT COMPLETE BACKUP & RECOVERY vous permet de créer des plans de sauvegarde et réplication en tenant compte du SLA attendu et en suivant la règle du « 3 copies, 2 types de stockage, 1 version offline ». Par exemple un plan « Bronze » sera composé d’une sauvegarde locale sur disque, une copie sur un autre site, une copie long terme sur bande ou dans le cloud. Un plan « Argent » ajoutera un mécanisme LIVE SYNC de réplication/synchronisation automatique des VM et des bases de données en Warm Copy. Un plan « Or » ajoutera une prise de snapshot hardware et du LIVE SYNC Direct ou IO pour des réplications en quasi-temps réel.

Exemples de réplication pour VMWare :

  1. Réplication de sauvegarde classique avec restauration en cas de besoin, pour un SLA supérieur à 4 heures 
  2. Réplication LIVE SYNC (<4h) : gestion d’un jeu de VM en standby, synchronisé après chaque sauvegarde 
  3. Réplication LIVE SYNC DIRECT (<15 min) : maintien d’un environnement de secours mis à jour automatiquement sans passer par la restauration des sauvegardes
  4. Réplication LIVE SYNC IO (5 min) : utilisation du plug in VAIO (VMWare), capture des IO qui sont rejoués sur le site de secours

La réplication LIVE SYNC est disponible pour les bases de données (Oracle, SQL Server, PostgreSQL), pour les VM d’un même hyperviseur (VMWare-VMWare, Hyper-V-Hyper-V, Azur-Azure, AWS-AWS, AzureStack-AzureStack), ainsi qu’entre hyperviseurs différents (VMWare-HyperV, VMWare-Azure, VMWare AWS, HyperV-Azure, AWS-Azure, Azure-AzureStack, etc.) en réalisant une conversion à la volée. Cette fonctionnalité est indispensable pour un plan de secours de OnPrem vers le Cloud, ou lorsque que le PRA est réalisé par une société tierce comme un Service Provider.

Enfin un engagement sur les niveaux de services vis-à-vis des métiers demandent des métriques, comme la mesure du SLA pour l’ensemble des copies d’un PLAN, et le suivi des réplications entre VM, groupe de VM et bases de données avec des rapports réguliers et un système d’alertes pour rester en contrôle de vos environnements.

Par Philippe Decherat est le Directeur Avant Vente.