最低生存能力终极指南

深入了解最低可行状态的概念，以及我们的解决方案如何在您旅程的每个阶段发挥作用。

现在就试试吧 →

概述

本指南涵盖哪些内容

最糟糕的情况发生了。您的企业遭受了灾难或网络攻击。您的数据和应用程序被清除。现在该怎么办？至少需要恢复到什么程度，才能维持业务的正常运转，接受订单和/或满足业务的基本需求？如何实现？

阅读全文

- 为什么要有最低限度的生存能力
- 制定恢复和复原计划
- 最低生存能力的恢复工作流程
- 最低生存能力的建议实践
- Commvault 如何帮助客户实现最低生存能力

为什么要实现最低可行状态？

网络攻击的兴起迫使企业重新思考其恢复策略。虽然检测威胁仍然至关重要，但一个更重大的挑战已经出现：确保受保护的数据是干净的，并可用于使公司重新上线。

由于攻击者战略性地渗透系统，长时间不被发现，并造成大范围的重复破坏，安全和 IT 团队已开始关注先进的实践，以最大限度地减少停机对其最重要的关键业务资产的影响。

最低生存能力--有时被称为 "最低生存能力公司"--意味着要敏锐地了解最关键的资产，以及在网络攻击或事故发生后恢复这些资产运行所需的条件。

制定计划

制定最低可行状态的计划

制定最低生存能力计划要在攻击发生之前就开始。从高层次上讲，这些做法涉及确定最低生存能力对企业的意义，以及在遭受攻击时如何实现最低生存能力：

对核心流程和从属系统进行准确和统一的查看。这些系统需要最大限度地减少停机时间，以便组织能够在中断最少的情况下继续履行其使命（例如，照顾病人、服务市民、教育学生、支持客户等）。

企业通常按照业务的优先级对应用程序和服务进行分级。例如，ServiceNow 的业务连续性管理模式将应用程序分类为

关键业务

没有这些（如活动目录、订单管理系统），什么都做不了。

关键任务

需要全面恢复电子邮件和会计业务。

非关键

所有其他系统。

这不是一个放之四海而皆准的方法，因为每个组织及其使命都不尽相同。
美国国家标准与技术研究院（NIST）提供了一个业务影响分析模板，以帮助进行规划。

了解这些核心资源的停机成本。这通常以每分钟/小时/天的成本、客户忠诚度、患者护理、品牌影响、监管罚款等来衡量。企业管理协会（Enterprise Management Associates）在 2024 年的一份报告中指出，停机的平均成本为每分钟 14 056 美元。

恢复关键系统、数据和流程的明确而可行的计划。这包括同时关注网络复原力和恢复，从而保持连续性和信任。重点关注谁做什么以及团队如何协同工作。

请注意，不能依靠灾难恢复计划来弥补网络攻击造成的损失。在我们的 "准备差距：为什么网络恢复需要一种不同于灾难恢复的方法"报告中，我们调查了 500 位 IT 和安全领导者，以了解企业如何处理灾难恢复与网络恢复，92% 的受访者表示他们遭受过明确针对备份的攻击。

71% 的人说，这类攻击占所有攻击的一半或更多。这种情况和其他因素使得网络恢复变得更加复杂。

68%

涉及不同的流程和工作流

68%

涉及不同的技术和功能

58%

涉及不同的人员和技能组合

54%

更复杂

网络恢复的难度有多大？

网络恢复

灾难恢复

同样的难度

技术更加复杂

(N: 340)

64%

14%

21%

很难找到并留住技术熟练的员工

(N: 289)

59%

15%

26%

过程和工作流程更加困难

(N: 342)

51%

22%

27%

服务级别协议更难以达成

(N: 226)

49%

26%

以网络复原力为重点，实现最低可行性的实践能力
仅有计划是不够的。正如迈克-泰森（Mike Tyson）的名言："每个人都有一个计划，直到他们的嘴被打了一拳"。

作为最低生存能力的一部分，企业必须具备自动化、测试、审计和持续改进快速恢复的能力，以确保在面对不断变化的威胁时能够保持弹性。这可以是桌面演习、模拟以及对相关技术的实际测试，以便了解最坏情况发生时的预期。

修复威胁和清除后门，防止进一步破坏
它还能防止坏人重新进入环境，从而在不中断的情况下进行干净的恢复操作。

如果不在恢复后进行适当的威胁修复扫描和一段时间的可观察性，就恢复之前的状态，这意味着您的系统可能会再次被攻击。必须对数据进行检查，清除应用程序中的潜在后门和漏洞，因为这些后门和漏洞可能会让攻击者在您认为已经恢复的情况下再次入侵。

网络恢复为何比传统灾难恢复更具挑战性

非常赞同

赞同

中立

不赞同

需要花费大量的时间和精力进行取证分析，以确定感染的全部范围。

44%

47%

在没有建立洁净室环境的情况下进行恢复，会造成再次感染的重大风险。

39%

46%

11%

在网络安全事件发生后仓促进行恢复，往往会破坏有关攻击实施方式的证据，从而使企业处于易受攻击的境地。

32%

51%

11%

下一代网络恢复架构
可实现加密、不变性/不可识别性、加固、任意对任意的可移植性和动态扩展，从而提高整体灵活性。

如今，停机的代价是巨大的，包括经济损失和声誉损失。

修复工作流程

恢复最低可行状态的工作流程

在《就绪差距报告》中，2.3 倍的受访者表示网络恢复流程和工作流比灾难恢复更困难，近 2 倍的受访者表示 SLA 更难满足。最低可行状态是更广泛的事件响应和网络恢复流程的一部分，那么如何克服这些挑战呢？这套最低可行状态的工作流程可以提供帮助：

对威胁的补救措施

在限制传播和保存证据的同时，将损失降到最低。识别威胁可让您评估范围、受影响的系统、数据和业务功能。遏制威胁可以采取缓解措施消除威胁。根除威胁将消除威胁和恶意软件，弥补安全漏洞，并将攻击者驱逐出系统。

恢复安全访问

通过恢复干净、可信的目录和身份服务（如活动目录、Azure Entra ID 和 AWS IAM），验证员工能否安全地访问关键系统和数据。

活动目录（AD）的问题可不只是用户无法登录工作站或访问电子邮件这么简单。当活动目录出现故障时，关键的基础设施无法上线，应用程序无法启动，业务也会陷入停滞。当基于云的身份与访问管理（Cloud IAM）遭到破坏时，复杂的角色和权限设置会进一步阻碍恢复进程。

建立安全通信

利用 Microsoft 365 (M365) 和 Google Workspace 等服务提供安全的电子邮件、信息传递、日历和文档协作。这应被视为主要通信方式之外的辅助通信形式。

电子邮件和协作工具对现代企业至关重要，可让团队随时随地协同工作。当这些服务瘫痪时，生产力就会大幅下降。安全通信可防止窃听和多种攻击载体。如果 M365 遭到破坏，不良分子就会以各种方式访问它，因此一个辅助的安全通信渠道至关重要。

重建基础设施

快速恢复重要的 IT 基础设施和应用程序的运行状态。

恢复应用程序意味着重建每个分布式组件以及底层基础架构。这样做可以快速、干净利落地恢复关键和核心功能。

恢复数据

有效恢复干净、可信的数据，最大限度地减少中断造成的影响。

数据是现代企业的命脉。在许多情况下，可靠地访问数据是企业最基本运作的必要条件。网络攻击或安全事故发生后，恢复干净的数据对于恢复运营、避免服务中断和降低再感染风险至关重要。

建议做法

实现最低可行状态的建议做法

1.空中封闭副本
在至少一个空气屏蔽的cloud 环境中保存不可变、不可篡改的关键数据副本。

网络攻击通常以备份环境为目标，传播恶意代码并阻止轻松恢复。一旦被攻破，这些网络中的所有数据都将面临高风险。不可变和空气屏蔽的副本通常是恢复的最后一道防线。

2.频繁测试
除了核对表和模拟之外，还要对应用程序、基础设施和数据进行自动化的网络恢复操作测试，以满足最低可行性的要求。网络恢复是一个复杂、资源繁重的过程，会影响所有 IT 运营。

要做好应对漏洞的准备，必须大规模测试流程，找出差距和风险，调整计划，并重复进行。这包括测试事件响应计划、灾难恢复计划和网络恢复计划，以及参加桌面演习。

3.最后已知良好
建立并测试实践、流程和自动化，以验证关键应用程序、基础设施和数据的干净恢复点。发生漏洞后，恢复干净的数据至关重要。每一分钟的停机时间都可能造成数千美元的损失，因此再次感染对企业来说可能是灾难性的。快速准确地识别和恢复干净数据可将影响降至最低，并有助于在发生不可挽回的损失之前恢复运营。

4.隔离取证
自动化恢复流程，以进行快速、隔离取证，包括关键安全和网络恢复工具的访问和可用性。

取证对于了解安全事件、减轻损害或防止其再次发生至关重要。隔离这些取证环境可以进行深入分析，而不会有再次感染或横向移动的风险。它还能释放生产环境，使其能够并行恢复、重建和快速恢复操作。

5.加固基础设施
通过减少漏洞、最小化攻击面和提高抵御网络威胁的能力，加强整体安全性。

经过加固的基础设施可保护敏感数据，确保系统稳定，并最大限度地降低可能导致代价高昂的停机和声誉受损的漏洞风险。

6.隔离恢复环境（IRE）/cleanroom
作为企业的安全网，提供一个受控、安全的空间来恢复运行和系统，避免进一步污染的风险，并为取证提供一个受控环境。

如果公司的网络受到恶意软件或勒索软件的攻击，IRE 仍可免受这些攻击。这样，公司就可以安全地恢复系统和数据。cleanroom 是一个受控环境，在这里可以安全地分析、清洁和恢复受感染的系统，然后再将其重新引入网络。

您可能不需要在每次事故中都采取所有步骤，但了解并实践这些步骤非常重要。我们的 "准备差距 "调查显示，在超过一半的报告事件中，网络恢复计划被部分援用。

网络恢复需要全面恢复与部分恢复

62%

只需调用部分恢复计划的事件百分比。

38%

需要全面恢复的事件百分比。

我们如何提供帮助

我们如何帮助客户实现最低可行状态

Commvault 提供的功能可帮助企业尽快达到最低可行状态，并实现进一步的发展。这些功能包括：

AD 变化分析和林级别恢复

有助于在快速建立最低可行状态所需的规模下，对活动目录（AD）进行可靠的恢复。活动目录的自动化林级别恢复消除了复杂性和人为错误带来的风险，并加快了关键身份和访问管理服务恢复在线状态的速度。这意味着关键任务基础设施和应用程序能够恢复上线，用户和客户可以访问相关服务，并且企业能够恢复和重启运营

Commvault 提供活动目录（AD）的自动化林级别恢复功能，其中包括自动生成自定义运行手册，并且操作简便，只需点击几下，就能在几分钟或几小时内恢复复杂的活动目录环境，而无需耗时数周。

洁净室恢复和 Air Gap Protect

通过自动化实现向云端安全且隔离的位置进行按需恢复，用于测试、开展取证工作，以及直接从基于云的不可变且无法删除的存储中进行初始生产恢复。

洁净室恢复允许持续测试和改进网络恢复流程，有助于在隔离的云环境中对关键应用程序进行可靠的恢复。利用云的弹性扩展能力来存储数据、演练恢复操作，并进行隔离的取证分析，以调查和修复威胁。

云规模的恢复

利用云技术（也包括本地环境）来快速恢复大型数据集。在遭受网络攻击后恢复关键数据需要一系列复杂且繁琐的操作。然而，现代云技术 - 从基于微服务的并行特性到无服务器架构的规模优势 - 可以帮助简化大规模的恢复流程，使企业能够快速且可靠地恢复在线运营。

Commvault 提供自动化的、具备云规模的恢复能力。从利用无服务器功能在云数据存储中恢复数十亿个对象，到使用容器化微服务为本地恢复带来类似云的速度和规模，Commvault 为客户提供云规模的恢复方案，以实现大规模、可靠且快速的恢复。

恢复即代码

自动重建云应用程序和基础设施堆栈（网络、DNS、计算），加快恢复到最低可行性状态。

Commvault Cloud Rewind 会持续发现基于云的应用程序工作负载，自动映射相关的网络和安全依赖关系，并在一个隔离且物理隔绝的环境中对所有这些进行保护。将应用程序堆栈回滚到出现安全漏洞或配置错误之前的某个时间点，通过 “恢复即代码” 的方式重建环境，这种方式能够轻松集成到云运维（CloudOps）流程或持续集成 / 持续交付（CI/CD）管道中。