最低可行状态的终极指南
深入了解最低可行状态的概念,以及我们的解决方案如何在您旅程的每个阶段发挥作用。

概述
本指南涵盖哪些内容
最糟糕的情况发生了。您的企业遭受了灾难或网络攻击。您的数据和应用程序被清除。现在该怎么办?至少需要恢复到什么程度,才能维持业务的正常运转,接受订单和/或满足业务的基本需求?如何实现?

阅读全部内容:
- 为什么需要最低可行状态
- 制定恢复和恢复计划
- 最低可行状态的恢复工作流程
- 最低可行状态的推荐实践
- Commvault 如何帮助客户实现最低可行状态
为什么要实现最低可行状态?
为什么要实现最低可行状态?
网络攻击的增多迫使企业重新思考其恢复策略。虽然检测威胁仍然至关重要,但一个更严峻的挑战已经出现:确保受保护数据的清洁和可用性,并且能够让公司恢复正常运营。
随着攻击者有策略地渗入系统、长时间不被发现并造成大范围的重复破坏,安全和 IT 团队已开始专注于采用先进的方法,以最大限度地减少停机对其最重要的关键业务资产的影响。
最低可行状态,有时也称为 "最低可行性企业" - 指的是对那些最为关键的资产有深入的了解,并且清楚在遭受网络攻击或发生网络安全事件后,需要采取哪些措施才能让这些资产恢复运行。
制定计划
制定最低可行状态的计划
制定最小可行性计划要在攻击发生之前就开始。从高层次上讲,这些做法涉及确定最小可行性计划对企业的意义,以及在发生攻击时如何实现最小可行性:
对核心流程和依赖系统进行准确和统一的查看
这些系统需要最大限度地减少停机时间,以便企业能够在中断最少的情况下恢复执行其任务(例如,照顾病人、服务市民、教育学生、支持客户等)。
企业通常按照业务的优先级对应用程序和服务进行分级。例如,ServiceNow 的业务连续性管理模式将应用程序分类为
关键业务
没有这些(如活动目录、订单管理系统),什么都做不了。
关键任务
需要全面恢复电子邮件和会计业务。
非关键
所有其他系统。
美国国家标准与技术研究院(NIST)提供了一个业务影响分析模板,以帮助进行规划。
了解这些核心资源的停机成本
这通常以每分钟/小时/天的成本、客户忠诚度、患者护理、品牌影响、监管罚款等来衡量。企业管理协会(Enterprise Management Associates)2024 年的一份报告指出,停机的平均成本为每分钟 14,056 美元。
恢复关键系统、数据和流程的清晰可行计划
这包括关注网络弹性和恢复,从而保持连续性和信任。重点关注谁做什么以及团队如何协同工作。
请注意,不能依靠灾难恢复计划来弥补网络攻击造成的损失。在我们的 "就绪差距:为什么网络恢复需要一种不同于灾难恢复的方法" 报告中,我们调查了 500 位 IT 和安全领导者,以了解企业如何处理灾难恢复与网络恢复,92% 的受访者表示他们遭受过明确针对备份的攻击。
71% 的受访者表示,这类攻击占所有攻击的一半或更多。这种情况以及其他因素使得网络恢复变得更加复杂。
是什么增加了网络恢复的难度?
68%
涉及不同的流程和工作流
68%
涉及不同的技术和功能
58%
涉及不同的人员和技能组合
54%
更复杂
网络恢复的难度有多大?
技术更加复杂
(N: 340)很难找到并留住技术熟练的员工
(N: 289)过程和工作流程更加困难
(N: 342)服务级别协议更难以达成
(N: 226)
以网络弹性为重点,实现最小可行性计划的实践能力
光有计划是不够的。正如迈克-泰森(Mike Tyson)的名言:"每个人都有一个计划,直到他们的嘴巴被打了一拳"。
作为最小可行性计划的一部分,企业必须具备自动化、测试、审计和持续改进快速恢复的能力,以确认他们已准备好在面对不断变化的威胁时保持弹性。这可以是桌面演练、模拟以及对相关技术的实际测试,以便了解最坏情况发生时的预期。
对威胁进行补救并清除后门,可防止进一步的破坏
还可防止坏人重新进入环境,从而在不中断的情况下进行干净的恢复操作。
如果在恢复后不进行适当的威胁修复、威胁扫描和一段时间的可观察性,恢复之前的状态意味着您的系统可能会再次被利用。必须对数据进行检查,并清除应用程序中的潜在后门和漏洞,因为这些后门和漏洞可能会让攻击者在您认为已经恢复的情况下再次入侵。
网络恢复为何比传统灾难恢复更具挑战性
需要花费大量的时间和精力进行取证分析,以确定感染的全部范围。
在没有建立洁净室环境的情况下进行恢复,会造成再次感染的重大风险。
在网络安全事件发生后仓促进行恢复,往往会破坏有关攻击实施方式的证据,从而使企业处于易受攻击的境地。
下一代网络恢复架构
可实现加密、不变性/不可扩展性、加固、任意对任意的可移植性和动态扩展,从而提高整体灵活性。
如今,当停机的成本(包括经济成本和声誉成本)非常高昂时,建立一个强有力的最小可行性计划尤为重要。
修复工作流程
恢复最低可行状态的工作流程
在《就绪差距报告》中,2.3 倍的受访者表示网络恢复流程和工作流比灾难恢复更困难,近 2 倍的受访者表示 SLA 更难满足。最低可行状态是更广泛的事件响应和网络恢复流程的一部分,那么如何克服这些挑战呢?这套最低可行状态的工作流程可以提供帮助:
对威胁的补救措施
在限制传播和保存证据的同时,将损失降到最低。识别威胁可让您评估范围、受影响的系统、数据和业务功能。遏制威胁可以采取缓解措施消除威胁。根除威胁将消除威胁和恶意软件,弥补安全漏洞,并将攻击者驱逐出系统。
恢复安全访问
通过恢复干净、可信的目录和身份服务(如活动目录、Azure Entra ID 和 AWS IAM),验证员工能否安全地访问关键系统和数据。
活动目录(AD)的问题可不只是用户无法登录工作站或访问电子邮件这么简单。当活动目录出现故障时,关键的基础设施无法上线,应用程序无法启动,业务也会陷入停滞。当基于云的身份与访问管理(Cloud IAM)遭到破坏时,复杂的角色和权限设置会进一步阻碍恢复进程。
建立安全通信
利用 Microsoft 365 (M365) 和 Google Workspace 等服务提供安全的电子邮件、信息传递、日历和文档协作。这应被视为主要通信方式之外的辅助通信形式。
电子邮件和协作工具对现代企业至关重要,可让团队随时随地协同工作。当这些服务瘫痪时,生产力就会大幅下降。安全通信可防止窃听和多种攻击载体。如果 M365 遭到破坏,不良分子就会以各种方式访问它,因此一个辅助的安全通信渠道至关重要。
重建基础设施
快速恢复重要的 IT 基础设施和应用程序的运行状态。
恢复应用程序意味着重建每个分布式组件以及底层基础架构。这样做可以快速、干净利落地恢复关键和核心功能。
恢复数据
有效恢复干净、可信的数据,最大限度地减少中断造成的影响。
数据是现代企业的命脉。在许多情况下,可靠地访问数据是企业最基本运作的必要条件。网络攻击或安全事故发生后,恢复干净的数据对于恢复运营、避免服务中断和降低再感染风险至关重要。
建议做法
实现最低可行状态的建议做法
1. 气隙隔离副本
在至少一个气隙隔离的云环境中保存关键数据的不可变且不可删除的副本。
网络攻击常常以备份环境为目标,以便传播恶意代码并阻碍数据的轻松恢复。一旦备份环境遭到破坏,这些网络中的所有数据都将面临极高的风险。不可变且气隙隔离的副本通常是数据恢复的最后一道防线。
2.频繁测试
超越清单式检查和模拟操作,针对实现最低可行状态所需的应用程序、基础设施和数据,对网络运营恢复测试进行自动化处理。网络恢复是一个复杂且资源密集型的过程,它会影响到所有的信息技术(IT)运营。
应对网络安全漏洞,你必须大规模地测试这一过程,找出其中的漏洞和风险,调整计划,然后再重复进行测试。这包括测试事件响应计划、灾难恢复计划和网络恢复计划,以及参与桌面推演。
3.最后已知的良好
建立并测试相关的实践方法、流程和自动化操作,以验证关键应用程序、基础设施和数据的可靠恢复点。在遭受网络攻击后,恢复可靠的数据至关重要。停机的每一分钟都可能造成数千美元的损失,因此再次感染对企业而言可能是灾难性的。快速且准确地识别并恢复可靠的数据,能够将影响降至最低,并有助于在造成无法挽回的损失之前恢复运营。
4.隔离取证
自动执行快速隔离取证的恢复流程,包括关键安全和网络恢复工具的访问和可用性。
取证工作对于了解安全事件、减轻损害或防止其再次发生至关重要。将这些取证环境隔离开来,能够进行深入分析,而不会有再次感染或横向扩散的风险。这还能让生产环境腾出手来进行恢复、重建,并同时快速恢复运营。
5.加固的基础架构
通过减少漏洞、最小化攻击面和提高抵御网络威胁的能力来加强整体安全性。
加固的基础架构可保护敏感数据,实现系统稳定,并最大限度地降低可能导致代价高昂的停机和声誉受损的漏洞风险。
6.隔离恢复环境 (IRE)/洁净室恢复
可作为企业的安全网,提供一个可控且安全的空间,以便在没有进一步污染风险的情况下恢复运营和系统,同时为取证工作提供一个可控的环境。
如果公司的网络受到恶意软件或勒索软件的破坏,隔离恢复环境仍可免受这些攻击。这样,公司就可以安全地恢复系统和数据。洁净室是一个可控环境,受感染的系统可以在这里进行安全分析、清洁和恢复,然后再重新接入网络。
您可能不需要针对每起事件采取所有步骤,但了解并实践这些步骤非常重要。我们的 "就绪差距" 调查显示,在超过一半的已报告安全事件中,网络恢复计划都只是得到了部分执行。
网络恢复需要全面恢复与部分恢复
只需调用部分恢复计划的事件百分比。
需要全面恢复的事件百分比。
我们如何提供帮助
我们如何帮助客户实现最低可行状态
Commvault 提供的功能可帮助企业尽快达到最低可行状态,并实现进一步的发展。这些功能包括:
AD 变化分析和林级别恢复
有助于在快速建立最低可行状态所需的规模下,对活动目录(AD)进行可靠的恢复。活动目录的自动化林级别恢复消除了复杂性和人为错误带来的风险,并加快了关键身份和访问管理服务恢复在线状态的速度。这意味着关键任务基础设施和应用程序能够恢复上线,用户和客户可以访问相关服务,并且企业能够恢复和重启运营
Commvault 提供活动目录(AD)的自动化林级别恢复功能,其中包括自动生成自定义运行手册,并且操作简便,只需点击几下,就能在几分钟或几小时内恢复复杂的活动目录环境,而无需耗时数周。
洁净室恢复和 Air Gap Protect
通过自动化实现向云端安全且隔离的位置进行按需恢复,用于测试、开展取证工作,以及直接从基于云的不可变且无法删除的存储中进行初始生产恢复。
洁净室恢复允许持续测试和改进网络恢复流程,有助于在隔离的云环境中对关键应用程序进行可靠的恢复。利用云的弹性扩展能力来存储数据、演练恢复操作,并进行隔离的取证分析,以调查和修复威胁。
云规模的恢复
利用云技术(也包括本地环境)来快速恢复大型数据集。在遭受网络攻击后恢复关键数据需要一系列复杂且繁琐的操作。然而,现代云技术 - 从基于微服务的并行特性到无服务器架构的规模优势 - 可以帮助简化大规模的恢复流程,使企业能够快速且可靠地恢复在线运营。
Commvault 提供自动化的、具备云规模的恢复能力。从利用无服务器功能在云数据存储中恢复数十亿个对象,到使用容器化微服务为本地恢复带来类似云的速度和规模,Commvault 为客户提供云规模的恢复方案,以实现大规模、可靠且快速的恢复。
恢复即代码
自动重建云应用程序和基础设施堆栈(网络、DNS、计算),加快恢复到最低可行性状态。
Commvault Cloud Rewind 会持续发现基于云的应用程序工作负载,自动映射相关的网络和安全依赖关系,并在一个隔离且物理隔绝的环境中对所有这些进行保护。将应用程序堆栈回滚到出现安全漏洞或配置错误之前的某个时间点,通过 “恢复即代码” 的方式重建环境,这种方式能够轻松集成到云运维(CloudOps)流程或持续集成 / 持续交付(CI/CD)管道中。
快速恢复人工智能工作负载
数据存在于诸如亚马逊 S3 以及基于 S3 的数据湖这样的对象存储中。这种存储方式需要一套全新的保护和恢复功能,以应对所需的存储规模。恢复数十亿个对象,并且还要帮助验证所有对象都已正确恢复且与之前的某个时间点相关联,这是一系列复杂且计算量极大的操作。
Commvault 的 Clumio Backtrack 可为 S3 中的新兴工作负载提供保护,从而能够准确、可靠地恢复数十亿个对象,并以必要的速度迅速将可行性降至最低。
通过资源发现和映射实现云的安全性
要找到您的企业所使用的数百甚至数千个云资源,其中包括无服务器和容器化计算、非关系型(NoSQL)数据库、机器学习和人工智能服务、虚拟网络等等。未受保护的云资源、依赖关系以及配置会延长在出现故障或遭受攻击后恢复关键云基础设施的时间 - 而通过自动化的云资源发现、映射以及配置保护,这种风险是可以避免的
最低可行状态
结论
对于任何企业来说,在遭受网络攻击后,识别并恢复到最低可行状态对于快速恢复和维持基本运营至关重要。拥有正确的工作流程并遵循最佳实践是成功的关键。
Commvault 解决方案
了解 Commvault 如何保护数据免受未来的威胁
Commvault 的全面解决方案,从目录变更分析到洁净室恢复和 Cloud Rewind,提供了帮助实现这一目标的必要工具。通过实施这些功能,企业可以增强其恢复能力,最大限度地减少停机时间,并有效保护其关键资产。

洁净室恢复和气隙技术

Cloud Rewind
