云允许灾难恢复成为一个非常快速的过程,减少了所遭受的宕机时间。它还提供了多种策略的灵活性,这些策略可以部署以满足用户或客户对成本和可容忍宕机时间的要求。
任何 DR 策略都需确定
-
RTO(恢复时间目标): 可以接受多少宕机时间?
-
RPO(恢复点目标):
可以接受多少数据丢失?
在本文中,我们将介绍 4 种常见的灾难恢复策略,这些策略可以根据业务的 RPO 和 RTO 在云中使用。
1. 备份和恢复
-
备份和恢复是可以部署的最简单方法。使用这种方法,数据和系统会被备份,并在需要恢复时重新部署。您可以使用 CloudFormation、Terraform 或 AWS CDK(代码开发工具包)等工具来实施这种方法。
-
您将定期对数据进行快照或备份,并将其存储在亚马逊 S3 等持久位置。但是,这是最慢和最基本的恢复方法,所以也是最便宜的。
典型的,
RTO: 几小时到几天
RPO: 可以从几小时到最后一次成功备份的范围
2. 预热
-
预热策略在成本效益和可靠性之间提供了更好的平衡。使用这种方法,您将在云中与实际生产环境同时运行最关键的系统。
-
例如,如果您在生产中有一个 RDS 主实例,您还会在云中运行一个 RDS 从实例,该实例会复制主实例的数据。这意味着如果主实例失败,您将始终有一个准备好的副本。
-
与备份和恢复相比,这种方法提供了更快的恢复时间,但需要略高的成本和更多的设置时间。
典型的,
RTO: 几分钟到几小时
RPO: 数据同步的频率
3. 温备
-
准备一个部分操作环境,内置最新数据以最大限度地减少恢复期间的停机时间
-
与预热相比,温备提供了更可靠的方法,但也更昂贵。通过温备,您有一个与生产环境完全相同的重复环境随时待命并始终运行,尽管加载最低。
-
如若主要环境使用访问 DynamoDB 数据库的 EC2 实例,那你还会有另一个副本环境同时在另一个区域运行。此备份将是绝对min。如若生产环境有 5 个 EC2 实例,则备份环境将有 1 个。但若生产环境失败,备份环境应能立即扩展。
-
对要求快速 RTO 但仍希望节省资金的业务关键型解决方案,温备是不错选择。
典型的,
RTO: 几分钟到几小时
RPO: 在过去几分钟或几小时内
4. 热站点/多站点
-
与主系统并行运行完全冗余的活动生产环境,确保业务连续运营
-
此方法创建环境的完全一对一复制。与温备不同,备份环境的运行与您的生产环境完全相同,这使得这种方法非常昂贵。
-
但是,这将确保如果您的生产环境关闭,几乎不会中断,因为不存在由于自动扩展的启动时间而导致的延迟。此方法仅应用于那些甚至不能停机一秒钟的最关键系统。
典型的,
RTO: 几乎为零或几分钟
RPO: 非常小,通常在过去几秒钟内