如何管理超大规模数据中心？

发布于：2024-09-19 14:49:19 来自：电气工程/电气资料库 [复制转发]

数据中心扩大规模时，大多数团队会寻求这样一种管理控制台：能够提供一种直观、全面的视图，从而简化日常的管理任务。IT团队在管理超大规模的数据中心时，还学会了寻找这样一种控制台：可以调用如今的数据中心平台带来的细粒度数据。这包括每一个服务器、机架或整屋子计算设备的实时用电情况和温度。

第一个经验：别忽视了“小”数据。

整合能源管理中间件的管理控制台可以把这些数据中心的数据点聚合到一览无遗的热相图和电力图，并将用于趋势分析和容量规划的所有数据记入日志。之后可以充分利用这些数据，用于各种削减成本的实践。比如说，数据中心的团队可以根据实际的耗电情况，更高效地配置机架。要是不了解实时模式，数据中心团队就只好依赖电源额定功率和静态的实验室测试。

一种示例性的使用场合表明了实时监控与静态计算之间的重大区别。配置4000瓦电量的机架时，传统的计算方法导致数据中心团队为每个机架安装大约10台服务器。(在这个例子中，服务器电源额定功率为650瓦，实验室测试表明400瓦对预期的配置而言是个稳妥的数值。)

同样这个团队对耗电量执行实时监控后发现，服务器的用电量很少超过250瓦。了解这个情况后，团队将为机架配置的服务器数量增加到16台，计算容量增加了 60%。万一任何某一个机架中的服务器带来的需求让总耗电量超过机架阈值，以免造成破坏，数据中心团队同时为每个机架采取了保护性的电量封顶，这会在下面的第五个经验中作更详细的解释。

第二个经验：消除幽灵服务器。

一旦数据中心团队有能力监控实时耗电情况，评估工作负载在整个数据中心的分配状况就成了一项简单的工作。很容易发现通常未得到充分利用的服务器和机架。经过一段时间后，数据中心管理人员就能确定可以合并或精简哪些服务器。幽灵服务器是上了电但处于闲置状态的系统，可以让它们处于节省电力的睡眠模式。可以采取诸如此类的节能措施，避免能源浪费，因而可以缩短用电预算。实际情况表明，如果处理好幽灵服务器，无论规模大小，普通的数据中心可以将预算缩减15%到20%。

第三个经验：选择软件而不是硬件。

超大规模运营常常横跨分布在不同地区的多个数据中心，这样一来远程管理显得至关重要，以确保服务的日常连续性。当前的全球经济气候让许多企业和机构面临同样的情形，IT部门在设法高效地管理多个站点，又不必将人手增加一倍，或将时间浪费在奔波于多个地方。

远程键盘、视频和鼠标(KVM)技术在过去几十年有了长足发展，可帮助IT部门与时俱进，但硬件KVM解决方案因而变得日益复杂起来。为了避免管理管理覆盖系统(management overlay)本身，许多世界上最庞大、最复杂的基础设施的操作人员在采用软件KVM解决方案，最近还在采用虚拟化的KVM解决方案。

即便对普通的数据中心而言，节省的成本也会迅速积少成多。IT团队应该把任何现有的KVM切换器和适配器的成本以及相关的许可费(切换器软件、带内许可证和带外许可证等)加起来。一套典型的硬件KVM切换解决方案其成本通常如下：切换器超过50万美元，切换器软件要12.5万美元，带内和带外节点许可证另外要50万美元。连适配器也有可能超过25万美元。另外，软件KVM解决方案可以避免100多万美元的硬件KVM成本。

第四个经验：适当调高温度。

世界上一些规模最大的数据中心在监控和管理能源及热量模式方面有着多年的丰富经验，它们率先采用了提高环境温度的运营模式。发布的数字表明，将数据中心的环境温度调高1°C，就可以让数据中心电费减少2%。

适当调高数据中心的环境温度后，经常检查局部热点，并实时监控数据中心设备，这一步很重要。一旦有效的监控实时到位，就可以逐步调整工作温度，并且对照预算和容量规划来评估节省了多少成本。

第五个经验：别让你的机架温度过高。

由于企业期望以及要求IT部门识别和避免原本会干扰关键业务运营的故障，已在超大规模数据中心证实切实可行的任何主动管理方法都应该予以评估，看看有没有可能适用于规模较小的数据中心。过高的工作温度会给硬件带来毁灭性后果，所以要密切关注这会给设备正常运行时间和生命周期带来怎样的影响，这点很要紧。

Hadoop 等许多HPC集群添置了冗余和动态负载均衡机制，以便遇到故障后可以顺畅恢复。有助于尽量降低超大规模能源需求的同一套基本的监控、警报和自动化控制机制也能帮助规模较小的数据中心识别和消除局部热点;而从长远来看，局部热点会给设备的健康状况带来不利影响。电源和温度方面采取统一的做法还有助于在数据中心保持更一致的环境，这最终可以避免损坏设备的温度突增和电力尖峰。

除了环境控制外，IT团队还可以充分利用最前沿的能源管理解决方案，它们提供了电力封顶功能。如果设置电力阈值，就能随心所欲地配置机架，又不用担心电力尖峰这个风险。在一些地区，电力封顶对保护数据中心避免有干扰、不可靠的电源起到了重要的作用。

向前看齐

幸好，大多数数据中心在相比超大数据中心和超大规模计算环境风险低得多的规模下运行。不过，任何规模的数据中心都应该将减少能源成本、避免服务中断视作一个优先事项。如果采用成熟可靠的方法，并充分利用整个数据中心中的所有实时数据，IT和设施部门就可以效仿超大规模数据中心，只需要投入比较少的前期成本和精力，就能获得重大回报。

-END-

未经授权，禁止转载。公众号：数据中心基础设施运营管理

管理