以下文章来源于暖通建筑 ,作者丛林
数据中心是用于大规模存储、管理和分发数据的场所,核心设备有服务器、存储系统、网络交换机等,以满足大规模数据处理和存储的需求。
1)数据中心需要可靠的电力供应,确保设备持续运行,一般配备冗余的电力系统;
2)需要良好的冷却系统,防止设备因过热而损坏,维持适宜的工作温度;
3)需要高速稳定的网络连接,以便数据的传输和访问;
4)需要完善的安全措施,包括物理安全(如门禁、监控)、网络安全(如防火墙、入侵检测)及
消防安全(如灭火系统、事故通风系统)
,以确保数据的安全。
数字时代,数据中心的底座作用毋庸置疑,而包括火灾在内的事故严重威胁数据中心安全,将造成巨大的损失。
数据中心在现代信息技术中起着至关重要的作用,可为企业、政府机构及组织机构提供很大帮助,比如:
1)安全地保存各种类型的数据,如文件、数据库、图像和视频;
2)进行大规模的数据计算、分析和处理,支持业务决策和科学研究;
4)作为网络的核心节点,提供高速的数据传输和网络连接。
在可以预见的未来,数据中心集群必将成为一个国家的战略基础设施之一,在国民经济的运转中不可或缺。
数字全球化,遍布世界各地的数据中心就是这个全球化网络的神经中枢,真正的“牵一发而动全身。”
一个数据中心发生事,故其影响范围之大、后果之严重超乎想象。
以下是近年来几场比较严重的数据中心火灾爆炸事故及其影响:
2
024年9月10日,阿里新加坡数据中心机房发生火灾,这场火灾不仅波及阿里云和字节跳动的服务器,还殃及了Digital Ocean、Coolify及Cloudflare等多家服务商,导致服务宕机或降级,影响范围广泛。
初步公布的原因是锂电池爆炸,但爆炸的原因尚未有官方明确结论。
(一般来讲,锂电池如果长期处于高湿度的环境中,水分有可能渗入电池内部。水分与电池内部的电解质等物质发生反应,会产生气体和热量,可能引发电池的短路和爆炸,因此数据中心蓄电池室的湿度控制很重要。)
2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,导致多个地区的谷歌地图、谷歌搜索出现中断服务情况,
该事故响了全球40多个国家/地区的至少1338台服务器。
2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,火灾后数据中心断电
造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断,导致了约3.2万个服务器瘫痪,数千万用户服务受到影响。
2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心发生火灾。该火灾导致
超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。
2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,
导致约360个法国政府、企业与公共事业网站瘫痪,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁且无法恢复。
通常,数据中心作为一个建筑单体或某一建筑中的一部分,一个数据中心通常主要包括主机房、辅助区、支持区和行政管理区等。
1)
数据中心主机房
主要是用于电子信息处理、存储、交换和传输设备的安装和运行的建筑空间,包括服务器机房、网络机房、存储机房等功能区域。
在数据中心中,主机房一般安排在中间位置,并且尽量使主机房设计为规整的四方形。应尽量避免采用圆形、L形以及过于狭长的长方形建筑,此类数据中心不利于机房内的设备布置以及冷却系统气流组织分配。
2)
辅助区
是用于电子信息设备和软件的安装、调试、维护、运行监控和管理的场所,包括进线间、测试机房、监控中心、备件库、打印室、维修室等区域。
3)
支持区
是支持并保障完成信息处理过程和必要的技术作业的场所,包括变配电室、柴油发电机房、UPS室、电池室、空调机房、动力站房、消防设施用房、消防和安防控制室等。
4)
行政管理区
是用于日常行政管理及客户对托管设备进行管理的场所,包括工作人员办公室、门厅、值班室、盥洗室、更衣间和用户工作室等。
随着数字化时代的发展,特别是近年来AI技术的兴起,数据中心建筑的规模和重要性不断增加,逐渐成为推动经济发展和科技创新的关键基础设施之一。
自网络服务器诞生以来,散热一直是一个难以突破的技术瓶颈,而随着数据存储与处理技术的发展,特别是人类进入AI时代以来,算力就是生产力,数据就是金钱,因此需要规模庞大的服务器群,需要消耗天量的电力,这些电力最终都需要转换成了热能。
常见的服务器主要依靠的是通过冷空气进行制冷的手段,但是随着超级计算机的发展,芯片的集成度以及算力的不断提高,能耗也不断增加,散热问题愈发亟待解决。
常规的风冷系统已经不足以满足目前的散热需求,甚至散热问题已经制约了服务器和数据中心的发展。
传统的风冷散热方式是直接移热方式,依靠单相流体的对流换热方法和强制风冷方法只能用于热流密度不大于10W/cm2的电子器件,对于热流密度大于10W/cm2的电子器件就显得无能为力。
CPU芯片的发热量已由几年前的1x10w5/m2左右猛增到现在的1x106/ m2左右。
如果散热不良,产生的过高温度不仅会降低芯片的工作稳定性,增加出错率,同时还会因为模块内部与外部环境间过大的温差而产生过大的热应力,影响芯片的电性能、工作频率、机械强度及可靠性。
研究和实际应用表明,电子器件的故障发生率是随工作温度的提高而呈指数关系增长的,单个半导体器件的温度每升高10℃,系统的可靠性将降低50%。
由于高温会对电子器件的性能产生非常有害的影响,例如高温会危及半导体的节点,损伤电路的连接界面,增加导体的阻值和形成机械应力的损伤。因此,液体冷却服务器应运而生。
数据中心的散热形式从房间级到行级到机柜级再到芯片级,其目的是缩小冷热源的距离,尽可能减少输送能耗,最大可能地提高散热效率。随着数据中心机柜功率的不断提升,其制冷方式也随之发生一些变化。
1.2kW/机柜以下,超低密度数据中心,房间级-风冷
1.2-2.7kW/机柜,低密度数据中心,房间级-风冷
2.7-7.5kW/机柜,中、低密度数据中心,行级-风冷/水冷
7.5-18kW/机柜,中、高密度数据中心,行级-水冷;液冷-冷板式
18-30kW/机柜,高密度数据中心,液冷-冷板式:液冷-浸没式
在笔者看来,数据中心在未来必然是向着超大规模、超级分布式发展,因为随着
各行各业数字化转型需要、云计算服务的普及、AI的发展及大数据的应用、万物互联等等,每时每刻都需要处理海量的数据。这就需要建设规模更大、数量更多的数据中心来满足算力需求。
在数字时代,数据中心越来越成为人类社会必须的基础设施,也将会和道路桥梁一样,
成为一个国家战略投资的重心之一。
全部回复(0 )
只看楼主 我来说两句抢沙发