中国联通河南分公司基于AI和大数据技术,针对数据中心的冷冻水制冷系统进行优化,重点解决数据中心高PUE、高能耗的问题,并结合实际情况制定了相应的优化方案。
1.1数据中心能耗分析
网络演进和数据业务的快速发展带动数据产业的快速发展,使数据中心的规模越来越大,消耗的电能也越来越多,用电问题已成为制约数据中心业务发展的瓶颈。以中原数据基地二期为例,10年的生命周期内,用电成本约占数据中心整体运行成本的60%以上。
将用电成本进行整体分析,在非IT的能耗中,约有63%的损耗是制冷系统造成的。因此如何有效降低制冷系统的损耗,是降低数据中心整体能耗的关键。
1.2能效指标PUE
为评估数据中心的能效,Green Grid(绿格组织)提出了指标PUE(Power Usage Effec
tiveness)来综合考察数据中心的用能效率。目前PUE已经成为事实上衡量数据中心能效的KPI。根据Green Grid的定义,数据中心电能效率被定义为总设施耗电与IT 设备耗电的比值:
PUE=数据中心输入总功耗/IT设备功耗
在数据中心能耗结构中,IT设备功耗与制冷能耗是大户,根据数据中心设备的散热要求,IT设备消耗的电力最终转化为热量,需要通过冷量来均衡,使环境温度达到IT设备工作的要求范围。在IT设备能耗一定的情况下,制冷设备的能耗是可以通过制冷系统的优化来达到节能目的。
1.3制冷系统运行现状分析
冷冻机、水泵和冷却塔风机作为机械部件,实际上都存在设备本身的“自然曲线--最佳效率曲线”。虽然冷冻站的冷冻机、水泵和冷却塔设备采用主流厂家生产的高效率产品,但严格意义上来说,这些高效率只是对应了设计图纸上的“静态”点,而实际空调系统是随着外部气象条件和内部负荷动态变化的系统,目前的BMS(Building Management System)系统仅停留在单体设备的控制或采集及监测数据上,冷冻站缺少一套“聪明”的能耗优化控制系统,而BMS系统并不能使设备在变化负荷情况下,让设备“跑”在其固有的最佳效率曲线上,即“自然曲线”。
如何让冷机系统的各部件工作在最佳效率曲线上,并且使得由设备组成的系统能够工作在最佳的能耗点上,需要将整个系统进行联合,综合考虑能耗最优的控制方法。
数据中心PUE是一个综合的评价指标,由于制冷与设备散热、设备配置、机房环境,大气条件相互关联,在运维达到一定的成熟度后,人力或者专家的经验已经无法满足能耗进一步降低的要求,比如冷通道温度的较小提升都会导致制冷系统的很多变化,如冷机、冷却塔、换热器、水泵等的功耗都将增减不定,且非线性变化,其结果很可能是冷通道温度提升而总功耗增加。
为进一步优化系统工作状态与能耗的关系,在制冷系统中,需要考虑两个层面的优化,一个是设备工作状态与能耗的优化,一个是设备组成的系统间的优化。在业务层面,需要解决下面三个问题:
1)根据设备工作自然曲线,确保制冷系统的各部件运行在高效区间内;
2)据相等边际效能原则,找出制冷系统内各个部件的最佳组合。例如同样输出1000KW冷量,冷却塔、冷却泵、冷机,冷冻泵各自的频率应当是多少?哪种组合更节能?在某种状态下,是否可以给某个设备减少1KW的功率而把这1KW的功率转移至其它设备,但系统总冷量输出会增加?
3)IT负载与制冷系统进行关联,实现热量需求与冷量供给的均衡。
制冷和电气系统之间的相互作用和各种复杂反馈回路,使得我们使用传统的工程公式难以准确推导数据中心的效率。
AI节能原理
2.1制冷系统AI算法原理
基于相等边际效能的按需控制,可以满足部分场景的控制需求,但由于BMS系统在进行控制时,往往事先写入曲线、逻辑控制策略,而对于变化的场景,特别是对于IT负载变化的场景,此类控制系统往往无法感知,因此,在实际的控制过程中,往往只能在特定的负载区间变现出一定的调试性能,当进入到实际工作中,整个数据中心的效能往往无法保障最优。
针对此类系统,需要找到一种新的控制算法,来达成整体最优。大数据、人工智能成为能效优化的一个探索方向。使用历史数据训练神经网络,输出预测的PUE,以及PUE与各类特征数据的关系,指导DC根据当前气象、负载工况,按预期进行对应的优化控制,实现节能目标:
AI节能的主要步骤:
1)首先通过机器深度学习,获取PUE的预测模型。
2)基于PUE的预测模型,获取与PUE敏感的特征值,利用特征值,进行业务训练、给出业务的预测模型。主要是保障业务运行的SLA,如冷量的保障等。
3)最后,利用系统可调整的参数作为输入,将PUE预测模型,业务预测模型作为约束,利用寻优算法,获取调优参数组,下发到控制系统,实现制冷系统的控制。
2.2构建深度神经网络DNN
神经网络是一类机器学习算法,它模拟神经元之间相互作用的认知行为。针对数据中心制冷效率提升瓶颈,采用神经网络,利用机器学习算法可以找到不同设备,不同系统间的参数的关联关系,利用现有的大量传感器数据来建立一个数学模型,理解操作参数之间的关系从而找到最优的参数。
神经网络拥有输入层、输出层以及多个隐含层,输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。
考虑到数据中心制冷系统的复杂性,需要对电系统,制冷系统、环境参数进行系统数据,找到系统的特征值,并利用特征值组织DNN网络。本项目中采用的DNN模型如下:
AI节能步骤
1)数据采集:采集冷冻站、末端空调及IT负载等系统的相关运行参数。
2)数据治理:利用自动化治理工具,对参数进行降维、降噪、清洗等处理。
3)特征工程:对治理完成后的表格进行相关性分析,找出与PUE相关的关键参数。
4)模型训练:利用高质量的数据和DNN(深度神经网络),训练出PUE模型。经过训练的PUE模型,其预测准确率可达99.5%,误差《0.005。
5)推理决策:将预测以及决策模型发布到集控系统中,以在线给出可以调优的决策模型。AI节能方案可在1分钟内,从数十万种组合中找出在当前室外环境、IT负载下的最优参数组合,并能根据中原基地的运维要求进行多层过滤,最后得出最合适的指令,下发执行并反馈效果。
项目实施
1)部署方案
AI节能方案可为冷冻水系统运行提供参数建议,与群控系统互相对接。
在本项目中的AI节能方案部署物理架构如下:
AI节能方案网络架构如下:
此数据中心的群控系统采用DDC控制,主备双服务器;DCIM系统接口为BACnet协议。DCIM(Date Center Infrastructure Management)作为整个数据中心的集中管理系统,可对制冷系统全链路进行集中管理。节能优化指令由AI算法得出后,下发到群控系统,由群控系统负责最终执行。
安全保障
冻站群控系统与AI算法通过心跳进行通讯:冷冻站群控系统每10秒上传0-1000的字符,AI节能算法向冷冻站群控系统每10秒下发0-1000的字符,当冷冻站群控系统连续10次接收字符无变化,则自动退出节能模式,按照普通控制模式运行,并上报通讯故障,待连续10次接收字符不同时,则自动恢复通讯故障,重新按照节能控制模式运行。
普通控制模式:群控系统自动执行所有控制逻辑,包括设备加减、转速调节、制冷模式切换、旁通、充放冷等,由DCIM进行状态信息监控;
节能控制模式:群控系统接受节能算法,下发指令完成指定动作,指令包设备数量、转速/功率/温度/压差等控制环路目标值、制冷模式切换、充放冷控制等,群控系统根据节能算法下发的指令进行动作,未下发控制指令的仍由群控系统自行控制。
效果验证
测量方法采用抽样均值法
Step1:选择测量日
评价周期内选 2 组,n天/组(n ≤ 3)
Step2:测量与记录
开启/暂停AI节能,每组测量日测得2n个PUE值(PUE on和PUE off)
Step3:计算与对比
根据PUE on和PUE off 均值进行计算评估
如下图:
结论
本项技术,已经在河南联通中原数据基地DC1成功应用,通过AI技术对数据中心制冷系统进行了智能优化。通过与BA(Building Automation System)系统、DCIM(Date Center Infrastructure Management)系统的联动,实现了精确的按需制冷。经过连续几个周期的抽样检查,得出以下结论:
冷水机组的进出水温度实现了精确调节。随IT负载的变化,水温也随之变化(当负载率较低时,水温最高可升至18℃-19℃)。
冷水系统各部件均实现了高效运转。尤其是冷水机组,在不同的负载率、室外工况下,其工作状态都能落在40%-60%的负载区间内。
整个制冷系统在输出冷量不变的前提下,进行了内部调节,实现了能效最佳。下图为一次调节前后,制冷系统各部件能耗分布。由于冷机的功耗得到了有效调节,整个冷冻站综合能耗降低了9%。
调节前 调节后
自然冷却时间大大延长。由于水温实现了动态调节,这样在室外湿球温度较高时,也可实现预冷或板换制冷。据估算,每年自然冷却时长可增加1/3左右。
整个制冷系统实现了自动调节,大幅降低了运维难度,节省了大量运维成本。
经评估,部署了AI节能优化算法后,河南联通中原数据基地DC1的PUE有效降低 5%-8%,为企业带来了显著的经济效益和社会效益。