限电情况下的数据中心如何确保稳定运行
根据UptimeInstitute发布的2020年度数据中心掉线调查报告显示,断电在数据中心故障中的地位已经超越人为失误,成为第一大服务中断原因。数据显示,在2020年发生的数据中心故障中,大约有37%与电源有关,22%与软件、系统相关,17%与网络有关,其次则为13%问题来自制冷系统的故障。
应对限电要做好哪些准备
一、做好基础设施准备
做好基础保障系统的冗余,依旧是建设、运维数据中心的必要工作。
双路以上的市电供电,可支持设备运行一定时间的UPS和蓄电池,可连续供电十数个小时或者更长时间的柴发,或者庞大的储能系统,以及蓄冷装置等……还有2N或者更多的冗余。
二、灾备演练加强业务存续能力
完备的硬件并不是万无一失的保证,在日常,应该有规律的在不影响业务环境的情况下进行断电测试,并且进行业务迁移等演练,以备不时之需。
同时要加强对当前系统的了解,数据中心的运维人员必须知道所有设备的资料,每一时刻的耗能情况。一旦断电发生,哪些设备需要优先供电,哪些设备应该放弃等。每一次演练,都需要做完善的记录,对于过程中产生的问题、故障,要有完善的日志和解决方案。
在断电恢复中,设备的启动顺序,以及设备的依赖、连接情况。当众多设备重新加电启动,对于供电系统稳定性的影响等,都要有了解以及预案。
三、做好基础设施日常维护
通过对设备的正确维护和保养,保障机房设备稳定、可靠、节能运行,确保通信设备的运行环境,延长设备的生命周期,降低设备的故障率。
1、数据中心基础设施运维的主要任务:
(1)维护机房设施,延长设备的使用周期。
(2)改造机房设施,适应各种需求。
(3)合理运行设施,降低运营成本。
(4)保证各类运行设备设施的电气性能、机械性能、维护技术指标符合标准。
(5)加强运行设备维护管理,做好预防性维护,保证设备稳定、可靠地运行。
(6)及时排除安全隐患,防止重大安全事故的发生。
(7)完善应急保障方案,减少故障率。
(8)积极采用新技术,改进维护方法,提高工作效率。
(9)合理调整系统配置,提高效率,延长各类设备使用寿命。
(10)加强用电管理,降低能耗,节约运行维护费用。
(11)保持设备和环境整洁。
2、电气配电系统维护
▲低压配电系统维护工作内容如下:
(1)人工倒换备用电源设备时,必须遵守有关技术规定,严防人为差错。
(2)要定期试验信号继电器的动作和指示灯是否正常。
(3)加强对配电设备的巡视、检查。主要内容如下:
●继电器开关的动作是否正常,接触是否良好。
●熔断器的温升应低于80℃。
●螺丝有无松动。
●智能仪表显示是否正常。
▲发电机系统维护工作内容如下:
(1)机组应保持清洁,无漏油、漏水、漏气、漏电(简称四漏)现象。机组上的部件应完好无损,接线牢靠,仪表齐全、指示准确,无螺丝松动。
(2)根据各地区气候及季节情况的变化,应选用适当标号的燃油和机油。
(3)保持机油、燃油及其容器的清洁,定时清洗和更换(机油、燃油和空气)滤清器。油机外部运转件,要定期补加润滑油。
(4)启动电池应经常处于稳压浮充状态,每月检查一次充电电压及电解液液位。
(5)市电停电后应能在15分钟内正常启动并供电,需延时启动供电的,应报上级主管部门审批。
3、UPS系统维护工作内容如下:
(1)各种自动、告警和保护功能均应正常。
(2)对于并联冗余系统宜在稳压并机均分负荷的方式下运行。
(3)各地根据当地市电频率的变化情况,选择合适的跟踪速率。对于市电频率变化过快的地区,UPS的工作方式宜采用内同步。
4、蓄电池系统维护工作内容如下:
(1)每组至少选2只标示电池,作为了解全组工作情况的参考。
(2)不同规格、不同厂家的电池禁止在同一直流供电系统中使用;不同年限的电池不宜在同一直流供电系统中使用。
(3)密封电池在使用前不需进行初充电,但应进行补充充电,补充充电方式应按说明书规定进行。