申耀的科技观察 · 2022年08月30日 · 山东

浪潮信息存储可靠性设计:基于冷热切换技术,将备电系统使用寿命提升50%

数据已经成为继土地、劳动力、资本和技术之后的第五大生产要素,是当代经济社会发展的基础资源。存储作为数据载体设备发挥着重要作用,既要满足当前全球数据量高速增长需求,又要保证数据存储安全可靠、读写高效精准,从而为数据中心提供“稳定的数据存力”。
如何提升数据存储的可靠性,避免意外场景下的数据丢失,已成为存储硬件平台发展的重大挑战。浪潮存储从源头出发,创造性地提出了冷热备电智能切换方案,改进存储系统对BBU单元智能管理方案,践行绿色低碳理念,加固备电质量,增强了数据存储的可靠性。

存储备电——数据存储安全的保障
当前业界存储系统通常采用电源PSU(Power Supply Unit)“1+1”冗余供电,在供电之外还配置备用电池BBU(Battery Back-Up Unit),当机房市电掉电,存储系统实时监测PSU供电异常,无缝切换到备用电池BBU供电。BBU提供持续的供电能力,确保存储系统控制器写缓存中数据,完整而安全的写入非易失性介质,如HDD、SSD等,避免数据丢失。

为保证数据存储的业务连续性,机房市电意外掉电、市电恢复后能快速恢复存储系统的业务,浪潮存储对备电设计标准有严格要求。比如,浪潮存储在三年产品生命周期内,备用电池BBU一次充满电,可满足两次掉电数据备份要求;又如,满足存储系统高可靠性要求时,创新地采用了备用电池BBU冷热供电切换策略,提高备电的能效和电池的使用寿命,降低BBU电池报废的数量,降低对环境的污染。

1.png
存储系统供备电框图

高端存储性能提升,存储备电挑战升级
随着数据量爆发式增长、存储业务复杂程度提升,存储硬件平台正朝着高密度与高性能方向发展,传统供备电策略难以支撑存储系统的稳定性要求。高端存储平台从系统架构到部件性能的升级都伴随着系统整体功率提升,正常运行时存储阵列单控制器功率超1700W,掉电时刻控制器快速降低功耗,单控制器功耗仍超过800W;因此单个BBU的电芯节数达到12节(四串三并),才能满足异常掉电时的备电功耗需求。存储系统实时获取BBU充放电次数与健康状态,BBU单元检测自身状态,如果发现异常可快速定位及修复,延长BBU电芯的使用寿命,保证BBU供电能力满足产品的需求。因为存储系统控制器功耗不断增大,备用电池BBU的电芯节数不断增加,电芯电压不平衡或损坏无法正常识别等质量隐患逐渐突显出来;如果没有支持诊断的BMS(Battery Management System)日志,BBU充电异常、BBU校验学习(评估BBU备电能力是否满足一次备电需求)异常、BBU供电链路侦测异常等问题则无法准确定位,影响BBU的故障定位效率及使用寿命;如果备电单元故障未及时发现,异常掉电而BBU不能正常供电,严重时会出现存储系统丢数据的隐患。

浪潮存储:智能备电管理技术
浪潮存储从系统控制端与备电单元端双管齐下,提出了智能备电管理技术,将存储系统备电单元有效电量提升30%、使用寿命延长50%。智能备电管理技术包含BBU单元软硬一体自诊断方案、存储系统对BBU的智能管理方案、冷热备电智能切换方案三部分。通过BBU单元的监测电路与自诊断算法,实现了BBU状态监测与告警管理;通过存储系统软件对BBU单元的管理,提升BBU单元故障定位效率和备电系统稳定性;通过BBU单元冷备与热备智能切换,BBU单元电池损耗降低30%,提高了电池的使用寿命,降低了电池报废数量和环境的污染。

2.png
浪潮存储智能备电管理技术框图

BBU单元软硬一体自诊断设计方案
浪潮存储通过自诊断算法为BBU单元提供精准高效的状态监测与异常处理,存储研发团队在设计前详细梳理BMS 软硬件接口寄存器、BBU电芯解耦控制参量、状态保护触发阈值等,用于监测状态的分析诊断。硬件设计BBU 供电路径侦测电路,实时监测BBU供电路径,跨连接器和板卡不同位置的电压、电流、功率值,作为自诊断分析依据;软件设计BBU单元自诊断算法,BBU单元优先查询电芯物料信息与当前状态进行初诊断,初诊断无误后开始对存储控制信号、充电信号等进行实时记录,同时分析对外充放电、对内校验学习等各种状态下的参数变化情况。如果状态参数异常,则分析异常原因并进行简单的自适应调参,同时收集异常日志发送给存储系统。通过流程化的自诊断,可以在存储系统业务上线前检出已知的大部分问题,降低存储系统业务上线后BBU单元异常的概率。

突破存储系统对BBU单元智能管理方案
存储系统对BBU单元的管理至关重要,是备电流程顺利进行的核心。存储系统基于BBU单元自诊断的状态信息,从以下五方面进行智能备电状态监测处理:
其一,定期对BBU 供电链路侦测,模拟存储系统供电切换流程,提前识别链路隐患。
其二,定期评估BBU单元储备的电量,判定是否满足系统一次备电需求,同时累计消除BMS采样误差。
其三,存储系统实时读取BBU单元电压与电流、电芯电压及温度、充放电MOS管温度,接近BMS内置阈值时报警处理。
其四,充电过程自动监测存储设备功率,检测BBU电量是否满足一次备电需求,实时校准充电状态,同时累计充放电次数。
最后,存储系统对BBU单元BMS状态寄存器状态值实时监控,出现异常后进入备份供电异常处理模式。
上述智能备电状态诊断方案,将潜在异常的识别率提升了1倍;问题诊断完成后,存储系统对日志进行智能分析,准确定位出问题源头,例如BBU电芯异常、BBU 控制模块异常、存储系统控制电路异常、系统散热异常等。

创造性的给出了一种冷热备电智能切换方案
浪潮存储系统对供电链路定期侦测、BBU备电能力定期评估,提前识别供电隐患,并基于此进行供电状态智能分析,设计了BBU单元冷备、热备智能切换方案。在1+1冗余,双PSU都正常状态下采用冷备以降低备电损耗,存储系统通过对输出电压电流、PWM驱动波形、温度采样值等参数的智能分析,提前对PSU的工作状态进行预测,在单 PSU出现异常后,切换为热备模式,以保证市电异常时存储系统无缝切换为BBU供电。浪潮存储打破了传统热备电技术对BBU寿命损耗的弊端,智能供电方案中热备份供电时间占比不超过10%,BBU单体待机功耗由原来的热备3W.h, 减小至0.3W.h,一年内充电次数也由450次减少至50次左右,BBU使用寿命由不到一年延长至三年以上,使得废弃BBU对环境污染程度大幅度降低,贯彻了绿色设计理念。
3.jpg
浪潮存储
浪潮存储秉承“云存智用 运筹新数据”的新存储理念,深耕存储平台底层硬件的创新研发,从源头做起全方位加固存储产品备电质量,充分发挥硬件平台的数据备份处理优势,贯彻落实绿色节能设计理念,打造具备极致可靠性的高端存储产品,保障企业海量数据存得高效、存得可靠,护航数字经济发展。

推荐阅读
关注数
2410
文章数
480
申耀的科技观察微信公众号官方运营
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息