• 首页 >  信息科技 >  信息技术
  • 施耐德电气:2024智算中心液冷架构探讨白皮书(13页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《施耐德电气:2024智算中心液冷架构探讨白皮书(13页).pdf》由会员分享,可在线阅读,更多相关《施耐德电气:2024智算中心液冷架构探讨白皮书(13页).pdf(13页珍藏版)》请在本站上搜索。 1、 智算中心液冷架构探讨 摘要 许多用于训练大型语言模型(LLM)和推理工作负载的配备了加速器(如 GPU)的人工智能服务器会产生足够的热量,因此需要采用液冷进行冷却。这些服务器配备了输入输出管道,并且需要一个由歧管(Manifolds)、冷却分配单元(CDUs)和室外散热机组组成的生态系统。针对六种适用于液冷的常见散热架构,我们提供指南以选出最符合您的人工智能服务器或集群的架构。能源管理研究中心 第 133 号白皮书 作者:Paul Lin Robert Bunger Victor Avelar 为本白皮书评分 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 2 智算中心液冷架构探2、讨 用于人工智能训练和推理的服务器所使用的加速器和处理器具有很高的热设计功耗(TDP)1。考虑到散热器尺寸、服务器气流和能效等因素,通过风冷方式对这些芯片进行冷却变得越来越不切实际,因此不得不转而采用液冷进行冷却。液冷服务器具有诸多优势,包括能够提升加速器的可靠性和性能、提高能效、减少用水量和降低噪音。2 AI 服务器的液冷方式主要分为两类:冷板式液冷和浸没式液冷3。它们在本文我们将探讨的散热生态系统方面有些细微差异。对于在部署液冷服务器方面缺乏经验的数据中心运营商和 IT 经理,需要了解以下几个问题:如何让冷水流入、热水流出?什么是 CDU?我是否需要 CDU?选择合适的液冷散热架构需要采取3、哪些步骤?液冷生态系统涉及三个要素(即服务器内部的热捕获、CDU 类型和将热量排至室外环境的方法)。CDU 是一种用于将 IT 流体回路与制冷系统其余部分隔离的系统,且必须具备五大功能(即温度控制、流量控制、压力控制、流体处理、热交换和隔离)。如表1 所示,常见的液冷架构有六种,它们各有优缺点,以及适用的部署场景。散热方法 CDU 类型 使用现有设施散热系统 将热量排入 IT 机房的空气中 使用机柜内安装式 CDU 使用落地式 CDU 将热量排至设施现有水系统 使用机柜内安装式 CDU 使用落地式 CDU 构建专用的设施散热系统 将热量排至独立的水系统 使用机柜内安装式 CDU 使用落地式 C4、DU 冷却分配单元(CDU)是液冷架构中的重要组成部分。CDU 用于将 IT 冷却液与制冷系统的其余部分隔离开来。图 1 为 ASHRAE 液冷架构的简化视图。图中显示的三个回路分别为技术冷却系统(TCS)、设施水系统(FWS)和冷却水系统(CWS)回路。FWS 回路被称为一次回路,而 TCS 回路则被称为二次回路。以上简短的描述表明,在缺乏合理框架情况下,关于液冷架构的讨论将变得非常复杂。1 有关该主题的更多信息,请参见第 110 号白皮书人工智能带来的颠覆:数据中心设计的挑战及相关指南。2 有关液冷优势的更多信息,请参见第 279 号白皮书采用液冷的五大原因。3 有关液冷方法的更多信息,请5、参见第 265 号白皮书用于数据中心和边缘应用的液冷技术。液冷架构描述 表 1 常见的液冷架构,包括散热方式和 CDU 类型。简介 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 3 智算中心液冷架构探讨 机柜机柜外部CDU服务器CDU服务器冷机冷却水系统(CWSCWS)设施水系统(FWSFWS)技术冷却系统(TCSTCS)冷却塔数据机房1 12 21 13 32 2 我们建议一种液冷架构从根本上应该通过以下三个要素进行描述:1.服务器内部的热捕获(不在本白皮书讨论范围之内)2.CDU 类型 3.将热量排至室外环境的方法 图 1 中标出了这三个要素,下文将对其进行简要介绍。1.1.6、服务器内部的热捕获 利用液体从 IT 组件中捕获热量。这种液体可以是与元器件直接接触的绝缘液(通常是油),也可以是流经固定在发热元器件上冷板的制冷剂或水。虽然这是液冷架构的重要组成部分,但不在本白皮书讨论范围之内。2.2.CDUCDU 类型 如前所述,CDU 是一种将 IT 流体回路(TCS)与制冷系统其余部分隔离的系统。CDU通常以单机柜形式存在,内部集成了所有部件。它们执行下文介绍的五大功能。在介绍CDU 类型之前,了解这些功能非常重要。温度控制 CDU 精确控制 TCS 回路中的流体温度。TCS 供液温度由 IT 供应商确定,通常取决于加速器和处理器的最高壳体温度,以及所使用的液冷解决方7、案。流量控制 为了带走芯片所产生的热量,CDU 必须能够通过机柜歧管(manifolds)、快接头和冷板为所支持的所有服务器和机柜供应足够的流量。浸没式液冷柜体也需要在服务器之间保持绝缘液的流动。压力控制 CDU 管理压力时需要考虑两个方面。首先是系统允许的最大压力,其次是提供所需流量的压差。TCS 通常在正压下运行,但也有 CDU 可以通过吸图 1 数据中心液冷架构简化视图 数据来源:ASHRAE,液冷 服务器:通用设计、部件 和流程,第 10 页 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 4 智算中心液冷架构探讨 吮的方式(通常称为“负压”4)泵送流体,以消除 TCS 的8、漏液风险。这种功能通常被称为防漏系统(LPS)。流体处理 与设施系统相比,TCS 对流体的过滤和化学成分要求更为严格。对于水基TCS,丙二醇水溶液是一种常用的流体,用于防止微生物生长和保持水质。热交换和隔离 将 TCS 中的热量传导出去是 CDU 的基本功能之一。此外,它还必须将TCS 回路中的流体与制冷系统其余部分隔离开来5。CDU 主要由泵、热交换器、过滤系统和用于执行这些功能的控制设备组成。在最终确定 CDU(例如,控制器、过滤器类型等)时,会涉及到许多详细的属性。然而,在为设施选择合适的液冷架构时,并不需要确定所有这些属性。仅需通过确定 CDU 的关键属性,我们就可以简化这一过程。关键9、属性指的是,如果选择错误,这些属性会迫使您重新更改基本架构,从而浪费花在细节设计上的时间和精力。我们认为,CDU 类型必须基于两个关键属性:热交换类型(液体-空气、液体-液体等)CDU 的容量和外形尺寸(机柜内安装式、落地式)接下来我们将详细介绍每种属性。热交换类型 液冷行业存在六种热交换类型:液体-空气(L2A)TCS 流体回路热量被泵送到盘管(即散热器),热量直接排入数据中心的空气中。液体-液体(L2L)TCS 流体回路热量被排至设施水系统。制冷剂-空气(R2A)两相冷板式系统通过散热器将热量直接排入空气中。其工作原理类似于风冷冷凝器。制冷剂-液体(R2L)两相冷板式系统将热量排至设施水系10、统。其工作原理类似于水冷冷凝器。液体-制冷剂(L2R)TCS 流体回路将热量排至设施的氟泵系统。制冷剂-制冷剂(R2R)非典型类型。CDU 的容量和外形尺寸 泵的规格、热交换器尺寸和流体类型决定了 CDU 系统的总容量(kW)。CDU 的容量范围广,具体取决于外形尺寸:4 负压 CDU 的主要特点是防漏,但也具有简化 TCS 回路、机柜和服务器的连接和组件等优点,有助于降低总体成本。5 DTC 液冷式服务器对水温、流速和化学成分有着严格的要求。这意味着不能让设施系统(如冷机)中的水直接流经芯片的冷板。否则会腐蚀冷板内的金属微通道。施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 5 11、智算中心液冷架构探讨 机柜内安装式 CDU 安装在机柜内,为单个机柜提供一个 TCS 回路,而且可以与服务器预集成。可以采用 L2A 或 L2L 热交换类型,其中 CDU 的容量分别为 20-40 kW 和 40-80 kW。机柜内安装式制冷剂 TCS 回路的容量也在上述范围内。落地式 CDU 为多个机柜提供 TCS 回路。外形尺寸可能类似于 IT 机柜,也可能随着容量的增加而增大。这些 CDU 通常位于液冷 IT 机柜的附近或与之相邻,对于浸没式系统,可以集成到液槽中。落地式 CDU 可以采用 L2A 类型,功率可达约 60 kW。L2L 型落地式CDU 的容量从 300 kW 到 1 MW12、 以上不等。图 2 给出了一些示例。(a)(b)在本白皮书中,我们重点讨论两种主要的热交换类型(L2A 和 L2L)。表 2 介绍了四种常见的 CDU 类型:热交换类型 CDU 的容量和外形尺寸 液体-空气(L2A)机柜内安装式(20-40 kW)落地式(最高 60 kW)液体-液体(L2L)机柜内安装式(40-80 kW)落地式(300 kW 及以上)3.3.将热量排至室外环境的方法 这是关于液冷架构描述的第三个要素,也是最后一个。一旦 IT 设备释放的热量被 TCS回路捕获,问题就转化为,如何将这些热量传递到室外?答案就在图 3 所述的散热系统中。常见的方法有三种:现有散热系统 o 通过液13、-气热交换,将 TCS 回路中的热量排出到 IT 机房的空气中(也称为“闭环式局部散热”)o 通过液-液热交换,将 TCS 回路中的热量排到设施系统的水中(利用现有 FWS 或 CWS 回路)专用散热系统 为液冷方式设计新的独立散热系统。图 2 CDU 外形尺寸示例 (a):落地式(L2A)(b):落地式(L2L)表 2 常见 CDU 类型 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 6 智算中心液冷架构探讨 室内热交换室外热交换传热流体服务器内部传热流体传热流体服务器CRAC/CRAHCDU室外散热设备CRAC 机房精密空调CRAH 机房空气处理装置冷媒空气空气水冷媒水冷媒空14、气绝缘液CDU 与 CRAC/CRAH 或只有 CDU冷凝器或冷机或干冷器或冷却塔安装在IT元器件顶部 通过将最后两个架构要素(“CDU 类型”和“将热量排至室外环境的方法”)组合,我们可以构建出业界常见的六种液冷架构。表 3 列出了这些组合。我们将在下一节介绍如何选择合适的液冷架构。散热方法 CDU 类型6 现有散热系统 将热量排入 IT 机房的空气中 L2A 机柜内安装式 L2A 落地式 现有散热系统 将热量排入到设施水系统中 L2L 机柜内安装式 L2L 落地式 专用散热系统 将热量排入到独立水系统中 L2L 机柜内安装式 L2L 落地式 在本节中,我们将从六种常见架构中选择最合适的架构15、,这个过程可以简化为两个步骤。步骤 1-选择散热方法 步骤 2-选择 CDU 的容量和外形尺寸 请注意,表 3 中“CDU 类型”所列的热交换类型(如 L2A)是由散热方法决定的。7而第二个 CDU 属性,即“CDU 的容量和外形尺寸”,与散热决策无关。因此,您可以 6 R2A 和 R2L 的决策过程与 L2A 和 L2L 相同,因此未列入表中。7 例如,L2A 热交换器的二次侧空气不能与设施水系统连接。图 3 液冷架构散热的简化视图 表 3 常见的液冷架构,包括散热方法和 CDU 类型。选择合适的架构 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 7 智算中心液冷架构探讨 通过16、两个独立的步骤来确定合适的液冷架构。选择散热方法以及CDU 的容量和外形尺寸取决于诸多因素,下面列出了其中的四个关键因素:与现有制冷基础设施兼容性 现有制冷基础设施能否易于支持新的液冷服务器。部署规模 液冷架构可支持的机柜数量。部署速度 从设计、建造到首次运行,设施部门部署液冷架构所需的时间。能效 整体液冷架构的相对效能。请注意,与等效的风冷式架构相比,所有液冷架构都会带来一定的改进。您可能无法最大化所有这些因素,但可以根据您的工作重点在它们之间做出权衡。例如,与现有风冷式系统兼容性最好的液冷架构很难保证高效。这是因为与水相比,空气的热传递效率较低。以下章节通过详细描述每种架构的优点、缺点和适17、用的部署场景,来全面了解这些因素并做出明智选择。请注意,所有的散热系统图都以落地式 CDU 为例,但也可以替换为机柜内安装式 CDU。步骤 1 1 选择散热方法 现有散热系统 将热量排入 IT 机房的空气中 通过这种架构,可以将 TCS 回路设计为 IT 机房内的独立系统。L2A 型 CDU 可以采用机柜内安装式或落地式。在此架构中,现有风冷基础设施的一切保持不变(如图 4 所示)。这种架构也被称为闭环式局部散热。最后,IT 机房内的所有热量都会被现有制冷基础设施排出到室外。液冷IT设备 CDU风冷IT机柜CRAHCRAH冷冷机风冷IT机柜CRAH 机房空气处理装置CDU 冷却分配单元 优点 18、与大多数现有制冷基础设施兼容 无需对现有制冷基础设施进行改动 可预制,便于安装、标准化等 如果 TCS 回路出现问题,受影响的服务器/机柜较少 图 4“将热量排出到 IT 机房的空气中”架构示意图 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 8 智算中心液冷架构探讨 缺点 与 L2L CDU 相比,由于存在更多的热交换和风扇,导致能效低 机柜内安装式和落地式 L2A CDU 会占用机柜或地板空间 大规模部署时成本较高 需要许多独立的回路来监测和保持水质 较难实现充分的并行可维护性或完全冗余性 小规模的基于水的 TCS 回路支持的散热时间较短,这意味着如果 CDU 风扇发生故障,19、与其他架构相比,制冷中断后回路中的水量无法提供足够冷量来支持负载。适用的部署场景 无法提供冷冻水或冷却水,或无法连接现有制冷基础设施时 风冷冷量充足,并且通过气流分析或计算流体动力学(CFD)验证机房能够承载高密度时 范围仅涉及单台服务器或数个机柜的小规模液冷服务器的部署时 部署速度是首要考虑因素时 现有散热系统 将热量排入到设施水系统中 在此架构中,TCS 回路充分利用 L2L CDU,形成一个独立的回路,并由冷冻水或冷却水回路供水。服务器的热量通过 CDU 的 L2L 热交换器从 TCS 回路输送至设施回路(如图 5 所示)。随后,热量被排出到室外或重新用于其他用途(例如,集中供热)。液冷20、服务器 60%至 90%的热量可以通过液体转移,具体取决于液冷组件的数量。剩余的热量通过风冷方式(例如,CRAC、CRAH8、冷门背板)进行散热。风冷IT机柜CDUCRAH液冷IT机柜FWS(一次侧)TCS(二次侧)冷机CRAH 机房空气处理装置CDU 冷却分配单元 8 CRAC 机房精密空调,CRAH 机房空气处理装置 图 5“将热量排入现有冷冻水回路”架构示意图 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 9 智算中心液冷架构探讨 优点 利用现有散热系统,减少投资 与“将热量排入 IT 机房的空气”液-气架构相比,液冷的散热能力更高、能效更高、噪声更小(通过服务器的风速更低21、)。对于改造项目而言,CDU 可以重新利用之前由 CRAH 占用的空间 缺点 与 L2A CDU 相比,现场安装工作量更大,包括 CDU 与设施水系统的连接和 TCS与机柜的管道连接等 适用的部署场景 在配有冷机设备的数据中心部署中大规模液冷服务器时 当有水回路连接或“插接装置”时 当能效的优先级高于部署速度时(例如,L2A 型 CDU)专用散热系统 将热量排入到独立水系统中 在此架构中,专门为液冷(通过 L2L CDU 实现)设计了专用的散热系统。这样就能以最高效的方式优化 TCS 和散热回路的温度和流量,而不受共用的风冷式散热系统的限制。图 6 提供了液冷和风冷专用散热系统的比较示例。为了22、实现液冷,采用带辅助功能压缩机的干冷器来提供较高的供水温度(40);而为了实现风冷,采用带自然冷却冷机来提供较低的冷冻水温度(20)。带压缩机辅助的冷却器FWS(一次侧)TCS(二次侧)CRAH冷冷机风冷IT机柜CRAH 机房空气处理装置CDU 冷却分配单元 优点 由于增加了自然冷却的时长,因此能效更高(除最炎热的天气外,大多数情况下无需机械制冷)可获得更高的回水温度,提供了重新用于空间供暖、工业加工用水预热等用途的可能性。部署过程中不会影响现有制冷系统 图 6 专用散热系统 架构意 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 10 智算中心液冷架构探讨 缺点 需要在设施层面设23、计额外管道系统 需要投资构建专用的散热系统 与其他架构相比,部署更耗时 适用的部署场景 预计需要部署大规模液冷服务器时 高能效是首要考虑因素时 步骤 2 2-选择 CDUCDU 的容量和外形尺寸 机柜内安装式 CDU 专门服务于单个机柜,这意味着每个机柜都有独立的 TCS 回路。CDU 通常安装在机柜底部,包括泵组、过滤和控制装置。热量通过风扇辅助后门热交换器(L2A)散热到数据中心的空气中,或者通过 L2L 热交换器排至到设施回路中。优点 可以在安装到数据中心之前与服务器进行预集成和测试。将潜在故障模式限制在单个机柜内(例如,TCS 泄漏或污染)可以为每个机柜设置冗余(例如,1N 泵与 2N24、 泵)。适用于仅有少量液冷机柜的传统数据中心的简单解决方案 缺点 随着机柜数量的增加,每千瓦 IT 负载的成本高于落地式 CDU CDU 占用 IT 服务器空间 将最大机柜密度限制在约 40 kW(L2A)到 80 kW(L2L)与大型落地式 CDU 相比,随着机柜数量的增加,总安装时间更长(即调试每个机柜上的 CDU)相较于单个较大的落地式 CDU,随着机柜数量的增加,能效下降 适用的部署场景 部署速度至关重要时(应用于数量较少的液冷机柜)预计仅需要部署少量液冷机柜(1 到 10 个机柜)时 落地式 此 CDU 为一排或多排机柜服务,这意味着它们共用一个 TCS 回路。CDU 可以安装在一排25、机柜的末端,也可以安装在离 AI 集群较远的地方。热量通过风扇辅助热交换器(L2A)排至到数据中心的空气中,或通过 L2L 热交换器排至设施回路中。优点 与机柜内安装式 CDU 相比,大规模部署的每千瓦 IT 负载的成本更低 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 11 智算中心液冷架构探讨 在改造项目中,可以根据所替代 CRAH 的位置和容量选择 CDU,以尽可能减少管道铺设工作 CDU 不占用 IT 机柜空间 与机柜内安装式 CDU 相比,可以实现更高的机柜密度 与每个机柜都安装 CDU 相比,随着机柜数量的增加,安装时间可以大幅缩短 由于机柜内安装式 CDU 需要为每26、个机柜都配备循环泵,随着机柜数量的增加,落地式部署 CDU 效率也会提高 与机柜内安装式 CDU 相比,停电后的热容能力更强 缺点 集中在单个 TCS 回路中的所有机柜容易因为常见故障受影响(例如,TCS 泄漏、污染、控制等)占用地面空间 适用的部署场景 预计需要 10 个以上液冷机柜时 由单个 CDU 服务的所有机柜的工作负载(例如,AI 训练集群)可以同时容忍常见故障(例如,流体中断)时 IT 机柜中没有足够的垂直空间来部署机柜内安装式 CDU 时 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 12 智算中心液冷架构探讨 越来越多的服务器需要液冷系统来支持人工智能工作负载。根27、据液冷服务器部署的规模,数据中心可以通过现有或专用散热系统进行冷却。本白皮书所讨论的术语、架构和选择时考虑的因素可帮助数据中心运营商初步了解液冷生态系统的构建。以下是我们针对数据中心运营商遇到的常见液冷问题提供的答案:如何让冷水流入、热水流出?涉及三个要素(即服务器内部的热捕获、CDU类型和将热量排出至室外的方法)。什么是 CDU?我是否需要 CDU?CDU 是一种用于将 IT 流体回路与制冷系统其余部分隔离的系统,且必须具备五大功能(即温度控制、流量控制、压力控制、流体处理、热交换和隔离)。选择合适的液冷散热架构需要采取哪些步骤?本白皮书介绍了六种液冷架构,每种架构各有优缺点,并且包括适用的28、部署场景。关于作者 Paul Lin 是施耐德电气能源管理研究中心的技术总监和“爱迪生”专家。Paul 致力于数据中心设计和运营方面的研究,并且通过向客户提供风险评估和设计实践方面的咨询,来优化数据中心环境的可用性和可持续发展。他是业内公认的专家,经常以演讲嘉宾和圆桌论坛专家身份出席数据中心行业的重大活动。在加入施耐德电气之前,Paul 曾在 LG 电子公司担任研发项目经理并工作多年。他还是一名注册公用设备工程师,拥有 10 多项专利。Paul 拥有吉林大学机械工程学士和硕士学位。他还持有欧洲工商管理学院(INSEAD)颁发的证书。Robert Bunger 是施耐德电气首席技术办公室的创新产29、品负责人。在施耐德电气供职的 26 年间,Robert 担任过客户服务、技术销售、产品管理、业务开发和行业联盟领域的各种管理职位。在 APC/施耐德电气工作期间,他曾在美国、欧洲以及中国生活和工作过。加入 APC 之前,他是美国海军潜艇部队的一名特派军官。Robert 在美国海军学院获计算机学学士学位,在伦斯勒理工学院获电子工程硕士学位。Victor Avelar 是施耐德电气能源管理研究中心的高级研究员,Victor 致力于数据中心的设计与运营方面的研究,并且通过向客户提供风险评估和设计实践方面的咨询,来优化数据中心环境的可用性和能效。Victor 于 1995 年从伦斯勒理工学院(Rens30、selaer Polytechnic Institute)获得了机械工程学的学士学位,而后在巴布森商学院获得工商管理硕士 MBA 学位。Victor 是 AFCOM 的成员。为本白皮书评分 结论 施耐德电气能源管理研究中心 第 110 号白皮书 版本 2 13 智算中心液冷架构探讨 人工智能带来的颠覆:数据中心设计的挑战及相关指南 第 110 号白皮书 用于数据中心和边缘应用的液冷技术 第 265 号白皮书 采用液冷的五大原因 第 279 号白皮书 注:链接网址可能会随时间而失效。资源链接在本白皮书编写时是有效的,但现在可能已经失效。联系我们 关于本白皮书内容的反馈和建议请联系:施耐德电气能源管理研究中心 dcscschneider- 如果您是我们的客户并对数据中心项目有任何疑问:请与您的施耐德电气销售代表联系,或登录: 浏览所有白皮书 资源 浏览所有 TradeOff Tools权衡工具 2024 施耐德电气版权所有。

    下载