推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

国盛通信深度 | AI算力下的液冷——从“可选”到“必选”之路

   日期:2024-12-01     移动:http://fhzcwj.xhstdz.com/mobile/quote/82727.html
国盛通信深度 | AI算力下的液冷——从“可选”到“必选”之路 通信

1.1 液冷有直接和间接两大类技术路线

液冷系统可以根据液体与硬件之间的接触方式分为直接液冷和间接液冷。直接液冷系统中,液体与需要冷却的硬件组件进行接触,即冷却液体直接流经硬件表面,吸收并带走硬件产生的热量。直接液冷系统的液体与热源之间没有中介,散热效率更高,热量能够更直接地传递到液体中,主要用于对散热效率要求较高的场景,直接冷却包括浸没式和喷淋式,其中浸没式根据冷却介质是否发生相变又可分为单相浸没式和相变浸没式。间接液冷系统中,液体不直接与硬件接触,而是通过一个中介组件(散热器或冷却块)与硬件接触,而冷却液体则与中介组件接触,通过其中介组件将热量带走,间接冷却一般为冷板式液冷,根据冷却介质是否发生相变又可分为单相冷板式和两相冷板式。此外,还存在混合液冷的散热方式,即核心部件用液冷板散热,非核心部件仍采用传统风冷,或者将间接液冷与直接液冷混合成一套系统。

1.1.1 浸没式液冷

单相浸没式液冷:单相指的是液冷剂保持液态,类似于传统的液冷系统。设备或组件被完全浸泡在液体冷却剂中,液体在吸收热量后被泵送到一个热交换器中,然后通过换热器散发热量,将冷却剂重新送回设备进行循环。

两相浸没式液冷/相变浸没式液冷:两相/相变指的是液冷剂在循环中经历液态和气态两个相态。当液冷剂接触到热的组件表面时,它会迅速蒸发成气体,吸收热量,随后这个热蒸汽被移动到一个冷凝器或换热器中,重新变为液态,并被送回到设备以继续循环。两相浸没式液冷系统通常能够提供更高的散热效率,蒸发相变可以在更短的时间内有效地吸收大量的热量。

1.1.2喷淋式液冷

喷淋式液冷通过将液体冷却剂以喷淋或喷射方式直接应用到电子设备表面,实现高效降温。这一系统通过液冷剂吸收热量,促使其发生相变或升温,并通过喷嘴释放,从而在设备周围形成冷却层,适用于高功率密度设备和要求精密散热的领域。喷淋式液冷具备承重和占地少、用液冷低、冷却液价格低等优势,且安装简单,可根据设备的实际热量分布进行定向冷却。

1.1.3 冷板式液冷

冷板式液冷的核心是通过一种特殊的冷板或冷却块来实现对电子设备的有效冷却。冷板通常是一块直接安装在需要冷却的硬件组件(如CPU或GPU)上的金属或其他高导热性材料的板料,其内部含有通道可以让液体流动,通过冷板的管道,液体被泵送到需要冷却的硬件上,并通过冷板与硬件间接接触,液体吸收硬件产生的热量,然后被泵送到一个散热器或冷却单元,随后借助风扇或其他散热设备辅助散热。冷板式液冷也可以根据冷却液在吸收或释放热量过程中,是保持液相或者发生气液相转化而分为单相冷板式和两相冷板式,其中两相冷板式实际中应用较少。

1.1.4混合液冷

混合液冷常见的混合冷却方法是风冷+冷板,也有技术难度较高的冷板+液冷混合模式。风冷+冷板的混合模式指的是针对高功率和高热密度的元器件采用冷板,而对于低功率元件则使用风冷方式,比如在 CPU/GPU 或内存模块上安装液冷冷板,同时采用风冷对其他元器件进行散热;混合液冷也有采用冷板+浸没式的模式,如英伟达在2023年5月获得美国能源部拨款的COOLERCHIPS液冷系统,就是将服务器部件全部浸泡在冷却液中,同时高功率芯片上增加冷板加强冷却,该系统目前尚在研发中,在2024年会进行组件测试。

1.1.5液冷技术路线对比

实际应用中,冷板式液渗透率相对较高,两相浸没式液冷效果更好。不同液冷技术在散热性能、维护难易度、建设成本度等方面呈现出较大差异,目前产业内应用较多的是不需要改造服务器且运维成本较低的间接液冷-冷板式液冷:

1.2 冷板式液冷构件繁多

冷板式液冷系统通常由多个组件和部件构成。冷板式液冷技术设计相对较为简单且更容易地适应各种设备和硬件配置,因此相对较早开始应用,产业链成熟度和技术稳定性方面优势相较于浸没式液冷更为明显,一套典型冷板式液冷系统的主要构成部分包含了冷板、热交换器、管路、泵、冷却液、控制系统等,越靠近热源的组成部分,技术和工艺难度越高。

冷板式液冷系统中,液冷板属于服务器内部电子散热环节,定制化特征显著。冷板的设计和材料选择直接影响到散热效果和整个系统的性能,通常情况下服务器厂商会自己设计冷板并交付给液冷厂商生产制造,普遍呈现定制化特点。此外,快接头涉及密封和插拔技术,也具备定制化特征。从数量上来看,冷板与芯片通常可以维持在一比一对应关系,而快接头通常一个机柜具备进水口和出水口共两套(每套包含公母两个接头),因此叠加数量综合考虑,冷板和快接头在数据中心中的成本占比较高。CDU工艺难度较高,单机器价值量较冷板和接头更高。

1.2.1 冷板:可定制化的核心组件

冷板是冷板式液冷系统的核心组件之一,可根据下游要求进行定制设计。冷板通常由高导热性材料(如铜或铝)制成,以确保热量能够迅速传递到液冷剂,现阶段出于安全性和稳定性考虑,通常采用铜制冷板。冷板在外观上并非平面的一层“板状物”,而是更类似块状物体,液冷冷板包括进液接头、出液接头、上盖板与底板,底板是散热模块,除了设计各家会有不同以外,液冷冷板的外形、尺寸也可以要求定制。

冷板又可细分散热模块和固定模块,散热模块为核心组件。固定模块是扣压在散热模块上方的铜/铝块,与散热模块初步构成密闭的盒状形态,需要具备相当的扣合力和抗压性。从散热模块与固定模块的连接方式上,冷板可以分为两类:

冷板内部设计是影响散热效果的重要因素,定制化特性显著,不同厂商对冷板内部的设计方案各有不同。冷板内部流道通常包含几类构造,如沟槽、扣合翅片、铲齿、折叠翅片等,面对一些功耗较高的电子元件,流道还会被设计成更复杂的微通道结构,通过增加接触面积,进一步提高冷板的散热性能。

1.2.2 CDU:冷却液“调度官”

CDU担任液冷系统中的“调度官”角色,具备调节和分配能力。CDU指的是冷量分配单元,是液冷系统的一个关键组件,主要作用是隔离一次侧与二次侧回路,并在其内部提供一次侧与二次侧的热交换能力,分发和调节冷却液以有效地冷却计算设备或其他热源:

CDU在不同的应用场景中形态不同,主要分为机架式、机柜式和平台式。CDU主要由换热器/冷凝器、循环泵、过滤器、储液罐、传感器等组成,在实际应用中对CDU类型的选取通常由数据中心/服务器的具体架构、设备密度以及对冷却需求的特定要求决定。

数据中心的CDU最常用于一二次侧隔离,既可安装在机架内也可以外置。在机房液冷系统中,CDU将设施冷却系统(机房外散热侧,即二次侧)与机柜冷却系统(机房内散热侧,即一次侧)分开,从而避免将IT冷却组件暴露在设施冷却系统中,进一步提高整个散热系统的稳定性。CDU可以安装于机架内,将液体分配到单个机架内的设备,也可以安装在外部,呈现为一台较大的落地式整机形态,将液体分配到多个机架。

1.2.3 其他部件:部分可定制,匹配度是关键

快接头(可定制):液冷快速接头通常是指液冷循环系统中各器件之间的连接件,比如用于连接Manifold与液冷冷板的进液接头与出液接头,能实现各器件之间的快速连接和断开且无泄漏,提高效率,减少排液注液带来的不必要的工作量,可以在带压状态下自由插拔,接口方式可以定制,一般分为手动插拔和盲插款。在二次侧流体回路中,快换接头是保证服务器具备在线插拔维护性能的关键部件,技术难度主要在于防泄漏。快换接头是公 / 母配置(插头 / 插座、插件 / 主体等)配对使用的,断开时,集成在快换接头内部的用于密封流体流动的自封阀芯会断开流体的连接,以保护周围设备不受影响,因此每次断开时冷却工质的泄漏量是设计快接头时的重点考量因素。

Manifold(集水分歧管):Manifold作为液冷系统的集流器,承担将冷却液体引入机架并传递到机架外侧的关键任务,直接影响整个液冷系统的热管理,确保冷却液体顺畅流动,高效吸收和带走系统中产生的热量。Manifold有均流分配、耐腐蚀性强、强度高等特点,广泛应用于数据中心,根据使用需求,有单管和双排管之分,单管主要用于快插连接,双排管用于盲插连接,两管路位置精度高,属于超精密制造。

管路:管路在液冷系统中扮演着连接各个组件的重要角色,负责将冷却液体从Manifold传输到快接头、电磁阀、单向阀以及液冷冷板等关键部件,管路的设计要求高度精确,以确保冷却液体的稳定流动,避免泄漏,保持整个系统的运行效率。

电磁阀与单向阀:电磁阀和单向阀在流动控制方面发挥着关键作用,电磁阀通过开闭状态调节冷却液体的流量,实现对热量的精确控制,单向阀防止液体逆流,确保液体在设定的方向上流动,防止漏液,维护系统的稳定性和安全性。

温度传感器:温度传感器实时检测进出水的温度,通过监测温度差,实现对电磁阀门的精确控制,有助于调节进出水流量,确保冷却液体的温度和流量相匹配,提高系统的效率。

控制系统:控制系统整合了各个组件,监测系统状态,自动调控冷却液体流量和温度,直接关系到整个液冷系统的自动化程度和稳定性,确保系统在不同工作负载下始终保持高效运行。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论