從騰訊看數據中心在暖通行業的發展趨勢及液冷技術的應用
發表于: 來自:CDCC
騰訊數據中心首席架構師林志勇在第4屆中國數據中心綠色能源大會上發表《數據中心暖通架構發展趨勢及未來液冷技術的思考》主題演講,就暖通架構方面,分享了數據中心規模以及服務對象兩個關鍵因素帶來的影響,并對暖通技術的部件、產品、和系統三個技術發展的層面進行了詳細的剖析。其中對于騰訊暖通技術演化的路徑和間接蒸發冷空調的最佳實踐以實例進行了梳理和展示。
ONE、最好的數據中心暖通架構是什么?
回答這個問題,可以先看看數據中心的兩個關鍵點:
01、數據中心的規模

數據中心作為服務器的承載體,其規模與業務規模密切相關。它可以是存儲間內的幾臺機器,也可以是辦公大樓內的幾十個機架,甚至可以是專門的大樓。數據中心可以位于華南或華北,也可以位于中國其他地區,也可以位于其他國家。規模的大小和地理位置的不同氣候條件,決定了數據中心的暖通架構需要作出不同的選擇。
02、數據中心的服務對象多樣

當前,服務器主要分為幾種類型,包括通用計算型、GPU機型、存儲和交換機。不同類型的服務器對環境的要求也各不相同。例如,磁帶存儲類型對溫度、濕度、清潔度和變化速度非常敏感,其負載波動特性也有很大差異,因此需要選擇特殊的暖通系統以滿足其需求。因此,并不存在一種最佳的暖通架構,只有最適合的暖通架構。適合的暖通架構需要綜合考慮需求,并平衡供給端、成本、業務交付時間、運維等方面的因素。

行業內,暖通技術的發展可以通過部件,產品,和系統三個層面來考慮:
01、部件層面
近年來我們看到在數據中心領域引入了一系列創新的部件技術,如變頻壓縮機、氣懸浮和磁懸浮技術、EC風機、空空換熱芯(用于空氣對空氣的熱交換)、電子膨脹閥和氟泵等。這些部件技術的創新推動了整個數據中心暖通產品的更新迭代。
02、產品層面
為了適應不同應用場景的需求,我們看到市場上涌現出了一系列產品,如房間級空調、列間空調、冷凍水機組、冷卻裝置單元(CDU)、空氣處理單元(AHU)等。所有這些產品的出現適應不同的應用場景需求。
03、系統層面
如今更多的暖通架構和建筑協同設計,采用集中式暖通架構,還是采用分布式暖通架構,有不同的氣流組織架構,有不同的管網設計,控制系統也從單機,到多級群控,到平臺監控。
可以說,在過去幾年中,圍繞部件、產品和系統這三個維度,數據中心的暖通技術不斷向前推進,不斷創新。

在騰訊數據中心的多年發展歷程中,我們積極探索和試點不同的暖通技術,目前主要專注于兩個技術方向:
01、是以城市多層庫為主的集中式冷凍水方案
這種方案將數據中心的冷卻需求集中在一個中央冷卻系統中,通過冷凍水來傳遞和分發冷量。這種集中式方案可以實現遠距離的熱傳輸和冷卻效果,并具備較好的可控性。
02、依托騰訊T-block而引入的分布式AHU架構
這種架構下的分布式空氣處理單元(AHU)包括了間接蒸發AHU和氟泵AHU。采用分布式的AHU架構,在質量、效率、成本上相對比于傳統的集中式冷凍水都有較大的改進。

自2018年起,騰訊陸續建設了以T-block為代表的自有園區。在這些園區中,我們引入了間接蒸發AHU產品,并吸引了許多行業內的伙伴參與到我們的項目中。經過幾年的積累和實踐,目前我們在華南地區實現了年均PUE值最低可達到1.21,在華北地區實現了年均PUE值最低可達到1.18。
未來,隨著芯片功率密度的增加,傳統的風冷散熱已經接近極限,芯片級液冷散熱已經不再是可忽視的問題。因此,在未來的暖通架構中,我們將關注如何支持液冷散熱的需求。
TWO、這幾年行業內的幾種新的暖通技術產品漸漸成熟,未來我們還能做些什么?

在討論未來要做什么之前,我們有必要了解一下數據中心在暖通領域仍面臨著哪些挑戰:
首先,暖通服務對象的挑戰。IT設備的生命周期相對較短,一般是5年或者更少,而暖通系統的生命周期為10年甚至更長。因此,暖通系統的設計需要考慮如何滿足未來IT設備的需求,包括風冷、液冷或者風液混合場景的需求,這是一個挑戰。
第二,存量土建設置的挑戰。由于土建建設和業務需求的時間不匹配,暖通架構需要考慮已建好土建的限制,并同時兼顧未來服務器和業務的需求,因此需要進行特殊的設計和考慮。
第三,項目建設計劃的波動。經濟環境的變化可能對項目規劃產生影響。在項目規劃變化的情況下,可能需要調整已有的建設下發訂單產品的使用場所,因此暖通產品需要具備兼容性,最大程度上減少變更,滿足項目調撥的需求。
第四,極端氣候變化的挑戰。極端高溫天氣的出現對暖通系統產生重大影響。隨著氣候變化,可能會面臨更多極端高溫場景。這會降低制冷量、增加功耗,對整個數據中心的運行安全產生影響。因此,在暖通設計時,需要更多關注如何兼容未來可能的極端氣候變化。
第五,數據中心能效政策的挑戰。全國范圍內對數據中心的基本要求是PUE小于1.3,有些地方要求更嚴格,如1.25甚至1.15。如何保證成本不增加或者增加有限的情況下去滿足能效的要求,是一個較大的挑戰,需要進行充分考慮。
第六,水資源規劃的挑戰。水資源規劃將變得越來越重要,尤其是在數據中心集群出現時。南方相對來說水資源較豐富,但北方水資源匱乏,特別是當數據中心集群建設超出當地水資源供應能力時。因此,在新建數據中心或運營過程中可能會面臨無水或缺水的情況,而在這種情況下,暖通系統必須能夠正常運行。因此,在選擇暖通架構時必須充分考慮水資源的情況。
在應對這些挑戰的過程中,我們未來需要從四個主要方面進行考慮和努力:
01、加強協同設計

這包括與服務器端的緊密合作,將數據中心的暖通系統設計與服務器的散熱設計、業務部署特點和業務調度特性更緊密地結合起來,以實現更優秀的暖通系統設計。
其次是加強數據中心內部的協同設計。在選址、能源評估、建設形式、氣流組織等方面,我們需要進行更多的合作,并進行前瞻性地考慮。例如,在選址階段,周圍可能沒有工廠,空氣質量是可接受的,但在運營過程中,可能會發現在數據中心周邊出現預計之外的化工廠,導致空氣質量下降。因此,在數據中心的整個生命周期中,如何解決這種問題,需要暖通系統設計時進行更多的協同考慮。
最后是加大運營設計的比重。過去,我們更多關注的是物理層面上的運營設計,如維護空間、維護平臺等。未來,我們需要更多關注暖通系統的數字化運營設計。這意味著通過數字手段來支持現場的自動化和智能化運營。
02、質量

它將成為大型數據中心的關鍵工作之一。近年來,我們不斷看到由于暖通系統故障導致的宕機問題,這給數據中心帶來了巨大的經濟損失。隨著數字經濟的快速發展,暖通系統的可靠性變得更加重要。
我們可以觀察到,從集中式暖通系統向分布式暖通系統的轉變是在系統設計層面上降低風險的舉措。然而,在這幾年快速建設的過程中,也存在一些問題。例如,對于新引入和定制化產品,缺乏完整有效的質量控制機制。在技術規范方面,缺乏充分的質量量化設計;在測試方案方面,缺乏成熟的標準和方法制定;在工藝方面,缺乏全面的風險評估。因此,在未來一段時間內,行業可能需要進一步加大力度,以確立技術要求、規范質量評估,并提升工藝水平。
03、搭建多方參與的多體系信息平臺

該平臺不應該將各方割裂獨立,而是將技術、產品、建設和運營等多方的信息流融合起來,實現多維度的暖通系統平臺構建。
例如,在項目建設過程中,我們是否能夠自動匯總和跟蹤物流狀態和建設進度?是否能夠自動收集產品實驗測試數據、第三方測試數據和現場數據,并生成分析對比報告?是否能夠快速建立備件信息庫,并進行智能庫存管理和自動變更管理?我們是否能夠建立產品和部件的健康度模型,并進行及時地預測,并啟動自動的修復流程?同時,產品研發端是否能夠快速生成現場數據分析報告,并進行產品的迭代升級?
在當今經濟大環境下,我們經常聽到“降本增效”的口號,而降低成本的真正有效手段是提高效率。可以想象,一旦我們打通各方的信息流,讓信息智能流通,我們的溝通成本和人力成本將大大降低。
04、液冷技術

在決定是否采用液冷技術時,我們需要考慮一些因素。以往,很多的液冷項目主要是起到能效示范作用,但隨著芯片功率密度的提高和人工智能應用的增加,傳統的風冷散熱能力將達到極限。因此,液冷逐漸成為一項必要需求。
在行業內,人們對液冷技術進行了廣泛討論,主要涉及兩種技術:浸沒式和冷板式。這兩種技術各有優缺點,選擇適合的技術需要考慮多個方面。
首先,我們應該考慮該技術的生態圈是否成熟,供應鏈體系是否能夠滿足規模化使用,以及成本是否合理。其次,我們需要考慮技術的運維是否具有延續性和便利性。此外,我們還需要考慮兼容性。傳統老舊機房是否能夠支持液冷服務器?新建的液冷機房是否能夠與老舊的風冷服務器兼容?通過充分考慮這些因素,每個用戶可以根據自身實際情況選擇最適合的技術方案。對于騰訊來說,由于擁有大量的風冷服務器和風冷機房,從部署和運維兼容性的角度來看,冷板式液冷技術是一個比較匹配的選擇。

如果我們選擇冷板液冷技術,那么液冷和風冷的功率占比就變得非常重要。我們都知道,冷板只解決了芯片的散熱問題,而其他組件,如主板、內存、硬盤和網卡,仍然需要通過風冷方式進行散熱。因此,對于一臺服務器而言,液冷和風冷所占總功率的比例至關重要。不同類型的服務器具有不同的比例,例如,大數據存儲服務器的液冷比例約為45%,而GPU訓練服務器的液冷比例可高達85%。
對于一個機房來說,在建設初期很難準確預測業務在其生命周期內的具體部署情況。是全部采用GPU訓練型服務器?還是大數據存儲型服務器?或者兩者混合?因此,我們的機房需要具備一定的彈性,以滿足現場的部署需求。
在行業中已經存在一些采用液冷架構方案的案例,其中風冷和液冷共用設施冷源。這種架構能夠支持100%的風冷模式。在風冷側,采用了30°C供水的空氣處理單元(AHU),這樣機房冷通道的溫度大約在35°C左右。可以完全依靠自然冷卻來實現風冷和液冷的效果。
然而,在國內的大多數場景中,我們仍需要保持低于27°C的冷通道送風溫度,因此無法完全依靠自然冷卻來實現散熱。因此,架構也會有一些不同之處。

結合騰訊的使用場景,騰訊的冷板液冷架構需要考慮以下幾個方面:
首先,一級冷源端應該是共享的,能夠提供100%的制冷能力,并具備相應的冗余度,以確保系統的穩定性和可靠性。
其次,二級冷源端的運行應根據室外環境溫度進行梯度調整。在高溫環境下,液冷和風冷應獨立供冷,風冷可以采用機械制冷方式。而在中溫區間,風冷可以通過機械補冷的方式實現部分自然冷卻。而在低溫區域,液冷和風冷可以合并為一套系統來供冷。
此外,該架構應盡可能采用集成預制的方式,以簡化現場布管和控制調試的過程。同時,應采用小顆粒度的模塊化設計,支持小規模的分期建設,以降低系統性風險。下方的圖示為我們最終的架構模型,其中集成預制的產品被稱為一體化冷源。

采用一體化冷源后,現場可以采用類似分布式空氣處理單元(AHU)的部署方式。圖中展示了T-block的可能部署示意圖。我們還建立了PUE與室外濕球溫度的預測模型,采用一體化冷源可以實現較高的能效水平。當然,液冷技術仍處于初期應用階段,仍存在許多未知的運行場景,需要在實際運行中不斷改進架構和產品方案。
暖通技術已有一百多年的發展歷史,當暖通技術與數據中心相結合,在數字經濟的高速路上行駛時,我們看到了新的機遇和挑戰。新的需求、新的方向,更需要整個行業共同努力,協同共建。