支撐AI的高性能數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)如何設(shè)計？

2018/4/19 11:18:29 來源：通信世界網(wǎng) 作者：分類：滾動新聞

近日，工信部印發(fā)《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃（2018-2020年）》，意在加快人工智能從戰(zhàn)略到落地，推動人工智能和實體經(jīng)濟深度融合。在新工業(yè)革命的背景下，大數(shù)據(jù)、計算力、算法等快速迭代，正驅(qū)動人工智能進入新階段。2017年Q3，全球AI公司融資金額突破77億美元，是2012年的70余倍?？赡軙腥苏f這是“泡沫”，而我更愿意相信這是人工智????發(fā)展的必然結(jié)果。

在AI技術(shù)的應(yīng)用過程中，各個企業(yè)都在尋找能夠更好支撐高性能計算的基礎(chǔ)網(wǎng)絡(luò)解決方案。在《數(shù)據(jù)中心基礎(chǔ)網(wǎng)絡(luò)架構(gòu)最佳實踐及未來發(fā)展趨勢》這篇文章中，我分享了如何設(shè)計一個穩(wěn)定可靠的數(shù)據(jù)中心網(wǎng)絡(luò)，下面我們再來探討支撐AI應(yīng)用的高性能無損網(wǎng)絡(luò)應(yīng)該如何設(shè)計。

前面提到大數(shù)據(jù)、計算力、算法等快速迭代，正驅(qū)動人工智能進入新階段，而這些技術(shù)的實現(xiàn)對網(wǎng)絡(luò)的低時延、無丟包、高性能這三個方面提出更高要求。

▲ AI應(yīng)用的技術(shù)體系及對數(shù)據(jù)中心網(wǎng)絡(luò)的要求

高性能和無丟包比較好理解，就是指網(wǎng)絡(luò)帶寬性能的提升以及網(wǎng)絡(luò)中不存在擁塞導(dǎo)致的丟包。產(chǎn)生時延的環(huán)節(jié)較多，要實現(xiàn)端到端的低時延，需要多角度分析：

其中，光電傳輸時延和數(shù)據(jù)串行時延相對較小，且很難通過架構(gòu)設(shè)計來優(yōu)化，我們應(yīng)重點關(guān)注主機處理時延和設(shè)備轉(zhuǎn)發(fā)時延。在各大企業(yè)積極尋求的高性能計

算方案中，基于以太網(wǎng)的RDMA（Remote Direct Memory Access）憑借其高性能和低成本優(yōu)勢逐漸取代InfiniBand而成為主流技術(shù)。RoCEv2（RDMA over

Converged Ethernet）技術(shù)基于UDP協(xié)議，對于建設(shè)支撐AI應(yīng)用的高性能無損以太網(wǎng)絡(luò)變得尤為重要。

結(jié)合設(shè)備轉(zhuǎn)發(fā)層面的時延優(yōu)化手段，高性能無損網(wǎng)絡(luò)的實現(xiàn)取決于兩個要素：

無帶寬收斂（1:1）的網(wǎng)絡(luò)架構(gòu)設(shè)計

基于PFC（Priority-Based Flow Control）和ECN（explicit congestion notification）功能的優(yōu)先隊列管理和擁塞管理

綜上，AI集群高性能計算和網(wǎng)絡(luò)方案實踐思路如下圖所示：

▲ AI集群高性能方案關(guān)鍵技術(shù)組合

在這里，我以25G網(wǎng)絡(luò)為例，結(jié)合業(yè)界主流產(chǎn)品形態(tài)，分享AI網(wǎng)絡(luò)架構(gòu)設(shè)計和實現(xiàn)思路。

主要設(shè)計理念：

讓核心設(shè)備全線速高性能轉(zhuǎn)發(fā)，核心之間不互聯(lián)，采用Fabric架構(gòu)，隔離核心故障，最大程度降低核心故障的影響；

讓三層路由組網(wǎng)，通過ECMP提高冗余度，降低故障風(fēng)險；

讓 TOR上下行收斂比嚴(yán)格實現(xiàn)1:1，通過提高核心設(shè)備接口密度擴展單集群服務(wù)器規(guī)模；

讓應(yīng)用PFC+ECN功能，實現(xiàn)低延時無損網(wǎng)絡(luò)。

網(wǎng)絡(luò)架構(gòu)設(shè)計：

1.中小型（集群規(guī)模1000臺）

▲ 架構(gòu)設(shè)計

架構(gòu)特性：

每臺TOR采用8*100GE上聯(lián)8臺32口100G BOX交換機，OSPF/BGP組網(wǎng)

適用集群規(guī)模1000臺

每臺TOR下聯(lián)32臺Servers，IDC內(nèi)收斂比1:1 ，集群帶寬25Tbps

2.中型（集群規(guī)模2000臺）

▲ 架構(gòu)設(shè)計

架構(gòu)特性：

每臺TOR采用8*100GE上聯(lián)8臺64口100G BOX，OSPF/BGP組網(wǎng)

適用集群規(guī)模2000臺

每臺TOR下聯(lián)32臺Servers，IDC內(nèi)收斂比1:1 ，集群帶寬50Tbps

3.大型（集群規(guī)模2000-18000臺）

▲ 架構(gòu)設(shè)計

架構(gòu)特性：

每臺TOR采用8*100GE上聯(lián)4~8臺核心（機框式），BGP組網(wǎng)

適用集群規(guī)模2000~18000臺

每臺TOR下聯(lián)32臺Servers，IDC內(nèi)收斂比1:1 ，集群帶寬50~450Tbps

4.超大型（集群規(guī)模20000+臺）

▲ 架構(gòu)設(shè)計

架構(gòu)特性：

單POD集群規(guī)模1000~2000臺，數(shù)據(jù)中心集群規(guī)模20000+，BGP組網(wǎng)

POD內(nèi)收斂比1:1，單POD集群帶寬25Tbps，總集群帶寬500Tbps+

POD內(nèi)收斂比和上行帶寬根據(jù)集群帶寬需求靈活配置，適用與非AI應(yīng)用混合部署

在數(shù)據(jù)中心網(wǎng)絡(luò)中，PFC和ECN功能將部署在Leaf和Spine設(shè)備上。PFC作用于設(shè)備互聯(lián)端口，通過反壓影響上游端口隊列的發(fā)送速率，而ECN是作用在設(shè)備轉(zhuǎn)發(fā)過程，最終影響的是數(shù)據(jù)流的發(fā)送方，通過降低某條數(shù)據(jù)流發(fā)送速率規(guī)避數(shù)據(jù)丟包。

q8.png

PFC 機制將以太鏈路上的流量區(qū)分為不同的等級，基于每條流量單獨發(fā)送“不許可證”。相對于PAUSE幀而言，PFC可以將鏈路虛擬出8條不同等級的虛擬通道，當(dāng)某條通道出現(xiàn)擁塞后不會影響其它通道。

RoCEv2 定義了 RoCEv2 Congestion Management （ RCM ），其中擁塞管理用的特性ECN（RFC 3168）是在交換機出口（egress port）發(fā)起的擁塞控制機制。當(dāng)交換機的出口buffer達到設(shè)定的閾值時，交換機會改變數(shù)據(jù)包頭中的ECN位來給數(shù)據(jù)打上ECN標(biāo)簽，當(dāng)帶ECN標(biāo)簽的數(shù)據(jù)到達接收端以后，接收端會生成CNP（Congestion Notification Packet）并將它發(fā)送給發(fā)送端。CNP包含了導(dǎo)致?lián)砣膄low或QP的信????，當(dāng)發(fā)送端收到CNP后，會采取措施降低發(fā)送速度。

由于PFC作用于整個隊列，而ECN只針對產(chǎn)生擁塞的具體會話，在設(shè)置PFC和ECN相關(guān)水線時，應(yīng)做到先觸發(fā)ECN后再觸發(fā)PFC。

從外賣訂單和叫車訂單的智能調(diào)度，到電商平臺的智能推薦，再到人臉識別支付以及即將實現(xiàn)的全自動無人駕駛汽車量產(chǎn)，AI技術(shù)的應(yīng)用已在方方面面影響著人們的生活和工作，讓大家的生活越來越便捷、時間利用越來越合理。但是，這都離不開基礎(chǔ)設(shè)施的支撐。銳捷網(wǎng)絡(luò)將憑借在數(shù)據(jù)通信領(lǐng)域近20年的技術(shù)積累和行業(yè)經(jīng)驗，創(chuàng)新出更好的產(chǎn)品和解決方案，助力AI技術(shù)的蓬勃發(fā)展。

分享到新浪微博微信

上一篇：中外專家齊聚長沙探討數(shù)據(jù)中心降耗新技術(shù)

下一篇：大數(shù)據(jù)、物聯(lián)網(wǎng)蓬勃發(fā)展數(shù)字福州騰“云”駕“物”