日本A∨码与亚洲|乱伦无码免费无码区操|婷婷最爱五月综合69久久|久久日韩大片国家a级黄|欧美成人无码A片免费|亚洲性图一区二区三区|黄片欧美日韩一区三区|男女网站在线观看免费91|亚洲AV无码之国产精品|日本久久成人免费视频

摩爾線程夸娥(KUAE)智算集群解決方案擴(kuò)展至萬(wàn)卡規(guī)模

夸娥智算集群以全功能GPU為底座,實(shí)現(xiàn)單集群規(guī)模超萬(wàn)卡,浮點(diǎn)運(yùn)算能力達(dá)到10Exa-Flops,大幅提升單集群計(jì)算性能,能夠?yàn)槿f(wàn)億參數(shù)級(jí)別大模型訓(xùn)練提供堅(jiān)實(shí)算力基礎(chǔ)。

7月3日,摩爾線程宣布,其 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案從當(dāng)前的千卡級(jí)別擴(kuò)展至萬(wàn)卡規(guī)模。

夸娥萬(wàn)卡智算解決方案

摩爾線程夸娥(KUAE)萬(wàn)卡智算集群,以全功能GPU為底座,旨在打造國(guó)內(nèi)領(lǐng)先的、能夠承載萬(wàn)卡規(guī)模、具備萬(wàn)P級(jí)浮點(diǎn)運(yùn)算能力的國(guó)產(chǎn)通用加速計(jì)算平臺(tái),專(zhuān)為萬(wàn)億參數(shù)級(jí)別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)。這一里程碑式的進(jìn)展,樹(shù)立了國(guó)產(chǎn)GPU技術(shù)的新標(biāo)桿,有助于實(shí)現(xiàn)國(guó)產(chǎn)智算集群計(jì)算能力的全新跨越,將為我國(guó)人工智能領(lǐng)域技術(shù)與應(yīng)用創(chuàng)新、科研攻堅(jiān)和產(chǎn)業(yè)升級(jí)提供堅(jiān)實(shí)可靠的關(guān)鍵基礎(chǔ)設(shè)施。

夸娥萬(wàn)卡智算解決方案具備多個(gè)核心特性:

▼  超大算力,萬(wàn)卡萬(wàn)P:在集群計(jì)算性能方面,全新一代夸娥智算集群實(shí)現(xiàn)單集群規(guī)模超萬(wàn)卡,浮點(diǎn)運(yùn)算能力達(dá)到10Exa-Flops,大幅提升單集群計(jì)算性能,能夠?yàn)槿f(wàn)億參數(shù)級(jí)別大模型訓(xùn)練提供堅(jiān)實(shí)算力基礎(chǔ)。同時(shí),在GPU顯存和傳輸帶寬方面,夸娥萬(wàn)卡集群達(dá)到PB級(jí)的超大顯存總?cè)萘?、每秒PB級(jí)的超高速卡間互聯(lián)總帶寬和每秒PB級(jí)超高速節(jié)點(diǎn)互聯(lián)總帶寬,實(shí)現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化,全面提升集群計(jì)算性能。

▼超高穩(wěn)定,月級(jí)長(zhǎng)穩(wěn)訓(xùn)練:穩(wěn)定性是衡量超萬(wàn)卡集群性能的關(guān)鍵。在集群穩(wěn)定性方面,摩爾線程夸娥萬(wàn)卡集群平均無(wú)故障運(yùn)行時(shí)間超過(guò)15天,最長(zhǎng)可實(shí)現(xiàn)大模型穩(wěn)定訓(xùn)練30天以上,周均訓(xùn)練有效率在99%以上,遠(yuǎn)超行業(yè)平均水平。這得益于摩爾線程自主研發(fā)的一系列可預(yù)測(cè)、可診斷的多級(jí)可靠機(jī)制,包括:軟硬件故障的自動(dòng)定位與診斷預(yù)測(cè)實(shí)現(xiàn)分鐘級(jí)的故障定位,Checkpoint多級(jí)存儲(chǔ)機(jī)制實(shí)現(xiàn)內(nèi)存秒級(jí)存儲(chǔ)和訓(xùn)練任務(wù)分鐘級(jí)恢復(fù)以及高容錯(cuò)高效能的萬(wàn)卡集群管理平臺(tái)實(shí)現(xiàn)秒級(jí)納管分配與作業(yè)調(diào)度。

▼極致優(yōu)化,超高M(jìn)FU:MFU是評(píng)估大模型訓(xùn)練效率的通用指標(biāo),可以直接反應(yīng)端到端的集群訓(xùn)練效率。夸娥萬(wàn)卡集群在系統(tǒng)軟件、框架、算法等層面一系列優(yōu)化,實(shí)現(xiàn)大模型的高效率訓(xùn)練,MFU最高可達(dá)到60%。其中,在系統(tǒng)軟件層面,基于極致的計(jì)算和通訊效率優(yōu)化等技術(shù)手段,大幅提升集群的執(zhí)行效率和性能表現(xiàn)。在框架和算法層面,夸娥萬(wàn)卡集群支持多種自適應(yīng)混合并行策略與高效顯存優(yōu)化等,可以根據(jù)應(yīng)用負(fù)載選擇并自動(dòng)配置最優(yōu)的并行策略,大幅提升訓(xùn)練效率和顯存利用。同時(shí),針對(duì)超長(zhǎng)序列大模型,夸娥萬(wàn)卡集群通過(guò)CP并行、RingAttention等優(yōu)化技術(shù),有效縮減計(jì)算時(shí)間和顯存占用,大幅提升集群訓(xùn)練效率。

▼全能通用,生態(tài)友好:夸娥萬(wàn)卡集群是一個(gè)通用加速計(jì)算平臺(tái),計(jì)算能力為通用場(chǎng)景設(shè)計(jì),可加速LLM、MoE、多模態(tài)、Mamba等不同架構(gòu)、不同模態(tài)的大模型。同時(shí),基于高效易用的MUSA編程語(yǔ)言、完整兼容CUDA能力和自動(dòng)化遷移工具M(jìn)usify,加速新模型“Day0”級(jí)遷移,實(shí)現(xiàn)生態(tài)適配“Instant On”,助力客戶業(yè)務(wù)快速上線。

此外,摩爾線程聯(lián)合中國(guó)移動(dòng)通信集團(tuán)青海有限公司、中國(guó)聯(lián)通青海公司、北京德道信科集團(tuán)、中國(guó)能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司(排名不分先后)分別就三個(gè)萬(wàn)卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約,多方聚力共同構(gòu)建好用的國(guó)產(chǎn)GPU集群。(來(lái)源:摩爾線程)

相關(guān)推薦

發(fā)表評(píng)論