大模型背景下，智能計(jì)算發(fā)展有哪些新態(tài)勢(shì)？

中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2024-05-02

　　當(dāng)前，智能算力需求倍增，千卡計(jì)算集群成為大模型訓(xùn)練標(biāo)配，巨量參數(shù)、海量數(shù)據(jù)是人工智能大模型研發(fā)的必經(jīng)之路。以ChatGPT為代表的多模態(tài)AI大模型成為人工智能邁向通用智能的里程碑技術(shù)，2018年-2024年OpenAI公司先后發(fā)布GPT-3.5、GPT-4、Sora等大模型，參數(shù)規(guī)模突破萬(wàn)億，模型訓(xùn)練數(shù)據(jù)量達(dá)TB級(jí)別，應(yīng)用場(chǎng)景覆蓋文生文、文生圖、文生視頻等多模態(tài)計(jì)算任務(wù)。參數(shù)規(guī)模在百億到千億區(qū)間、訓(xùn)練數(shù)據(jù)TB級(jí)別以上，已成為研發(fā)具備涌現(xiàn)能力大模型的必備條件。

　　2003年-2023年20年間智能算力需求增長(zhǎng)百億倍，遠(yuǎn)超摩爾定律提升速度。以ChatGPT為代表的人工智能大模型突破性進(jìn)展激發(fā)全球智能計(jì)算發(fā)展熱潮，大模型算力需求遠(yuǎn)超半導(dǎo)體增長(zhǎng)速度，算力需求增長(zhǎng)與芯片性能增長(zhǎng)之間逐漸不匹配。根據(jù)公開(kāi)數(shù)據(jù)測(cè)算，以AlexNet為代表的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練計(jì)算量以5～7個(gè)月翻倍增長(zhǎng)，當(dāng)前基于Transformer的大模型計(jì)算量以4～5個(gè)月翻倍增長(zhǎng)；然而芯片側(cè)，CPU依舊延續(xù)摩爾定律以兩年性能翻倍的速度發(fā)展，GPU芯片通過(guò)架構(gòu)創(chuàng)新持續(xù)強(qiáng)化并行計(jì)算能力，實(shí)現(xiàn)十年千倍增長(zhǎng)速度（int8算力）?，F(xiàn)階段，業(yè)界通過(guò)算力堆疊以及芯片、軟件、互聯(lián)等協(xié)同技術(shù)系統(tǒng)性能提升以滿足大模型智能算力激增要求，千卡算力芯片構(gòu)建的集群成為千億參數(shù)大模型訓(xùn)練的標(biāo)配。

　　芯片、軟件、互聯(lián)等技術(shù)創(chuàng)新是算力提升關(guān)鍵

　　多維度架構(gòu)創(chuàng)新實(shí)現(xiàn)芯片性能倍增。與通用計(jì)算芯片不同，智能計(jì)算芯片微架構(gòu)創(chuàng)新對(duì)其算力提升影響超過(guò)工藝制程。英偉達(dá)重視GPU微架構(gòu)創(chuàng)新，2010年以來(lái)已累計(jì)實(shí)現(xiàn)9次架構(gòu)升級(jí)，結(jié)合工藝升級(jí)實(shí)現(xiàn)了十年千倍的性能提升。最新Blackwell GPU架構(gòu)內(nèi)置第二代Transformer引擎和專用RAS安全引擎，全面提升計(jì)算效率和部署穩(wěn)定性。第二代Transformer引擎支持微張量縮放和動(dòng)態(tài)范圍管理算法，擴(kuò)展支持新型FP6、FP4精度計(jì)算，實(shí)現(xiàn)自動(dòng)調(diào)整精度以達(dá)到芯片最優(yōu)算力性能；RAS引擎基于人工智能的預(yù)防性維護(hù)技術(shù)完成芯片運(yùn)行狀態(tài)的診斷，最大化延長(zhǎng)系統(tǒng)運(yùn)行時(shí)間和降低運(yùn)營(yíng)成本。

　　深度學(xué)習(xí)框架和軟件棧間接口高效適配成為芯片好用的關(guān)鍵。深度學(xué)習(xí)框架在支撐應(yīng)用開(kāi)發(fā)的同時(shí)，需要完成與底層芯片軟件棧的高效適配。開(kāi)發(fā)框架方面，提供分布式調(diào)度、訪存優(yōu)化、模型并行、數(shù)據(jù)并行等開(kāi)發(fā)能力，支持分布式大模型高性能訓(xùn)練與推理已成為框架高效應(yīng)用的關(guān)鍵。PyTorch采用類Python語(yǔ)法降低使用門(mén)檻，動(dòng)態(tài)計(jì)算圖設(shè)計(jì)思路便于靈活調(diào)試，加快模型的訓(xùn)練和優(yōu)化過(guò)程，是當(dāng)前算法應(yīng)用開(kāi)發(fā)的主力產(chǎn)品。軟件棧方面，重點(diǎn)強(qiáng)化大模型加速庫(kù)能力建設(shè)，通過(guò)向用戶提供易用、高效的芯片編程接口，提高開(kāi)發(fā)人員的工作效率，目前已推出針對(duì)深度學(xué)習(xí)計(jì)算、優(yōu)化模型推理和加速科學(xué)計(jì)算、圖形計(jì)算的專用加速庫(kù)，滿足多樣化智能計(jì)算需求。

　　高速互聯(lián)是大規(guī)模算力集群構(gòu)建的基礎(chǔ)。芯片間、服務(wù)器間、集群間的高速互聯(lián)、無(wú)損網(wǎng)絡(luò)能力建設(shè)，是支撐千卡、萬(wàn)卡智能算力集群計(jì)算需求的必備條件，英偉達(dá)新一代NVLink 5高帶寬互聯(lián)技術(shù)支持GPU間、GPU與Grace CPU直連，帶寬從H100的900Gb/s提升到1800Gb/s，與NVLink交換機(jī)聯(lián)合使用可最高支持576個(gè)GPU高速通信，是H100芯片最大直連數(shù)量的2倍，為支持萬(wàn)億參數(shù)大模型訓(xùn)練提供基礎(chǔ)。

　　巨頭蜂擁智能計(jì)算賽道寡頭壟斷與多體系并存

　　計(jì)算核心企業(yè)加快智能計(jì)算產(chǎn)品端到端體系化布局，搶占產(chǎn)業(yè)生態(tài)主導(dǎo)權(quán)。英偉達(dá)鞏固GPU芯片性能優(yōu)勢(shì)的同時(shí)，向CPU、服務(wù)器架構(gòu)、云平臺(tái)等下游滲透，借助B200、H100芯片和DGX SuperPOD計(jì)算集群主導(dǎo)地位開(kāi)辟云服務(wù)DGX Cloud，使企業(yè)能夠立即訪問(wèn)生成式AI應(yīng)用和訓(xùn)練模型所需的基礎(chǔ)設(shè)施與軟件。AMD強(qiáng)化“CPU+GPU”雙芯片戰(zhàn)略布局，CPU方面，通過(guò)改進(jìn)分支預(yù)測(cè)、增加浮點(diǎn)支持指令等持續(xù)迭代升級(jí)芯片性能，GPU方面，發(fā)布基于CDNA 3架構(gòu)的人工智能芯片MI300A和MI300X以搶占大模型算力市場(chǎng)份額。英特爾圍繞高性能計(jì)算優(yōu)勢(shì)領(lǐng)域，逐步向GPU、ASIC等面向人工智能技術(shù)路線的產(chǎn)品體系布局，推出Habana Gaudi 2、Xe GPU等產(chǎn)品。但從全球智能計(jì)算芯片市場(chǎng)的規(guī)模來(lái)看，英偉達(dá)主導(dǎo)地位明顯，市場(chǎng)占有率超80％，短期內(nèi)領(lǐng)先的市場(chǎng)格局不會(huì)改變。

　　云平臺(tái)及AI企業(yè)向底層芯片領(lǐng)域滲透，但僅少量自研芯片實(shí)際部署應(yīng)用。谷歌、微軟、亞馬遜等云廠商依托云計(jì)算優(yōu)勢(shì)向底層芯片領(lǐng)域滲透。谷歌自研張量處理器芯片TPU歷經(jīng)五代迭代創(chuàng)新，于2023年8月發(fā)布新一代定制TPU v5e用于大模型訓(xùn)練和推理，目前已批量應(yīng)用于自研LLaMA大模型訓(xùn)練推理任務(wù)中。微軟于2023年11月發(fā)布Maia 100和Cobalt 100芯片，Maia 100專為Azure云生成式AI業(yè)務(wù)設(shè)計(jì)，提供自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)等計(jì)算服務(wù)，已在Bing和Office AI產(chǎn)品上完成測(cè)試；Cobalt 100是基于ARM架構(gòu)的通用計(jì)算芯片，當(dāng)前已為Microsoft Teams等應(yīng)用提供支持；然而上述兩款芯片至今僅支持微軟自家云服務(wù)，尚未向合作伙伴和客戶開(kāi)放芯片產(chǎn)品供應(yīng)。微軟自研推理芯片Inferentia和訓(xùn)練芯片Trainium，2023年4月更新的Inferentia 2芯片進(jìn)一步提升計(jì)算性能，通過(guò)多卡高速互聯(lián)可完成千億參數(shù)大模型推理任務(wù)。但從實(shí)際應(yīng)用來(lái)看，國(guó)內(nèi)外云廠商僅在有限的特定算法場(chǎng)景中使用自研芯片，對(duì)外提供的穩(wěn)定、可靠的高性能智能算力服務(wù)均基于英偉達(dá)加速卡產(chǎn)品實(shí)現(xiàn)。

　　智能計(jì)算生態(tài)軟硬深度綁定發(fā)展

　　計(jì)算企業(yè)均構(gòu)建了與自研芯片相對(duì)應(yīng)的端到端軟件棧。目前國(guó)內(nèi)企業(yè)均構(gòu)建了與自研芯片相對(duì)應(yīng)的端到端軟件棧（含驅(qū)動(dòng)層、編譯器、加速庫(kù)、工具鏈等），存在兼容英偉達(dá)CUDA生態(tài)和自研軟件棧等技術(shù)路線。一方面，英特爾、AMD等企業(yè)在工具鏈API接口協(xié)議等方面與CUDA對(duì)應(yīng)一致，便于把CUDA程序快速遷移到自研GPU硬件平臺(tái)，降低芯片應(yīng)用門(mén)檻，滿足不同應(yīng)用開(kāi)發(fā)及調(diào)試需求。另一方面，谷歌自研TPU芯片應(yīng)用時(shí)，自研軟件棧編譯器等工具，針對(duì)特定算法應(yīng)用進(jìn)行優(yōu)化，實(shí)現(xiàn)處理效率和性能的提升。

　　國(guó)內(nèi)軟件生態(tài)豎井及碎片化發(fā)展，應(yīng)用跨平臺(tái)遷移難度大、成本高?！翱蚣?工具鏈+硬件”緊密耦合的長(zhǎng)鏈條，端到端緊耦合、接口互不兼容，致使上層應(yīng)用與特定系統(tǒng)鎖定，是形成繁多豎井生態(tài)的根本性因素。對(duì)于應(yīng)用開(kāi)發(fā)者而言，應(yīng)用開(kāi)發(fā)人員在使用多芯片異構(gòu)算力進(jìn)行AI算法實(shí)現(xiàn)過(guò)程中，不同廠家開(kāi)發(fā)的框架應(yīng)用程序接口、編程庫(kù)和操作系統(tǒng)尚不統(tǒng)一，DSA架構(gòu)專用芯片編程范式和軟件?；ゲ患嫒荩柙贠penCL、OpenACC、OpenMP等多種模型范式間切換。開(kāi)發(fā)框架、軟件棧豎井式的開(kāi)發(fā)生態(tài)增加了應(yīng)用開(kāi)發(fā)人員的開(kāi)發(fā)成本，應(yīng)用企業(yè)為開(kāi)發(fā)出能夠適配多種異構(gòu)AI芯片算力的算法程序，需建立多支開(kāi)發(fā)團(tuán)隊(duì)、維護(hù)多個(gè)程序版本，成為業(yè)界運(yùn)用異構(gòu)算力的主要瓶頸。

　　轉(zhuǎn)自：人民郵電報(bào)

返回產(chǎn)經(jīng)網(wǎng)首頁(yè) >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車(chē)工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

微信公眾號(hào)

違法和不良信息舉報(bào)電話 010-65363056 65363079 舉報(bào)流程

版權(quán)所有：中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964

制服丝袜在线无码中文_国产精品成年片在线观看_久久亚洲精品1区2区_免费AV一区二区三区无码

大模型背景下，智能計(jì)算發(fā)展有哪些新態(tài)勢(shì)？

熱點(diǎn)視頻

熱點(diǎn)新聞

熱點(diǎn)輿情

微信公眾號(hào)

大模型背景下，智能計(jì)算發(fā)展有哪些新態(tài)勢(shì)？