近日,中國電信云網(wǎng)融合工作取得新突破。中國電信集團公司統一組織中國電信北京公司、中國電信研究院,在現網(wǎng)完成業(yè)內首例智算長(cháng)距無(wú)損互聯(lián)技術(shù)驗證,分布式訓練性能達到集中式單智算中心訓練性能的90%以上,證實(shí)了分布式無(wú)損智算網(wǎng)技術(shù)方向的可行性,充分發(fā)揮出中國電信云網(wǎng)融合的優(yōu)勢。
大模型的參數規模每18個(gè)月提升10倍,驅動(dòng)智算中心建設規模從萬(wàn)卡,邁入十萬(wàn)乃至百萬(wàn)卡,單體數據中心的算力、空間、供電等資源難以滿(mǎn)足需求。中國電信一直走在智算基礎設施建設的前列,集團云網(wǎng)發(fā)展部在業(yè)界率先提出通過(guò)長(cháng)距無(wú)損智算網(wǎng)構建分布式智算集群的創(chuàng )新方向,并將其納入到科創(chuàng )重點(diǎn)攻關(guān)課題。而當前業(yè)內大模型訓練網(wǎng)絡(luò )最遠無(wú)損傳輸距離不超過(guò)2公里,長(cháng)距離無(wú)損傳輸一直是困擾業(yè)界的難題。
中國電信成立聯(lián)合項目攻關(guān)組,聚焦研究長(cháng)距無(wú)損智算網(wǎng)絡(luò )技術(shù)。經(jīng)過(guò)近一年的攻關(guān),成功解決了超百公里無(wú)損智算網(wǎng)難題,智算DCN網(wǎng)絡(luò )由DC內走向廣域網(wǎng),將物理上分散的智算資源整合成一個(gè)智算集群。聯(lián)合項目組嚴謹論證,扎實(shí)推進(jìn),于2023年8月份完成分布式無(wú)損智算網(wǎng)方案設計,同年10月份開(kāi)始基于云網(wǎng)融合大科創(chuàng )裝置持續開(kāi)展長(cháng)距無(wú)損交換機技術(shù)驗證,2024年2月份在北京電信現網(wǎng)完成800G超高速波分技術(shù)驗證。通過(guò)不斷完善和優(yōu)化,近日在實(shí)驗室完成萬(wàn)億/十萬(wàn)億級參數大模型分布式訓練仿真驗證,并在北京電信武清、永豐、瀛海三地IDC機房完成數百億參數經(jīng)典大模型的分布式訓練任務(wù),這將為京津冀等算力協(xié)同調度奠定基礎,促進(jìn)數字經(jīng)濟與實(shí)體經(jīng)濟的深入融合。
未來(lái),中國電信將繼續面向更大規模、更長(cháng)距離的分布式智算網(wǎng)發(fā)起攻關(guān),走出一條具備中國電信特色的新型智算基礎設施發(fā)展道路,賦能千行百業(yè)智能化升級。