極客網(wǎng)·極客觀察(朱飛)8月7日 2025年被認(rèn)為是AI智能體的元年,是AI走向大規(guī)模應(yīng)用的開(kāi)始。隨著AI應(yīng)用爆發(fā),算力的需求邏輯也正在被重塑:AI推理——而不是訓(xùn)練,將成為未來(lái)算力需求的核心增長(zhǎng)點(diǎn)。
這種趨勢(shì)在剛剛結(jié)束的2025年世界人工智能大會(huì)(WAIC)多有體現(xiàn)。一方面,主流大模型玩家紛紛推動(dòng)成熟產(chǎn)品“瘦身”,以輕量化模型適配更多終端設(shè)備。另一方面,多家AI Infra創(chuàng)企押注AI推理芯片,搶抓AI模型從實(shí)驗(yàn)室走向生產(chǎn)場(chǎng)景的紅利。
中信建投在2025 WAIC期間發(fā)布的白皮書(shū)指出,隨著AI算力消耗從訓(xùn)練向推理的結(jié)構(gòu)性轉(zhuǎn)變,國(guó)內(nèi)算力消耗正快速增長(zhǎng)(如字節(jié)跳動(dòng)每三個(gè)月Token消耗接近翻一倍,5月底為16.4萬(wàn)億Token),按此趨勢(shì)主流云服務(wù)商將很快感受到算力緊張、出現(xiàn)算力缺口。
就在這個(gè)節(jié)骨眼上,中美AI推理體驗(yàn)的鴻溝已經(jīng)顯現(xiàn)。相比以美國(guó)為代表的領(lǐng)先國(guó)家,中國(guó)大模型的推理體驗(yàn)(包括時(shí)延、準(zhǔn)確度、上下文推理等方面)已大幅落后;風(fēng)靡一時(shí)的DeepSeek等國(guó)內(nèi)開(kāi)源大模型,活躍用戶數(shù)遭遇了嚴(yán)重下滑。
如果說(shuō)大模型訓(xùn)練是“練兵千日”,那么推理就是“用兵一時(shí)”。站在2025這個(gè)本該兌現(xiàn)AI商用價(jià)值的關(guān)鍵時(shí)刻,推理算力卻成了新的“吞金獸”,不持續(xù)“堆芯片”用戶體驗(yàn)就難以為繼,這要求全球各國(guó)、各行各業(yè)都引起高度重視,找到推理體驗(yàn)與算力成本的平衡點(diǎn)。
尤其是對(duì)于高端算力芯片受限、軟件及生態(tài)薄弱的中國(guó)AI產(chǎn)業(yè)來(lái)說(shuō),我們必須在“戴著鐐銬跳舞”的現(xiàn)實(shí)中尋求新的突破、找到新的解法,別讓中美AI競(jìng)爭(zhēng)輸在“最后一公里”!
Token經(jīng)濟(jì)時(shí)代:打不起的價(jià)格戰(zhàn),輸不得的體驗(yàn)戰(zhàn)
在AI商業(yè)化過(guò)程中,Token(詞元)被迅速推至臺(tái)前。它既是大模型訓(xùn)練及推理過(guò)程中處理的最小語(yǔ)義單元,也是最基礎(chǔ)的計(jì)量計(jì)費(fèi)單位,用于衡量AI產(chǎn)品服務(wù)使用量和商業(yè)化收費(fèi)標(biāo)準(zhǔn),因而AI時(shí)代也被稱為Token經(jīng)濟(jì)時(shí)代。
類似于移動(dòng)通信數(shù)據(jù)流量伴隨3G-4G-5G升級(jí)而大幅提升,隨著模型逐漸復(fù)雜化和業(yè)務(wù)場(chǎng)景不斷豐富,用戶的Token消耗量也在與日俱增。比如,智能體(Agent)執(zhí)行一次任務(wù)平均消耗的Token已達(dá)到10萬(wàn)量級(jí);海量用戶匯聚使得單個(gè)頭部大模型日均Token消耗量已達(dá)百億級(jí),推理成本持續(xù)攀升。
這種成本攀升折射到國(guó)內(nèi)市場(chǎng),可以發(fā)現(xiàn)去年打得火熱的Token價(jià)格戰(zhàn)到今年已經(jīng)趨于冷靜,主流大模型廠商已從單純降價(jià)轉(zhuǎn)向技術(shù)升級(jí)與場(chǎng)景優(yōu)化結(jié)合(包括支持超長(zhǎng)文本處理、多模態(tài)推理等差異化能力),避免淪為芯片廠商的“打工人”,甚至賠本賺吆喝。
即便如此,受限于高端芯片供給和資本開(kāi)支差距,中國(guó)大模型的推理體驗(yàn)已經(jīng)落后于美國(guó)領(lǐng)先大模型。資料顯示,OpenAI O3 mini、Google Gemini等模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),中國(guó)普遍小于60 Tokens/s(時(shí)延50~100ms)。比如OpenAI O3 mini每秒能輸出的Token(214個(gè))約為DeepSeek(21個(gè))的10倍,用戶會(huì)直接感受到OpenAI給出回答的時(shí)間要比DeepSeek快很多。
體驗(yàn)掉隊(duì)的代價(jià)是巨大的。有數(shù)據(jù)顯示,相比其他頂尖模型用戶數(shù)持續(xù)增長(zhǎng),DeepSeek用戶數(shù)自發(fā)布后絕對(duì)流量一直在下降,其使用率已從年初的50%暴跌至當(dāng)前的3%左右,用戶正在從DeepSeek流失轉(zhuǎn)向其他模型應(yīng)用。
一言以蔽之,不同于邊際成本極低的互聯(lián)網(wǎng)時(shí)代,算力成本高企(GPU價(jià)格昂貴且超負(fù)荷使用兩三年就得換新)的Token經(jīng)濟(jì)時(shí)代,Token量越大越是打不起價(jià)格戰(zhàn),當(dāng)然也輸不得體驗(yàn)戰(zhàn)。要在AI時(shí)代健康可持續(xù)發(fā)展,必須解決推理體驗(yàn)與算力成本平衡的難題。
“戴著鐐銬跳舞”:GPU+HBM被鎖死,軟件生態(tài)也旁落
面對(duì)這一難題,在以美國(guó)為首的算力充沛國(guó)家,中高端GPU搭載HBM(高帶寬內(nèi)存)的產(chǎn)品形態(tài)已成為主流趨勢(shì)。MLPerfTM基準(zhǔn)測(cè)試顯示,HBM可使推理速度提升30-60%;反之,HBM不足時(shí),推理體驗(yàn)會(huì)明顯下降,如出現(xiàn)任務(wù)卡頓、響應(yīng)慢等問(wèn)題。
背后的技術(shù)邏輯在于,AI推理需要頻繁讀取模型參數(shù)和輸入數(shù)據(jù),而HBM是解決“數(shù)據(jù)搬運(yùn)”的關(guān)鍵。作為一種通過(guò)3D堆疊和超寬接口實(shí)現(xiàn)極高數(shù)據(jù)傳輸帶寬的先進(jìn)內(nèi)存技術(shù),HBM可顯著提升內(nèi)存與GPU、NPU等處理器之間傳輸數(shù)據(jù)的速度,確保計(jì)算核心以極高的速度獲取所需的數(shù)據(jù),從而最大限度利用AI加速器的強(qiáng)大算力,提高推理吞吐量。
然而,和中高端GPU一樣,全球HBM市場(chǎng)也高度集中并掌握在國(guó)外頭部廠商手里。它們與先進(jìn)芯片一起被納入美國(guó)“長(zhǎng)臂管轄”的銷售管制清單,中國(guó)廠商無(wú)法獲?。ㄌ毓┌鍳PU和HBM能力都被嚴(yán)重“閹割”),導(dǎo)致中國(guó)大模型的推理體驗(yàn)提升受到極大制約,“錢花了還辦不成事”。
更觸目驚心的是,“戴著鐐銬跳舞”(比如使用英偉達(dá)的低端H20產(chǎn)品)的中國(guó)模型服務(wù)商,正匍匐在一條將應(yīng)用生態(tài)構(gòu)筑在別人“地基”(比如英偉達(dá)CUDA)之上的老路。當(dāng)英偉達(dá)通過(guò)“硬件迭代→軟件優(yōu)化→生態(tài)綁定”構(gòu)建起推理時(shí)代的“鐵三角”時(shí),中國(guó)廠商連對(duì)方的低端產(chǎn)品也很難離開(kāi)(調(diào)研顯示從英偉達(dá)等生態(tài)遷移至國(guó)產(chǎn)平臺(tái)需重構(gòu)70%代碼,成本相當(dāng)于三個(gè)程序員年薪),完全陷入美國(guó)編織的AI秩序里。
這里面涉及的技術(shù)賬、經(jīng)濟(jì)賬、安全賬都是十分沉重的,必須引起高度的重視!從技術(shù)效率上講,低端技術(shù)長(zhǎng)期看肯定打不過(guò)中高端技術(shù),必然導(dǎo)致產(chǎn)品競(jìng)爭(zhēng)力下降;從經(jīng)濟(jì)成本看,“質(zhì)次價(jià)高”的特供芯片,絕非平衡推理體驗(yàn)與算力成本的優(yōu)選方案;從供應(yīng)鏈安全角度看,國(guó)產(chǎn)化遷移改造的歷史進(jìn)程,絕對(duì)容不得算力芯片漏洞后門的掣肘。
破局之道暢想:從單點(diǎn)突破到系統(tǒng)創(chuàng)新,重視軟件及生態(tài)
何以破局?參照我國(guó)在AI訓(xùn)練階段的突圍之道(比如昇騰384超節(jié)點(diǎn)以集群方式突破性能極限),AI推理或許也可以從單點(diǎn)突破走向系統(tǒng)創(chuàng)新,重視軟件能力并及早培育生態(tài),彌補(bǔ)硬件物理層面的不足和限制,探尋一條可持續(xù)、可復(fù)制的最佳路徑。
從技術(shù)層面看,AI推理的關(guān)鍵在于鍵值緩存(KV Cache),其好比一份“上下文備忘錄”——緩存前面所有內(nèi)容的關(guān)鍵信息(Key和Value),讓AI生成下一個(gè)詞時(shí)不用重復(fù)計(jì)算歷史信息,從而大幅加速推理過(guò)程。但KV Cache需要占用GPU的顯存(如HBM),生成的文本越長(zhǎng),緩存的數(shù)據(jù)量就越大,容易觸發(fā)容量限制,導(dǎo)致推理時(shí)延增加、吞吐量下降。業(yè)界可以考慮通過(guò)硬件+軟件系統(tǒng)創(chuàng)新的方式,將KV Cache緩存至存儲(chǔ)層,以AI存儲(chǔ)方案加速AI推理,減少對(duì)昂貴HBM的依賴。
從生態(tài)層面看,面對(duì)國(guó)產(chǎn)化改造和AI推理爆發(fā)的巨大機(jī)遇,業(yè)界龍頭廠商、行業(yè)頭部用戶要站出來(lái)先行先試,驗(yàn)證技術(shù)方案,打造聯(lián)盟生態(tài),別讓“樓房建起來(lái)了再去重構(gòu)地基”,費(fèi)時(shí)費(fèi)力又費(fèi)錢。特別是數(shù)字化程度高、數(shù)據(jù)密度大、AI應(yīng)用場(chǎng)景豐富的金融、醫(yī)療、教育等行業(yè),一定要從一開(kāi)始便算好技術(shù)賬、經(jīng)濟(jì)賬和安全賬,以生態(tài)之力護(hù)航AI轉(zhuǎn)型行穩(wěn)致遠(yuǎn)。
回顧過(guò)去,美國(guó)憑借龍頭企業(yè)技術(shù)引領(lǐng)+產(chǎn)業(yè)生態(tài)深度協(xié)同的“組合拳”,統(tǒng)治了計(jì)算產(chǎn)業(yè)從專用計(jì)算到通用計(jì)算的大部分時(shí)期。就在7月下旬,美國(guó)又發(fā)布了《贏得AI競(jìng)賽:美國(guó)AI行動(dòng)計(jì)劃》,再次顯露主導(dǎo)全球人工智能發(fā)展的野心。此時(shí)此刻,在AI大模型“練兵千日,用兵一時(shí)”的歷史拐點(diǎn),產(chǎn)業(yè)各界必須警覺(jué)起來(lái),別讓中美AI競(jìng)爭(zhēng)輸在“最后一公里”!
- 人形機(jī)器人為何進(jìn)展緩慢?伯克利專家:因?yàn)閿?shù)據(jù)量差了10萬(wàn)年
- “AI泡沫”可能要破滅了?華爾街憂心忡忡
- 特朗普 “混改” 英特爾:全球半導(dǎo)體格局“碎片化”風(fēng)險(xiǎn)進(jìn)一步加劇
- 外媒評(píng)北京世界人形機(jī)器人運(yùn)動(dòng)會(huì):進(jìn)步神速,比真人刺激
- GPT-5難續(xù)輝煌:縮放定律失靈,AI經(jīng)濟(jì)規(guī)??挚s至千億級(jí)?
- 美國(guó)AI正快速催生億萬(wàn)富豪 但對(duì)整體就業(yè)市場(chǎng)影響不大
- 大模型訓(xùn)練“練兵千日”,別輸在AI推理“用兵一時(shí)”
- 硅谷告別躺平時(shí)代!996甚至007套餐已經(jīng)安排上
- 來(lái)自上海WAIC的信號(hào):AI大模型實(shí)現(xiàn)飛躍,人形機(jī)器人進(jìn)步神速
- WAIC 2025觀察 | “沖上去”的超聚變,如何做智能體時(shí)代的探索者?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。