11月28日消息,人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025公布了論文獎(jiǎng),阿里通義千問團(tuán)隊(duì)最新研究成果從全球2萬多篇投稿論文中脫穎而出,被評(píng)為最佳論文,是唯一獲得該獎(jiǎng)項(xiàng)的中國團(tuán)隊(duì)。該論文首次在業(yè)內(nèi)揭秘了注意力門控機(jī)制對大模型性能和訓(xùn)練的影響,業(yè)內(nèi)人士普遍認(rèn)為該研究是突破當(dāng)下大模型訓(xùn)練瓶頸的重要一步,將有力推動(dòng)AI大模型技術(shù)的發(fā)展。
NeurIPS是人工智能領(lǐng)域影響力最大的頂會(huì)之一,該會(huì)議誕生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微軟、OpenAI、阿里巴巴及麻省理工學(xué)院等全球頂尖科技公司和機(jī)構(gòu)共有2萬多篇論文投稿,僅有約25%的論文被接收,而最佳論文僅有4篇,入選概率不及萬分之二,代表了目前全球人工智能領(lǐng)域最有價(jià)值和影響力的研究。
2017年,谷歌在NeurIPS發(fā)表的論文首次提出Transformer模型架構(gòu)和自注意力機(jī)制,這一研究讓AI像人類一樣具備有選擇性地關(guān)注關(guān)鍵信息的能力,是當(dāng)下大模型研究的基礎(chǔ)。盡管現(xiàn)在大模型在很多領(lǐng)域已經(jīng)取得接近甚至超越人類的表現(xiàn),但現(xiàn)有注意力機(jī)制仍存在諸多局限,例如當(dāng)下大模型會(huì)因?yàn)檫^度關(guān)注特定信息而導(dǎo)致對其它重要信息的忽略或處理偏差,這些局限性極大地影響了模型性能和訓(xùn)練穩(wěn)定性,為此業(yè)界開始探索對注意力進(jìn)行優(yōu)化的新方案。
門控機(jī)制被認(rèn)為是模型的“智能閥門”,可以幫助模型過濾無效信息并提升模型性能。近年來,AlphaFold2、Forgetting Transformer等學(xué)術(shù)界和工業(yè)界模型開始嘗試將門控和注意力機(jī)制結(jié)合。但業(yè)界尚未破解門控在注意力中發(fā)揮作用的內(nèi)在原因,也缺少大規(guī)模實(shí)踐的經(jīng)驗(yàn)。
此次,通義千問研究團(tuán)隊(duì)通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上進(jìn)行了數(shù)十組實(shí)驗(yàn),單組實(shí)驗(yàn)訓(xùn)練最多超過 3.5 萬億 tokens,首次清晰揭秘了門控注意力背后的作用原理,并全面展示使用該方案的最佳方式。
實(shí)驗(yàn)結(jié)果顯示,對各注意力頭的輸出進(jìn)行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數(shù)的情況下,可實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評(píng)測2個(gè)點(diǎn)的提升。研究還發(fā)現(xiàn),該技術(shù)還能在更大規(guī)模的模型訓(xùn)練上實(shí)現(xiàn)更好的性能。
目前,該研究成果已應(yīng)用于Qwen3-Next模型,并顯著提升模型的性能與魯棒性,相關(guān)技術(shù)方案、實(shí)驗(yàn)?zāi)P图爱a(chǎn)品級(jí)模型均已開源。NeurIPS評(píng)審委員會(huì)指出:“這項(xiàng)工作將被廣泛應(yīng)用,并極大推動(dòng)AI研究人員對大語言模型中注意力機(jī)制的理解?!?/p>
通義千問團(tuán)隊(duì)表示:“對門控注意力機(jī)制的深入理解,不僅為大語言模型架構(gòu)設(shè)計(jì)提供了新思路,也為構(gòu)建更穩(wěn)定、更高效、更可控的大模型奠定了基礎(chǔ)?!睋?jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個(gè),位居全球第一。