四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

入選概率不及萬分之二,阿里千問斬獲頂級(jí)AI會(huì)議最佳論文

阿里通義千問團(tuán)隊(duì)在人工智能頂級(jí)會(huì)議NeurIPS 2025中,憑借其研究成果斬獲最佳論文獎(jiǎng),成為唯一獲此殊榮的中國團(tuán)隊(duì)。該論文首次揭示了注意力門控機(jī)制對大模型性能和訓(xùn)練的影響,被認(rèn)為是突破大模型訓(xùn)練瓶頸的重要一步,有望推動(dòng)AI大模型技術(shù)的發(fā)展。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn),首次清晰揭秘了門控注意力背后的作用原理,并展示了使用該方案的最佳方式。

11月28日消息,人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025公布了論文獎(jiǎng),阿里通義千問團(tuán)隊(duì)最新研究成果從全球2萬多篇投稿論文中脫穎而出,被評(píng)為最佳論文,是唯一獲得該獎(jiǎng)項(xiàng)的中國團(tuán)隊(duì)。該論文首次在業(yè)內(nèi)揭秘了注意力門控機(jī)制對大模型性能和訓(xùn)練的影響,業(yè)內(nèi)人士普遍認(rèn)為該研究是突破當(dāng)下大模型訓(xùn)練瓶頸的重要一步,將有力推動(dòng)AI大模型技術(shù)的發(fā)展。

阿里通義千問研究成果被評(píng)為NeurIPS 2025最佳論文

NeurIPS是人工智能領(lǐng)域影響力最大的頂會(huì)之一,該會(huì)議誕生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微軟、OpenAI、阿里巴巴及麻省理工學(xué)院等全球頂尖科技公司和機(jī)構(gòu)共有2萬多篇論文投稿,僅有約25%的論文被接收,而最佳論文僅有4篇,入選概率不及萬分之二,代表了目前全球人工智能領(lǐng)域最有價(jià)值和影響力的研究。

2017年,谷歌在NeurIPS發(fā)表的論文首次提出Transformer模型架構(gòu)和自注意力機(jī)制,這一研究讓AI像人類一樣具備有選擇性地關(guān)注關(guān)鍵信息的能力,是當(dāng)下大模型研究的基礎(chǔ)。盡管現(xiàn)在大模型在很多領(lǐng)域已經(jīng)取得接近甚至超越人類的表現(xiàn),但現(xiàn)有注意力機(jī)制仍存在諸多局限,例如當(dāng)下大模型會(huì)因?yàn)檫^度關(guān)注特定信息而導(dǎo)致對其它重要信息的忽略或處理偏差,這些局限性極大地影響了模型性能和訓(xùn)練穩(wěn)定性,為此業(yè)界開始探索對注意力進(jìn)行優(yōu)化的新方案。

門控機(jī)制被認(rèn)為是模型的“智能閥門”,可以幫助模型過濾無效信息并提升模型性能。近年來,AlphaFold2、Forgetting Transformer等學(xué)術(shù)界和工業(yè)界模型開始嘗試將門控和注意力機(jī)制結(jié)合。但業(yè)界尚未破解門控在注意力中發(fā)揮作用的內(nèi)在原因,也缺少大規(guī)模實(shí)踐的經(jīng)驗(yàn)。

此次,通義千問研究團(tuán)隊(duì)通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上進(jìn)行了數(shù)十組實(shí)驗(yàn),單組實(shí)驗(yàn)訓(xùn)練最多超過 3.5 萬億 tokens,首次清晰揭秘了門控注意力背后的作用原理,并全面展示使用該方案的最佳方式。

實(shí)驗(yàn)結(jié)果顯示,對各注意力頭的輸出進(jìn)行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數(shù)的情況下,可實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評(píng)測2個(gè)點(diǎn)的提升。研究還發(fā)現(xiàn),該技術(shù)還能在更大規(guī)模的模型訓(xùn)練上實(shí)現(xiàn)更好的性能。

使用論文方法,在引入額外1%參數(shù)的情況下,可以實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評(píng)測2個(gè)點(diǎn)的提升

目前,該研究成果已應(yīng)用于Qwen3-Next模型,并顯著提升模型的性能與魯棒性,相關(guān)技術(shù)方案、實(shí)驗(yàn)?zāi)P图爱a(chǎn)品級(jí)模型均已開源。NeurIPS評(píng)審委員會(huì)指出:“這項(xiàng)工作將被廣泛應(yīng)用,并極大推動(dòng)AI研究人員對大語言模型中注意力機(jī)制的理解?!?/p>

通義千問團(tuán)隊(duì)表示:“對門控注意力機(jī)制的深入理解,不僅為大語言模型架構(gòu)設(shè)計(jì)提供了新思路,也為構(gòu)建更穩(wěn)定、更高效、更可控的大模型奠定了基礎(chǔ)?!睋?jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個(gè),位居全球第一。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

入選概率不及萬分之二,阿里千問斬獲頂級(jí)AI會(huì)議最佳論文

阿里通義千問團(tuán)隊(duì)在人工智能頂級(jí)會(huì)議NeurIPS 2025中,憑借其研究成果斬獲最佳論文獎(jiǎng),成為唯一獲此殊榮的中國團(tuán)隊(duì)。該論文首次揭示了注意力門控機(jī)制對大模型性能和訓(xùn)練的影響,被認(rèn)為是突破大模型訓(xùn)練瓶頸的重要一步,有望推動(dòng)AI大模型技術(shù)的發(fā)展。研究團(tuán)隊(duì)通過大量實(shí)驗(yàn),首次清晰揭秘了門控注意力背后的作用原理,并展示了使用該方案的最佳方式。

11月28日消息,人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025公布了論文獎(jiǎng),阿里通義千問團(tuán)隊(duì)最新研究成果從全球2萬多篇投稿論文中脫穎而出,被評(píng)為最佳論文,是唯一獲得該獎(jiǎng)項(xiàng)的中國團(tuán)隊(duì)。該論文首次在業(yè)內(nèi)揭秘了注意力門控機(jī)制對大模型性能和訓(xùn)練的影響,業(yè)內(nèi)人士普遍認(rèn)為該研究是突破當(dāng)下大模型訓(xùn)練瓶頸的重要一步,將有力推動(dòng)AI大模型技術(shù)的發(fā)展。

阿里通義千問研究成果被評(píng)為NeurIPS 2025最佳論文

NeurIPS是人工智能領(lǐng)域影響力最大的頂會(huì)之一,該會(huì)議誕生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微軟、OpenAI、阿里巴巴及麻省理工學(xué)院等全球頂尖科技公司和機(jī)構(gòu)共有2萬多篇論文投稿,僅有約25%的論文被接收,而最佳論文僅有4篇,入選概率不及萬分之二,代表了目前全球人工智能領(lǐng)域最有價(jià)值和影響力的研究。

2017年,谷歌在NeurIPS發(fā)表的論文首次提出Transformer模型架構(gòu)和自注意力機(jī)制,這一研究讓AI像人類一樣具備有選擇性地關(guān)注關(guān)鍵信息的能力,是當(dāng)下大模型研究的基礎(chǔ)。盡管現(xiàn)在大模型在很多領(lǐng)域已經(jīng)取得接近甚至超越人類的表現(xiàn),但現(xiàn)有注意力機(jī)制仍存在諸多局限,例如當(dāng)下大模型會(huì)因?yàn)檫^度關(guān)注特定信息而導(dǎo)致對其它重要信息的忽略或處理偏差,這些局限性極大地影響了模型性能和訓(xùn)練穩(wěn)定性,為此業(yè)界開始探索對注意力進(jìn)行優(yōu)化的新方案。

門控機(jī)制被認(rèn)為是模型的“智能閥門”,可以幫助模型過濾無效信息并提升模型性能。近年來,AlphaFold2、Forgetting Transformer等學(xué)術(shù)界和工業(yè)界模型開始嘗試將門控和注意力機(jī)制結(jié)合。但業(yè)界尚未破解門控在注意力中發(fā)揮作用的內(nèi)在原因,也缺少大規(guī)模實(shí)踐的經(jīng)驗(yàn)。

此次,通義千問研究團(tuán)隊(duì)通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上進(jìn)行了數(shù)十組實(shí)驗(yàn),單組實(shí)驗(yàn)訓(xùn)練最多超過 3.5 萬億 tokens,首次清晰揭秘了門控注意力背后的作用原理,并全面展示使用該方案的最佳方式。

實(shí)驗(yàn)結(jié)果顯示,對各注意力頭的輸出進(jìn)行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數(shù)的情況下,可實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評(píng)測2個(gè)點(diǎn)的提升。研究還發(fā)現(xiàn),該技術(shù)還能在更大規(guī)模的模型訓(xùn)練上實(shí)現(xiàn)更好的性能。

使用論文方法,在引入額外1%參數(shù)的情況下,可以實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評(píng)測2個(gè)點(diǎn)的提升

目前,該研究成果已應(yīng)用于Qwen3-Next模型,并顯著提升模型的性能與魯棒性,相關(guān)技術(shù)方案、實(shí)驗(yàn)?zāi)P图爱a(chǎn)品級(jí)模型均已開源。NeurIPS評(píng)審委員會(huì)指出:“這項(xiàng)工作將被廣泛應(yīng)用,并極大推動(dòng)AI研究人員對大語言模型中注意力機(jī)制的理解?!?/p>

通義千問團(tuán)隊(duì)表示:“對門控注意力機(jī)制的深入理解,不僅為大語言模型架構(gòu)設(shè)計(jì)提供了新思路,也為構(gòu)建更穩(wěn)定、更高效、更可控的大模型奠定了基礎(chǔ)。”據(jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個(gè),位居全球第一。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。