發布時間:2025-11-28 10:23:40 來源:企業錄(www.qy6.com)-公司信息發布,網上買賣交易門戶 作者:知識
11月27日,國內人工智能領域頂級會議NeurIPS 2025公布了論文獎,唯阿問斬阿里通義千問團隊在注意力機制上的千論文研究成果從全球5524篇論文中脫穎而出,被評為最佳論文,最佳是國內唯一獲得該獎項的中國團隊。該論文首次在業內揭秘了注意力門控對大模型性能和訓練的唯阿問斬影響,據悉,千論文該研究成果已應用于Qwen3-Next模型,最佳并顯著提升模型的國內性能與魯棒性。
阿里通義千問研究成果被評為NeurIPS 2025最佳論文
門控是唯阿問斬大模型應用最廣泛的技術之一,它可以作為模型的千論文“智能降噪耳機”,幫助模型過濾無效信息從而提升模型性能。最佳近年來,國內AlphaFold2、唯阿問斬Forgetting Transformer等學術界和工業界模型開始探索將門控和注意力機制結合,千論文但都對門控在注意力機制中有效的原因缺乏探索,也沒有大規模實踐的經驗。
此次,通義千問團隊通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上訓練超過 3.5 萬億 token,并對比 30 余組控制實驗,首次清晰揭秘了其背后的原理,并展現了在注意力中使用門控形式最有效的方式及擴展成功實踐。
注意力頭是?注意力機制中的基本計算單元。實驗結果顯示,對各注意力頭的輸出進行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數、計算開銷增加低于2%的情況下,可以實現0.2以上的困惑度下降、MMLU基準評測2個點的提升。研究還發現,該技術還能在更大規模的模型訓練上實現更好的性能。
使用論文方法,在引入額外1%參數、計算開銷增加低于2%的情況下,可以實現0.2以上的困惑度下降、MMLU基準評測2個點的提升
更深入的分析發現,注意力門控還解決了大模型長期存在的兩大問題:注意力池(Attention Sink),即少量特殊token計算中產生很大的輸出值、占據很高的注意力分數;巨量激活(Massive Activation),即模型激活中出現大于中位數數千倍的離群值。上述兩個現象都容易在BF16等低精度訓練中引發數值誤差,影響訓練穩定與低精度部署。該研究顯示,門控注意力將首token的注意力占比從 46.7%降至4.8%,同時將最大激活值從1053降至94。
目前,該技術方案、實驗模型及產品級模型均已開源。NeurIPS評審委員會表示:“我們認為該方法將被廣泛采用,這項工作將極大推動社區對大語言模型中注意力機制的理解。”
通義千問團隊表示:“對門控機制、模型機制等的深入理解,不僅為大語言模型架構設計提供了新思路,也為構建更穩定、更高效、更可控的大模型奠定了基礎。”
據悉,目前阿里千問已開源300多款模型,涵蓋全模態、全尺寸,全球下載量突破7億次,衍生模型超過18萬個,位居全球第一。
相關文章