在人工智能技術(shù)持續(xù)演進(jìn)的當(dāng)下,大模型競賽成為行業(yè)關(guān)注的焦點(diǎn)。人們普遍認(rèn)為,參數(shù)越多、算力越強(qiáng),模型的能力就越強(qiáng)。然而,在2025年6月19日的亞馬遜云科技大語言模型全球聯(lián)賽這一重要賽事中,神州數(shù)碼旗下神州問學(xué)團(tuán)隊(duì)以絕對優(yōu)勢取得勝利,為行業(yè)提供了一個(gè)全新的視角:參數(shù)規(guī)模不等于能力上限,真正決定模型實(shí)戰(zhàn)表現(xiàn)的,是數(shù)據(jù)價(jià)值密度與流程創(chuàng)新能力的結(jié)合。
賽事背景:亞馬遜云科技規(guī)格最高的大語言模型全球競賽活動(dòng)
亞馬遜云科技大語言模型全國聯(lián)賽的前身是自2018年推出以來,已經(jīng)吸引了超過56萬名開發(fā)者參與,覆蓋全球數(shù)千個(gè)活動(dòng)和比賽的人工智能賽車競賽。2024年亞馬遜云科技在Invent 2024 期間推出了亞馬遜云科技大語言模型全國聯(lián)賽。在這次聯(lián)賽中,參賽選手的任務(wù)是利用所學(xué)的工具和技術(shù)對特定領(lǐng)域的Meta Llama 3.5B基礎(chǔ)模型進(jìn)行定制化調(diào)整。提交的微調(diào)模型將與一個(gè)更大的70B參考模型對比,通過一種稱為“LLM-as-a-Judge”的方法來評估回答的質(zhì)量。如果微調(diào)后的模型所提供的答案被認(rèn)為比更大規(guī)模的模型更加準(zhǔn)確和全面,那么參賽者將在相應(yīng)的問題上獲得勝利積分。神州數(shù)碼作為亞馬遜云科技中國區(qū)第一批通過GenAI能力認(rèn)證的伙伴,受邀參加本次比賽。
絕境突圍:
小參數(shù)模型特定場景勝大模型
這場比賽的規(guī)則本身就極具挑戰(zhàn)性——使用僅3.5B參數(shù)的小模型,與70B級別的超大規(guī)模模型正面交鋒。而3.5B基礎(chǔ)模型本身存在以下問題:
• 語言劣勢:評測全部采用中文,而3.5B模型在中文理解方面存在明顯短板;
• 知識(shí)不對等:題目內(nèi)容聚焦于大模型行業(yè)的專業(yè)知識(shí),這正是70B模型訓(xùn)練時(shí)的核心優(yōu)勢領(lǐng)域;
• 資源稀缺:可用原始數(shù)據(jù)僅有20條,微調(diào)時(shí)間只有短短3小時(shí)。
面對以上問題,神州問學(xué)團(tuán)隊(duì)快速設(shè)置了一套系統(tǒng)化、精細(xì)化的技術(shù)方案,最終以53%的贏率取得第一輪勝利。
破局之道:
模型微調(diào)的三重絕招
針對3.5B模型在中文支持、邏輯推理、多跳任務(wù)和知識(shí)廣度上的四大短板,神州問學(xué)采取了三個(gè)關(guān)鍵策略:
• 知識(shí)蒸餾的“精準(zhǔn)手術(shù)刀”
神州問學(xué)團(tuán)隊(duì)為蒸餾的知識(shí)設(shè)計(jì)了“問答—邏輯鏈—證據(jù)片段”的三元組知識(shí)形式,并通過多次人工和機(jī)器的交叉檢查確保注入到3.5B模型中的質(zhì)量。這一過程并非簡單的知識(shí)復(fù)制,而是像外科手術(shù)一樣精準(zhǔn)地提取并植入關(guān)鍵信息。同時(shí),他們還構(gòu)建了“知識(shí)拓?fù)渚W(wǎng)”,補(bǔ)充相關(guān)文檔資料,從而有效擴(kuò)展了小模型的知識(shí)覆蓋范圍。
• 思維鏈的“量子糾纏”改造
整場比賽只有三小時(shí),為3.5B模型注入思維鏈?zhǔn)欠窨尚惺菍F(tuán)隊(duì)整體戰(zhàn)略,技術(shù)方案,執(zhí)行力的考驗(yàn)。神州問學(xué)團(tuán)隊(duì)面對3.5B基模的天然不足,采用部分樣本輕思考的方案,對精選的樣本注入拆解問題、檢索概念、驗(yàn)證邏輯、生成結(jié)論的能力,使3.5B模型在三小時(shí)內(nèi)具備了遠(yuǎn)超其參數(shù)規(guī)模的推理能力。
• 動(dòng)態(tài)提示詞的“戰(zhàn)場指揮官”系統(tǒng)
在下午進(jìn)行的現(xiàn)場評測環(huán)節(jié),評委和觀眾共同見證了一場高水平的實(shí)時(shí)應(yīng)答比拼。面對6道題目,各參賽隊(duì)伍有60秒時(shí)間理解和設(shè)計(jì)提示詞。神州問學(xué)團(tuán)隊(duì)以深厚的大模型落地經(jīng)驗(yàn)面對6道題目分別給出了針對性的Prompt,在3.5B小模型200字小窗口的苛刻條件下對每一條問題都給出的優(yōu)質(zhì)回答,獲得現(xiàn)場評委和AI雙高分。在賽事中主持人隨機(jī)采訪的觀眾和評委對神州數(shù)碼團(tuán)隊(duì)給出的方案贊不絕口。最后以179分取得絕對勝利。
技術(shù)升維:
從賽場走向產(chǎn)業(yè)的啟示錄
過去我們習(xí)慣于“參數(shù)越大越好”的思維定式,但在實(shí)際業(yè)務(wù)中,700億參數(shù)的大模型雖然強(qiáng)大,卻往往存在大量冗余計(jì)算。相比之下,一個(gè)經(jīng)過知識(shí)提純、架構(gòu)銳化和持續(xù)進(jìn)化的小模型,在部署成本、響應(yīng)速度和可控性方面更具優(yōu)勢。
這場比賽的勝利也彰顯了神州問學(xué)卓越的小模型調(diào)優(yōu)能力,當(dāng)行業(yè)沉迷于千億參數(shù)競賽時(shí),神州數(shù)碼憑借深厚的產(chǎn)業(yè)洞察直指本質(zhì):企業(yè)級AI落地的核心矛盾,在于技術(shù)能力與場景痛點(diǎn)的精準(zhǔn)適配——而非算力的競賽。 其創(chuàng)新性架構(gòu)構(gòu)建了雙重認(rèn)知引擎:以通用大模型為基座拓展認(rèn)知廣度,以精調(diào)小模型為觸手穿透場景深度,再通過動(dòng)態(tài)路由實(shí)現(xiàn)算力的智能協(xié)同。
這套"廣度奠基、深度攻堅(jiān)、資源智配"的三位一體范式,助力企業(yè)AI的真正落地。
流程智慧,
驅(qū)動(dòng)AI新階段
在這場以小博大的比賽中,神州問學(xué)展示的不只是技術(shù)實(shí)力,更是一種思維方式的轉(zhuǎn)變。AI的未來,不在于誰擁有最多的算力,而在于誰能用最少的資源創(chuàng)造最大的價(jià)值。
這不是一場偶然的勝利,而是一次對AI發(fā)展路徑的深度反思。隨著AI進(jìn)入2.0時(shí)代,真正的競爭將不再局限于模型大小,而是轉(zhuǎn)向如何高效、精準(zhǔn)地解決實(shí)際問題。