圖源:Pixabay
撰文 | 張?zhí)炱?/p>
● ● ●
今年年初,DeepSeek發(fā)布DeepSeek-R1模型,引發(fā)全球的關(guān)注。在公開評測中,它的綜合能力逼近當(dāng)時(shí)的頂尖大模型,尤其在邏輯推理和數(shù)學(xué)題上展現(xiàn)出強(qiáng)勁性能,而且它的成本要遠(yuǎn)低于作比較的其他大模型。
更令圈內(nèi)研究者驚喜的,是它在訓(xùn)練方式上的簡化。以往的模型在提升推理能力時(shí),通常依賴于把監(jiān)督微調(diào)(SFT)這個(gè)環(huán)節(jié)。在這個(gè)階段,研究人員會使用大量已標(biāo)注的數(shù)據(jù)對預(yù)訓(xùn)練的AI模型進(jìn)行進(jìn)一步訓(xùn)練。這些數(shù)據(jù)包含了問題及其對應(yīng)的正確答案,以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。
DeepSeek-R1的報(bào)告中,展示了名為DeepSeek-R1-Zero的路線,它跳過了復(fù)雜的監(jiān)督微調(diào),直接在DeepSeek-V3的基礎(chǔ)上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。這一次,模型沒有例題示范,只通過簡單的答題反饋來學(xué)習(xí):答對加分,答錯(cuò)減分,用簡單的方法顯著的推理能力提升。這個(gè)被簡稱為“純強(qiáng)化學(xué)習(xí)”的方法,成為了復(fù)現(xiàn)和跟進(jìn)研究中的熱門對象。
在復(fù)現(xiàn)的熱潮中研究者們意識到,一些關(guān)鍵問題仍有待厘清。到底是訓(xùn)練的哪些環(huán)節(jié)帶來了模型推理能力的提升?DeepSeek-R1的能力究竟來自訓(xùn)練方式的改變,還是基礎(chǔ)模型DeepSeek-V3本身的強(qiáng)大?如果關(guān)鍵在于強(qiáng)化學(xué)習(xí),這種方式可以在遷移到其他模型訓(xùn)練上嗎?
正是圍繞這些問題,一些團(tuán)隊(duì)啟動(dòng)了對DeepSeek-R1復(fù)現(xiàn)與跟進(jìn)研究。DeepSeek-R1雖然開源了模型權(quán)重,但關(guān)鍵的訓(xùn)練數(shù)據(jù)和完整算法實(shí)現(xiàn)并未公開。想要真正理解和重現(xiàn)其能力,就必須從論文出發(fā),復(fù)刻訓(xùn)練流程。對跟進(jìn)的研究者而言,復(fù)現(xiàn)和跟進(jìn)研究的意義不止是復(fù)制一個(gè)模型,更是拆解這套訓(xùn)練方法,厘清模型性能提升的真正來源。
《知識分子》和Open-Reasoner-Zero團(tuán)隊(duì)成員胡倞成、韓琦,Light-R1團(tuán)隊(duì)成員鄒昊晟,新加坡國立大學(xué)、Sea AI Lab研究人員劉梓辰,以及個(gè)人復(fù)現(xiàn)者許書堯都聊了聊,試圖回答以上一些問題。
Open-Reasoner-Zero團(tuán)隊(duì)在基礎(chǔ)模型上直接進(jìn)行強(qiáng)化學(xué)習(xí),觀察到了模型驗(yàn)證分?jǐn)?shù)的顯著提升,驗(yàn)證了DeepSeek-R1-Zero訓(xùn)練方法的有效性[1],個(gè)人復(fù)現(xiàn)者許書堯也在一個(gè)相對小的模型上驗(yàn)證了類似的現(xiàn)象[2],Light-R1團(tuán)隊(duì)把模型放在AIME上測試成績,提升到了接近完整DeepSeek-R1的水準(zhǔn),并且也成功復(fù)現(xiàn)了強(qiáng)化學(xué)習(xí)的方法[3],劉梓辰的驗(yàn)證工作則是從懷疑開始的,他發(fā)現(xiàn)模型推理能力的提升,與所選用的基礎(chǔ)模型之間存在密切關(guān)聯(lián)[4]。
這些工作從不同角度探討了一個(gè)關(guān)鍵問題:DeepSeek-R1的能力,到底從哪里來?
01
為什么是DeepSeek?
去年,OpenAI推出的o1推理模型在數(shù)學(xué)和推理任務(wù)中的表現(xiàn)遠(yuǎn)遠(yuǎn)好于其他同參數(shù)量級的主流模型,在GSM8K、MATH等多個(gè)基準(zhǔn)測試中一度拉開了顯著差距。但由于官方幾乎未公布訓(xùn)練細(xì)節(jié),模型是如何獲得這類能力的,一度成為業(yè)內(nèi)謎題。OpenAI o1的出現(xiàn),使得“推理模型”這一新方向引發(fā)關(guān)注。
一種流行的猜測是,o1的推理能力來自O(shè)penAI內(nèi)部某個(gè)更大的模型,o1只是它訓(xùn)練出的精簡版本。另一種看法是,OpenAI在訓(xùn)練中使用了更復(fù)雜的技術(shù)路線。這些方案都出于同一方向的判斷:做出頂尖推理模型需要堆更多的資源。
DeepSeek-R1的發(fā)布打破了這些猜想。它沒有使用這些復(fù)雜手段,僅憑簡單的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)設(shè)置,就讓模型在推理能力上達(dá)到與o1接近的水準(zhǔn)。
在DeepSeek-R1之前,也有研究者嘗試過用純強(qiáng)化學(xué)習(xí)訓(xùn)練推理模型,但大多停留在小規(guī)模的實(shí)驗(yàn)階段。這種遲疑來自兩個(gè)方面,“一是從技術(shù)直覺上,大家普遍不認(rèn)為這樣簡單的方法能奏效;另一個(gè)是如果基礎(chǔ)模型不夠強(qiáng),這么簡單的方法可能真的不奏效”,許書堯說。
許書堯介紹,大約在一年前,不少關(guān)于推理模型訓(xùn)練的論文中已經(jīng)加入了強(qiáng)化學(xué)習(xí)這一步,也有人嘗試基于模型的答題結(jié)果直接設(shè)計(jì)獎(jiǎng)勵(lì)。但在當(dāng)時(shí),業(yè)內(nèi)普遍不相信僅靠簡單的答題反饋,就能訓(xùn)練出接近o1水平的推理模型的推理能力。“純強(qiáng)化學(xué)習(xí)大家一直有嘗試,但沒人真正擴(kuò)展到大模型上。那時(shí)候大家不覺得光讓模型做題就夠了”。
鄒昊晟也提到,在今年DeepSeek-R1和Kimi 1.5出現(xiàn)之前,幾乎沒有人認(rèn)為“純強(qiáng)化學(xué)習(xí)”能真正提升大模型的推理能力。彼時(shí)更主流的看法是,推理能力的提高可能依賴蒙特卡洛樹搜索(MCTS)或過程獎(jiǎng)勵(lì)模型(PRM)。
對于大模型而言,某種方法是否仍然有效,往往要看它能否經(jīng)受住規(guī)模擴(kuò)展的考驗(yàn)。在當(dāng)時(shí)看來,純強(qiáng)化學(xué)習(xí)的前景,并不如蒙特卡洛樹搜索(MCTS)或過程獎(jiǎng)勵(lì)模型(PRM)更被看好。
MCTS是一種曾在AlphaGo中取得成功的策略,依靠將問題拆解為若干步驟并通過多輪搜索引導(dǎo)模型學(xué)習(xí)。在DeepSeek-R1的報(bào)告中,團(tuán)隊(duì)嘗試了類似方向,但發(fā)現(xiàn)當(dāng)模型規(guī)模擴(kuò)大后,搜索空間呈指數(shù)增長,后續(xù)訓(xùn)練很困難。
PRM則是讓模型生成對每個(gè)推理步驟的評價(jià)和打分,逐步判斷答案的準(zhǔn)確性,從而提升模型的推理能力。許書堯曾經(jīng)投入了很多精力在這個(gè)方向,但在他看來這種系統(tǒng)太過復(fù)雜,很難擴(kuò)大規(guī)模。
最終,還是“純強(qiáng)化學(xué)習(xí)”先走通了這條路。"深度學(xué)習(xí)教給大家一件事情,往往是簡單的方法,在規(guī)模擴(kuò)大的時(shí)候更穩(wěn)健"。
不過,DeepSeek的率先成功,并不是一個(gè)只靠選對技術(shù)路線就能成功的勵(lì)志故事。它更像是在一系列關(guān)鍵因素同時(shí)就位后,才能實(shí)現(xiàn)的成就。
許書堯介紹,早期的基礎(chǔ)模型預(yù)訓(xùn)練階段數(shù)據(jù)質(zhì)量參差不齊,導(dǎo)致模型缺乏穩(wěn)定的指令遵循能力。而一些更晚期的基礎(chǔ)模型則引入了“退火”步驟,在預(yù)訓(xùn)練中分階段加入更高質(zhì)量的數(shù)據(jù),逐步提高模型理解與執(zhí)行復(fù)雜任務(wù)的能力。也正是在這些打好地基的工作之后,強(qiáng)化學(xué)習(xí)的效果才能充分顯現(xiàn)。
新加坡國立大學(xué)Sea AI Lab研究人員劉梓辰表示,類似DeepSeek-R1的嘗試其實(shí)已有先例。比如2024年底,AI2(Allen Institute for AI)推出的Tülu 3模型,就在數(shù)學(xué)任務(wù)中引入了強(qiáng)化學(xué)習(xí)方法,并采用了“可驗(yàn)證獎(jiǎng)勵(lì)”的機(jī)制。只有當(dāng)模型答案正確時(shí),才給予獎(jiǎng)勵(lì)。從這個(gè)角度看,DeepSeek的訓(xùn)練思路,Tülu 3已經(jīng)部分嘗試過了。
但最終,Tülu 3的表現(xiàn)不如DeepSeek-R1亮眼,劉梓辰認(rèn)為問題在于兩方面。一是基礎(chǔ)模型的選擇,Tülu 3是基于Llama訓(xùn)練的,它在數(shù)學(xué)方面強(qiáng)化學(xué)習(xí)的效果可能不如其他模型。二是模型體量差異,Tülu 3的最大版本為70B,而DeepSeek-R1則是在自家600B級別的DeepSeek-V3模型上完成訓(xùn)練的。這一差距極大影響了強(qiáng)化學(xué)習(xí)的上限。
從數(shù)據(jù)層面看,許書堯指出,DeepSeek-R1在后訓(xùn)練階段還使用了約80萬條高質(zhì)量樣本進(jìn)行微調(diào)。這類數(shù)據(jù)不僅數(shù)量龐大,而且質(zhì)量要求很高,如果出現(xiàn)錯(cuò)誤很容易導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練的崩潰。對大多數(shù)小團(tuán)隊(duì)而言,單是獲取、篩選并清洗出這樣規(guī)模和質(zhì)量的數(shù)據(jù),都很困難。
“在那個(gè)時(shí)間點(diǎn),除了Google和其他幾家積累深厚的巨頭,可能真沒有其他團(tuán)隊(duì)能做出這樣的成果。”劉梓辰說。DeepSeek手上有強(qiáng)大的基礎(chǔ)模型,還具備調(diào)優(yōu)這類模型的經(jīng)驗(yàn)和資源,DeepSeekV3作為模型本身一定也經(jīng)過了高質(zhì)量、清洗過的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,才能在強(qiáng)化學(xué)習(xí)后得到提升。即使其他團(tuán)隊(duì)掌握相似的方法、具備工程能力,如果出發(fā)點(diǎn)模型存在差距,也很難達(dá)到類似效果。
胡倞成認(rèn)為,整個(gè)行業(yè)的推進(jìn)速度本就非常驚人。即使沒有DeepSeek,其他團(tuán)隊(duì)也在逐漸接近OpenAI o1級別的推理模型,也許再過幾個(gè)月,就會有其他方案浮出水面。
但DeepSeek的成功仍然關(guān)鍵。在方法層面,它驗(yàn)證了通過強(qiáng)化學(xué)習(xí)提升推理能力的路徑確實(shí)可行。更重要的是,它驗(yàn)證了這條路的可行性。“在R1之前,大家并沒有真正做出一個(gè)能給自己信心的東西。這件事到底能不能做成,能做成什么樣?即使有了思路方向,很多團(tuán)隊(duì)心里也沒有底。DeepSeek-R1的出現(xiàn),給我們做研究的人以信心,證明這條路是能走得通的,”胡倞成說。
02
性能提升,靠強(qiáng)化學(xué)習(xí)還是靠模型能力
在對DeepSeek-R1的后續(xù)研究中,一種觀點(diǎn)逐漸受到關(guān)注。部分研究者認(rèn)為,模型反思能力的提升,并非完全源自強(qiáng)化學(xué)習(xí)過程,而是基礎(chǔ)模型自身能力的體現(xiàn)。
劉梓辰支持這種觀點(diǎn)。他嘗試復(fù)刻DeepSeek-R1的“頓悟時(shí)刻(Aha moment)”,按照DeepSeek-R1的報(bào)告,這是描述訓(xùn)練中模型在面對特定難題時(shí),展現(xiàn)了自我反思的能力,主動(dòng)重新評估初始解法,并投入更多思考時(shí)間以尋求更優(yōu)答案。
這一能力對推理模型非常關(guān)鍵。在推理模型出現(xiàn)之前,大模型主要依賴預(yù)訓(xùn)練階段擴(kuò)大參數(shù)規(guī)模來提升表現(xiàn),但增長已經(jīng)逐漸趨緩。在一些需要嚴(yán)密邏輯鏈條的任務(wù)中,比如數(shù)學(xué)推理,模型即便讀過再多語料,依然難以獲得實(shí)質(zhì)突破。一個(gè)關(guān)鍵的瓶頸是它們?nèi)狈ψ灾餍拚卮鸬哪芰Α?/p>
而OpenAI o1的成功提供了一個(gè)重要線索,如果模型擁有更長的“思考時(shí)間”,它的解題準(zhǔn)確率就會顯著提高。
為什么“長”如此關(guān)鍵?胡倞成解釋,Transformer 計(jì)算深度有限,只能做有限步的計(jì)算,復(fù)雜問題如果不能拆分,就超出了模型的處理能力。只有當(dāng)模型學(xué)會將問題拆解成多個(gè) token逐步向前推進(jìn),才可能完成更深層的計(jì)算。如果不能把思考過程拉長,模型就沒法把一些復(fù)雜的計(jì)算拆解成自己能夠解決的問題。
張胤民補(bǔ)充,這就像我們能快速心算幾位數(shù)乘法,但遇到更復(fù)雜的數(shù)字,就需要寫在紙上分步完成。模型也是如此,新的推理范式相當(dāng)于教會了模型如何利用更長的“思考時(shí)間”或更多的“計(jì)算步驟”。一旦模型學(xué)會了這種利用時(shí)間來分解和解決復(fù)雜問題的方法,它就能解鎖更多以前無法完成的任務(wù)。
當(dāng)模型說出“讓我再想想”這樣的語言,其實(shí)正是它利用更長“思考時(shí)間”的一種外在體現(xiàn),是它能力的具象化。比如,模型發(fā)現(xiàn)前面的回答有誤,然后進(jìn)行糾正,這就是在利用“時(shí)間”來優(yōu)化結(jié)果。將一個(gè)復(fù)雜問題拆分成多個(gè)步驟來解答,也是一種利用“時(shí)間”的表現(xiàn)。所謂“頓悟時(shí)刻”,就是指模型在沒有明確教導(dǎo)下,自發(fā)學(xué)會了這些利用時(shí)間和計(jì)算資源的方法。
胡倞成認(rèn)為,這種反思能力突破了原有建模方式上的本質(zhì)限制。楊立昆很早就斷言自回歸大語言模型注定要失敗,理由之一就是錯(cuò)誤會累計(jì)。連續(xù)生成1000個(gè)token,只要每一步有千分之一的出錯(cuò)概率,最后出錯(cuò)的可能就非常高。這種批評指出的關(guān)鍵問題,就是大模型沒法自主修正生成過程中產(chǎn)生的錯(cuò)誤。而大模型而具備反思能力后,模型就像獲得了一塊“橡皮擦”,可以對生成內(nèi)容進(jìn)行審視、重寫,甚至主動(dòng)改變推理路徑。
也正因這類能力在推理模型中至關(guān)重要,DeepSeek-R1在訓(xùn)練中首次出現(xiàn)“頓悟時(shí)刻”時(shí),才引發(fā)團(tuán)隊(duì)的興奮,并在業(yè)界引起關(guān)注。DeepSeek在報(bào)告中形容那一刻是“見證了強(qiáng)化學(xué)習(xí)力量的美妙”。
但劉梓辰的研究發(fā)現(xiàn),早在強(qiáng)化學(xué)習(xí)階段開始之前,部分基礎(chǔ)模型的回答中就已經(jīng)出現(xiàn)了淺層的自我反思傾向,“頓悟”可能并非像宣稱的那樣,是模型強(qiáng)化學(xué)習(xí)過程中自然涌現(xiàn)出來的,而是基礎(chǔ)模型本身具備的能力。其中,Qwen2.5系列模型的反思行為最為明顯,有趣的是,目前大多數(shù)復(fù)現(xiàn)工作,恰恰都是基于Qwen2.5展開。
鄒昊晟認(rèn)為,預(yù)訓(xùn)練模型本身就已經(jīng)具備某種程度的反思能力。大模型的預(yù)訓(xùn)練往往涉及幾十萬億個(gè)token,在如此海量的語料中,出現(xiàn)少量帶有反思傾向的文本很有可能。在這種背景下,模型說出“我需要再想想”并不令人意外。強(qiáng)化學(xué)習(xí)的作用,可能更多在于讓這些原本零散的表達(dá)更頻繁、更清晰地浮現(xiàn)出來。
胡倞成表示,強(qiáng)化學(xué)習(xí)本身更像是一種“催化劑”或者“放大器”。它能夠?qū)⒛P驮陬A(yù)訓(xùn)練階段學(xué)到的潛在知識和能力,通過特定的激勵(lì)和目標(biāo)引導(dǎo)出來,讓它在某些任務(wù)上表現(xiàn)更好。
至于不同模型的能力差別,訓(xùn)練早期是否廣泛接觸具有因果鏈條、邏輯關(guān)系和復(fù)雜推理結(jié)構(gòu)的文本,將在很大程度上決定其在后續(xù)的強(qiáng)化學(xué)習(xí)階段能否發(fā)展出相應(yīng)的能力。除了語料組成,架構(gòu)和訓(xùn)練策略也同樣關(guān)鍵。盡管主流模型大多基于 Transformer,微小的結(jié)構(gòu)差異或超參數(shù)設(shè)置的不同,仍然會影響模型最終在推理上的表現(xiàn)。
劉梓辰用“讀書”和“做題”的關(guān)系來解釋基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)之間的關(guān)聯(lián)。預(yù)訓(xùn)練階段的模型就像讀過大量書籍,博覽群書,但還不太會做題。強(qiáng)化學(xué)習(xí)則像是發(fā)給它一疊卷子反復(fù)練習(xí),沒有加入新的知識內(nèi)容,但確實(shí)提高了它的做題能力。兩者之間關(guān)系微妙,“做題能力還是建立在它讀過的書上,不能說光靠做題就能達(dá)到這個(gè)水平,但不練這幾道題,它又確實(shí)不會做”。
即使基礎(chǔ)模型有著反思能力的潛質(zhì),但強(qiáng)化學(xué)習(xí)把這種能力穩(wěn)定地激發(fā)了出來,這也是一個(gè)關(guān)鍵的進(jìn)步。“如果一個(gè)智商180的天才兒童不會說話,有個(gè)老師教會了他,展現(xiàn)出了智商180的表達(dá)能力,你覺得這個(gè)老師有沒有水平?”胡倞成反問。
03
1000條數(shù)據(jù)就夠了?
在DeepSeek-R1的跟進(jìn)研究中,一批聚焦于“超低成本”提升模型能力的研究迅速引發(fā)關(guān)注。
在一些媒體報(bào)道中,被稱為“花費(fèi)僅50美元復(fù)現(xiàn) DeepSeek-R1”的斯坦福大學(xué) S1-32B 模型。僅使用1000條精選數(shù)據(jù)的情況下,就顯著提升了數(shù)學(xué)與推理能力。
上海交通大學(xué)的 LIMO(Less Is More for Reasoning)提出,利用經(jīng)過精心挑選的817條訓(xùn)練樣本,通過簡單的監(jiān)督微調(diào),就能讓模型在多個(gè)數(shù)學(xué)任務(wù)中表現(xiàn)出色。在AIME24測試中,LIMO將準(zhǔn)確率從傳統(tǒng)模型(如 Numina-Math)的6.5%提升至57.1%,甚至超過了一些使用數(shù)十萬條數(shù)據(jù)訓(xùn)練的主流模型。
張胤民解釋,這一方面是由于高質(zhì)量數(shù)據(jù)能提供更清晰、更直接的信號,幫助模型快速抓住關(guān)鍵模式,避免在無關(guān)或噪聲信息上浪費(fèi)學(xué)習(xí)能力。另一方面,在對齊階段,用少量但精準(zhǔn)的優(yōu)質(zhì)數(shù)據(jù)進(jìn)行策略優(yōu)化,能更有效地引導(dǎo)模型向期望的行為靠攏。這個(gè)過程類似做題,與其做一百道質(zhì)量不一的題目,不如精做十道包含核心考點(diǎn)、能引發(fā)深度思考的經(jīng)典例題。
既然用少量精心設(shè)計(jì)的數(shù)據(jù)監(jiān)督學(xué)習(xí)(蒸餾),就能讓模型展現(xiàn)出一定的推理能力,傳統(tǒng)上用數(shù)萬甚至十萬級別樣本進(jìn)行訓(xùn)練的做法是不是沒有必要?
對此鄒昊晟表示,少量高質(zhì)量數(shù)據(jù)的確可以喚起模型已有的推理潛力,幫助它模仿出“會思考”的行為。但若要獲得真正穩(wěn)定且高水平的表現(xiàn),依然離不開更大規(guī)模的數(shù)據(jù)支撐。
以AIME評測為例,像LIMO和S1這類使用小規(guī)模數(shù)據(jù)蒸餾訓(xùn)練的模型,盡管性能有明顯提升,但與DeepSeek蒸餾得到的Qwen-32B模型仍存在不小差距。得分更高的OpenThinker-32B,背后依托的是一個(gè)包含11萬條樣本的大型數(shù)據(jù)集。Light-R1團(tuán)隊(duì)也是在訓(xùn)練中先使用了約7萬至8萬條樣本,再從中精挑出3000條更具挑戰(zhàn)性的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練。
“任何有關(guān)大模型的討論,都不能刻意淡化數(shù)據(jù)的重要性,數(shù)據(jù)質(zhì)和量都要保證,”鄒昊晟說。
他解釋,很多對于DeepSeek-R1低成本復(fù)現(xiàn)的報(bào)道,提到的只是訓(xùn)練過程的成本,而獲取數(shù)據(jù)也是有成本的。要蒸餾一個(gè)模型首先要部署它,再花費(fèi)算力收集數(shù)據(jù)。有了數(shù)據(jù),后面SFT的步驟的成本沒有那么高。
04
驚艷的訓(xùn)練方法,沒有成為主流
對DeepSeek-R1-Zero訓(xùn)練方法,鄒昊晟的評價(jià)是“美”。他曾認(rèn)為,大模型不適合MCTS加 PRM的后訓(xùn)練方法,它們不夠優(yōu)雅簡潔。 DeepSeek的方法恰恰拋棄了MCTS,僅使用ORM,在技術(shù)報(bào)告中,在DeepSeek-R1-Zero的響應(yīng)長度和驗(yàn)證分?jǐn)?shù)同時(shí)增加,形成一條“完美的曲線”。
“既美,也有效。它出來的那一周,我?guī)缀鯖]干別的,只在反復(fù)讀它的論文,聽相關(guān)的解讀,”他說。
但實(shí)際上,后續(xù)出現(xiàn)大量的推理模型沒有使用這種極具美感訓(xùn)練方式,蒸餾反而成了主導(dǎo)。一個(gè)關(guān)鍵原因在于,DeepSeek-R1開放了它的CoT(Chain-of-Thought,思維鏈)數(shù)據(jù)后,訓(xùn)練推理模型已經(jīng)有了一條捷徑。
在大模型的訓(xùn)練流程中,SFT是后訓(xùn)練的關(guān)鍵步驟之一。具體做法是,研究者準(zhǔn)備一批高質(zhì)量的人工標(biāo)注數(shù)據(jù),其中不僅包含問題和答案,還包含推理過程,也就是CoT數(shù)據(jù)。SFT階段,就是用這些帶有“思考步驟”的樣例子去微調(diào)模型,讓它學(xué)會像人一樣逐步分析問題、得出結(jié)論。
過去,獲取高質(zhì)量的CoT數(shù)據(jù)一直是訓(xùn)練推理模型的瓶頸之一。普通問答數(shù)據(jù)通常只包含問題和答案,而要激活模型的反思能力,需要為題目配上詳細(xì)的思維過程。但這類數(shù)據(jù)在公開數(shù)據(jù)集中幾乎不存在,人工標(biāo)注成本極高,用AI自動(dòng)生成往往又質(zhì)量不佳。
DeepSeek-R1選擇開放CoT數(shù)據(jù),使得后來者可以直接用這些數(shù)據(jù)對模型進(jìn)行蒸餾,讓一個(gè)不具備推理能力的模型,通過模仿DeepSeek-R1給出的解題步驟,獲得推理能力。鄒昊晟表示,有了一個(gè)開源的、能生成CoT的模型之后,很多跟進(jìn)工作整理出了開源的、帶CoT的數(shù)據(jù)集,這大大降低了獲取的成本。
于是,相比親自走一遍純強(qiáng)化學(xué)習(xí)這條難度高、試錯(cuò)成本大的路線,后來者更傾向于使用這些公開的CoT數(shù)據(jù)進(jìn)行蒸餾,訓(xùn)練推理模型。"一旦有一個(gè)模型允許蒸餾,就會有無數(shù)個(gè)"。鄒昊晟說,“在資源消耗和可控性上,蒸餾要好很多”。
根據(jù)鄒昊晟的粗略估計(jì),和蒸餾相比,從頭強(qiáng)化學(xué)習(xí)需要的資源至少多一個(gè)數(shù)量級。強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的數(shù)據(jù)主要都靠模型自己采樣生成,不像監(jiān)督學(xué)習(xí)的數(shù)據(jù)更容易人為干預(yù)。根據(jù)Light-R1強(qiáng)化學(xué)習(xí)部分的訓(xùn)練經(jīng)驗(yàn),一個(gè)14B的模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,需要128張A100卡跑超過40個(gè)小時(shí)。而利用了SFT步驟的Light-R1-32B模型訓(xùn)練,只需要96張H800卡跑6小時(shí)。
相比直接訓(xùn)練推理模型,從已有模型中進(jìn)行蒸餾在資源消耗上要低得多。研究者可以先生成一小批問題的解題過程,用于初步訓(xùn)練。如果算力緊張,后續(xù)還可以按需補(bǔ)充。在抓取完 DeepSeek-R1的回答后,后續(xù)對數(shù)據(jù)清洗、篩選和組織工作大多屬于低成本環(huán)節(jié)。根據(jù)處理后的數(shù)據(jù),還可以產(chǎn)出多個(gè)版本,分別用于不同模型的訓(xùn)練。
在鄒昊晟看來,純強(qiáng)化學(xué)習(xí)路線更多體現(xiàn)的是一種研究上的美感,但這種方法存在兩個(gè)現(xiàn)實(shí)問題:一是最終分?jǐn)?shù)仍然不如先經(jīng)過蒸餾再進(jìn)行強(qiáng)化學(xué)習(xí)等步驟優(yōu)化后的模型,二是模型的思考過程可讀性不強(qiáng)。他補(bǔ)充說,DeepSeek部署上線的也不是R1-Zero模型,而是經(jīng)過SFT后再強(qiáng)化學(xué)習(xí)訓(xùn)練的R1模型。純強(qiáng)化學(xué)習(xí)訓(xùn)練出來的模型,目前與用戶直接交互的能力還稍顯不足。
另一個(gè)限制出現(xiàn)在模型的體量上。在未經(jīng)過SFT 的基礎(chǔ)模型上直接進(jìn)行強(qiáng)化學(xué)習(xí),對小模型來說很困難。
許書堯提到,流行的說法是3B參數(shù)量是一個(gè)“門檻”。如果模型規(guī)模小于這一閾值,在強(qiáng)化學(xué)習(xí)階段往往難以表現(xiàn)出回答長度的增長或準(zhǔn)確率的提升。他在實(shí)驗(yàn)中曾嘗試對Qwen2.5-1.5B-Instruct模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,但沒有成功復(fù)現(xiàn)推理能力的提升,換用 Qwen2.5-7B-1M模型后,這一效果才得以顯現(xiàn)。
這背后其實(shí)是概率問題。比如讓模型解一道題,目標(biāo)是讓它給出正確答案,這樣它就能獲得正向獎(jiǎng)勵(lì)。但如果模型太小,它幾乎永遠(yuǎn)給不出正確答案,連“猜對”的概率都沒有,模型就沒法通過強(qiáng)化學(xué)習(xí)放大正確的行為。
例如,對一個(gè)7B的模型做64次采樣,也就是讓模型對同一個(gè)問題生成64次答案,它也許回答正確幾次。但對于一個(gè)1B模型,可能64次中沒有一次是正確的。在有限的訓(xùn)練次數(shù)下,始終得不到正確的答案,強(qiáng)化學(xué)習(xí)也就沒法向得到正確答案的方向引導(dǎo)。
相反,蒸餾則是對小模型友好的方法,在許書堯的后續(xù)實(shí)驗(yàn)中,通過讓7B模型指導(dǎo)1.5B模型,模型展現(xiàn)出明顯的反思行為,思維鏈也變得更長。
不過,這不代表純強(qiáng)化學(xué)習(xí)只是一次方法上的嘗試,它依然有實(shí)用的價(jià)值。
鄒昊晟介紹,在其團(tuán)隊(duì)工作之前,雖有大量復(fù)現(xiàn)和跟進(jìn)實(shí)驗(yàn),但無一能比肩DeepSeek蒸餾Qwen 32B模型在AIME24上72.6分的成績。而他所在的團(tuán)隊(duì)成功在一個(gè)更小的14B模型上,不僅實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)階段響應(yīng)長度與驗(yàn)證分?jǐn)?shù)的同步提升,還將成績提高到74分,超越了前者。
“這兩分的提升,其實(shí)是最難的,”鄒昊晟認(rèn)為,如果大多數(shù)模型可以通過蒸餾達(dá)到90分,但要在此基礎(chǔ)上更進(jìn)一步,提升到95分,強(qiáng)化學(xué)習(xí)就是不可替代的手段,“雖然不像外界想象的那么有革命性,但對行業(yè)內(nèi)來說,這是一個(gè)訓(xùn)練技術(shù)上的范式轉(zhuǎn)移”。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。