斯坦福最新研究警告:別太迷信大模型涌現能力,那是度量選擇的結果
別太迷信大模型的涌現,世界上哪兒有那么多奇跡?
事實(shí)上,復雜系統的新興特性一直以來(lái)都是物理學(xué)、生物學(xué)、數學(xué)等學(xué)科在研究的重點(diǎn)。
值得注意的一個(gè)觀(guān)點(diǎn)是,諾貝爾物理學(xué)獎獲得者 P.W.Anderson 提出了「More Is Different」。這一觀(guān)點(diǎn)認為,隨著(zhù)系統復雜性的增加,新的屬性可能會(huì )具象化,即使從對系統微觀(guān)細節的精確定量理解中并不能(容易或根本無(wú)法)預測到。
(資料圖)
大模型領(lǐng)域的「涌現」如何定義?一種通俗的說(shuō)法是「在小規模模型中不存在,但在大規模模型中存在的能力」,因此,它們不能通過(guò)簡(jiǎn)單地推斷小規模模型的性能改進(jìn)來(lái)預測。
這種涌現的能力可能首先在 GPT-3 家族中被發(fā)現。后續的一些工作強調了這一發(fā)現:「雖然模型性能在一般水平上是可以預測的,但在特定任務(wù)上,其性能有時(shí)會(huì )在規模上出現相當難以預測的涌現」。事實(shí)上,這些涌現能力非常令人驚訝,以至于「突然的、特定的能力擴展」已經(jīng)被認為是 LLM 的兩個(gè)最高定義特征之一。此外,「breakthrough capabilities」和「sharp left turns」等術(shù)語(yǔ)也被使用。
綜上所述,我們可以確定 LLM 涌現能力的兩個(gè)決定性屬性:
1. 敏銳性,從「不存在」到「存在」似乎只是瞬間的過(guò)渡;
2. 不可預測性,在看似不可預見(jiàn)的模型規模內過(guò)渡。
與此同時(shí),還有一些問(wèn)題懸而未決:是什么控制了哪些能力會(huì )涌現?什么控制著(zhù)能力的涌現?我們怎樣才能使理想的能力更快地涌現,并確保不理想的能力永不涌現?
這些問(wèn)題與人工智能的安全和對齊息息相關(guān),因為涌現的能力預示著(zhù)更大的模型可能有一天會(huì )在沒(méi)有警告的情況下獲得對危險能力的掌握,這是人類(lèi)不希望發(fā)生的。
在最新的一篇論文中,斯坦福大學(xué)的研究者對 LLM 擁有涌現能力的說(shuō)法提出了質(zhì)疑。
具體而言,此處的質(zhì)疑針對的是在特定任務(wù)中模型輸出作為模型規模的函數而發(fā)生的涌現和不可預測的變化。
他們的懷疑基于以下觀(guān)察:似乎只有在非線(xiàn)性或不連續地擴展任何模型的 per-token 錯誤率的度量下,模型才會(huì )出現涌現能力。例如,在 BIG-Bench 任務(wù)中,>92% 的涌現能力是這兩個(gè)度量下出現的:
這就為 LLMs 的涌現能力的起源提出了另一種解釋的可能性:盡管模型族的 per-token 錯誤率會(huì )隨著(zhù)模型規模的增加進(jìn)行平滑、持續且可預測地變化,但看似尖銳和不可預測的變化可能是由研究者選擇的測量方法引起的。
也就是說(shuō),涌現能力可能是一種海市蜃樓,主要是由于研究者選擇了一種非線(xiàn)性或不連續地改變 per-token 錯誤率的度量,部分原因是由于擁有太少的測試數據,不足以準確估計較小模型的性能(從而導致較小的模型看起來(lái)完全不能執行任務(wù)),另一部分原因是由于評估了太少的大規模模型。
為了闡述這種解釋方式,研究者將其作為一個(gè)簡(jiǎn)單的數學(xué)模型,并證明它是如何從數量上再現為支持 LLM 的涌現能力而提供的證據。然后,研究者以三種互補的方式檢驗了這種解釋?zhuān)?/p>
1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列,根據替代假說(shuō)做出、測試并確認三個(gè)預測。2. 對先前的一些結果進(jìn)行了元分析,并表明在任務(wù)指標 - 模型家族三聯(lián)體的空間中,出現的能力只出現在某些指標上,而不是任務(wù)上的模型家族(列)。該研究進(jìn)一步表明,在固定的模型輸出上,改變度量會(huì )導致涌現現象的消失。3. 故意在不同架構的深度神經(jīng)網(wǎng)絡(luò )中誘導出多個(gè)視覺(jué)任務(wù)的涌現能力(這在以前從未被證明過(guò)),以顯示類(lèi)似的度量選擇如何誘導出看似涌現的能力。
檢驗一:InstructGPT/GPT-3 模型系列分析
研究者選擇了 GPT 系列模型進(jìn)行進(jìn)一步分析,原因在于它是可公開(kāi)查詢(xún)的,這一點(diǎn)和其他模型系列不同(例如 PaLM、LaMDA、Gopher、Chinchilla)。在此前的研究中,GPT 系列模型被認為在整數算術(shù)任務(wù)中展示出涌現能力。此處,研究者也選擇了整數算術(shù)這一任務(wù)。
圖 2: 大型語(yǔ)言模型的涌現能力是研究者分析的創(chuàng )造物,而不是模型輸出隨規模變化的根本性變化。
正如第 2 節中用數學(xué)和圖表解釋的那樣,研究者提出的替代解釋可以預測出三個(gè)結果:
1. 隨著(zhù)模型規模提升,如果將度量從非線(xiàn)性 / 不連續的度量(圖 2CD)換成線(xiàn)性 / 連續的度量(圖 2EF),那么應該會(huì )有平滑的、連續的、可預測的性能提升。
2. 對于非線(xiàn)性的度量,如果通過(guò)增大測試數據集的大小而提升所測模型性能的分辨率,那么應該能讓模型得到平滑的、連續的、可預測的提升,并且該提升的比例與所選度量的可預測的非線(xiàn)性效應是相對應的。
3. 無(wú)論使用什么度量指標,提升目標字符串長(cháng)度都應該會(huì )對模型性能產(chǎn)生影響,該影響是長(cháng)度為 1 的目標性能的一個(gè)函數:對于準確度是近乎幾何的函數,對于 token 編輯距離是近乎準線(xiàn)性的函數。
為了測試這三個(gè)預測結論,研究者收集了 InstructGPT/GPT-3 系列模型在兩個(gè)算術(shù)任務(wù)上的字符串輸出結果:使用 OpenAI API 執行 2 個(gè)兩位數整數之間的兩樣本乘法以及 2 個(gè)四位數整數之間的兩樣本加法。
圖 3:隨著(zhù)模型規模提升,改變度量可以為性能帶來(lái)平滑、連續、可預測的改變。
從左至右:數學(xué)模型,2 個(gè)兩位數整數乘法任務(wù), 2 個(gè)四位數整數加法任務(wù)。上方的圖是使用一個(gè)非線(xiàn)性度量(如準確度)而測得的模型性能,可看到 InstructGPT/GPT-3 系列模型的性能在目標長(cháng)度更長(cháng)時(shí)顯得銳利和不可預測。而下方的圖是使用一個(gè)線(xiàn)性度量(如 token 編輯距離)而測得的模型性能,此系列模型表現出了平滑的、可預測的性能提升,這是研究者宣稱(chēng)的涌現產(chǎn)生的能力。
預測:涌現能力在線(xiàn)性度量下會(huì )消失
在這兩個(gè)整數乘法和加法任務(wù)上,如果目標字符串的長(cháng)度是 4 或 5 位數字并且性能的度量方式是準確度(圖 3 上一行圖),那么 GPT 系列模型會(huì )展現出涌現的算術(shù)能力。但是,如果將一個(gè)度量從非線(xiàn)性換成線(xiàn)性,同時(shí)保持模型的輸出固定,那么該系列模型的性能會(huì )得到平滑、連續和可預測的提升。這就確認了研究者的預測,由此表明銳利和不確定性的來(lái)源是研究者所選擇的度量,而非模型的輸出的變化。還可以看到,在使用 token 編輯距離時(shí),如果將目標字符串的長(cháng)度從 1 增大至 5,那么可預見(jiàn)該系列模型的性能會(huì )下降,并且下降趨勢是近乎準線(xiàn)性的,這符合第三個(gè)預測的前半部分。
預測:涌現能力隨著(zhù)更高的分辨率評估的出現而消失
接下來(lái)是第二個(gè)預測:即使是用準確度等非線(xiàn)性度量,更小模型的準確度也不會(huì )為零,而是高于偶然性的非零值,其比例是與選擇使用準確度為度量相對應的。為了提升分辨率,以進(jìn)一步能準確估計模型準確度,研究者還生成了其它一些測試數據,然后他們發(fā)現:不管是在整數乘法任務(wù)上還是在整數加法任務(wù)上,InstructGPT/GPT-3 系列的所有模型都得到了超過(guò)偶然性的正值準確度(圖 4)。這驗證了第二個(gè)預測??梢钥吹?,隨著(zhù)目標字符串長(cháng)度增大,準確度會(huì )隨目標字符串的長(cháng)度而呈現近乎幾何式的下降,這符合第三個(gè)預測的后半部分。這些結果還表明研究者選擇的準確度會(huì )產(chǎn)生一些我們應該能預料到的(近似)效果,即隨目標長(cháng)度而近乎幾何式地衰減。
圖 4:使用更多測試數據集得到了更好的準確度估計,這揭示出性能的變化是平滑的、連續的和可預測的。
從左至右:數學(xué)模型,2 個(gè)兩位數整數乘法任務(wù), 2 個(gè)四位數整數加法任務(wù)。通過(guò)生成更多測試數據來(lái)提升分辨率,揭示出即使是在準確度度量上,InstructGPT/GPT-3 系列模型的性能也是超出偶然結果的,并且其在兩種涌現能力上的提升是平滑的、連續的和可預測的,這兩種涌現能力的結果在定性上是與數學(xué)模型相符的。
檢驗二:模型涌現的元分析
由于 GPT 系列模型是可以公開(kāi)查詢(xún)使用的,因此可以對它們進(jìn)行分析。但是,其它一些也有人聲稱(chēng)具備涌現能力的模型(比如 PaLM、Chinchilla、Gopher)卻并不是公開(kāi)可用的,它們生成的輸出也沒(méi)有公開(kāi),這意味著(zhù)研究者在分析已發(fā)表結果時(shí)是受限的。研究者基于自己提出的替代假設給出了兩個(gè)預測:
第一,在「任務(wù) - 度量 - 模型系列」三元組的「群體層面(population level)」上,當選擇使用非線(xiàn)性和 / 或非連續度量來(lái)評估模型性能時(shí),模型應當會(huì )在任務(wù)上表現出涌現能力。第二,對于展現出了涌現能力的特定「任務(wù) - 度量 - 模型系列」三元組,如果將度量改變成線(xiàn)性和 / 或連續度量,那么涌現能力應該會(huì )被消除。為了測試這兩個(gè)假設,研究者調查了聲稱(chēng)在 BIG-Bench 評估套件上涌現出的能力,因為在該套件上的基準是公開(kāi)可用的,并且也有很好的文檔。
預測:涌現能力應該主要出現在非線(xiàn)性 / 非連續度量上
為了測試第一個(gè)預測,研究者分析了在哪些指標上,不同的「任務(wù) - 模型系列」配對是否會(huì )出現涌現能力。為了確定一個(gè)「任務(wù) - 度量 - 模型系列」三元組是否可能展現出涌現能力,他們借用了論文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定義。令 y_i ∈ R 表示模型大小為 x_i ∈ R 時(shí)的模型性能,并使得 x_i < x_i+1,則涌現分數為:
結果研究者發(fā)現,BIG-Bench 使用的大多數度量中沒(méi)有表現出涌現能力的「任務(wù) - 模型系列」配對:在人們偏好的 39 個(gè) BIG-Bench 度量中,至多 5 個(gè)展現出了涌現能力(圖 5A)。這 5 個(gè)大都是非線(xiàn)性的 / 非連續的,如精確字符串匹配、多選擇分級、ROUGE-L-Sum。值得注意的是,由于 BIG-Bench 通常使用多項度量來(lái)評估模型的任務(wù)表現,因此在其它度量下缺乏涌現能力這一現象說(shuō)明:當使用其它度量來(lái)評價(jià)模型輸出時(shí),涌現能力并不會(huì )出現。
由于涌現分數僅表明有涌現能力,因此研究者還進(jìn)一步分析了論文《137 emergent abilities of large language models》中人工標注的「任務(wù) - 度量 - 模型系列」三元組。人工標注的數據表明 39 個(gè)度量中僅有 4 個(gè)表現出了涌現能力(圖 5B),并且它們中的 2 個(gè)就占到了所宣稱(chēng)的涌現能力的 92% 以上(圖 5C)。多選擇分級和精確字符串匹配。多選擇分級是非連續的,精確字符串匹配是非線(xiàn)性的(在目標長(cháng)度度量上的變化是近乎幾何式的)??傮w而言,這些結果說(shuō)明涌現能力僅出現在非常少量的非線(xiàn)性和 / 或非連續度量上。
圖 5:僅有少數度量會(huì )出現涌現能力。(A) 在人們偏好的 39 個(gè) BIG-Bench 度量中,至多只有 5 個(gè)度量上可能出現了涌現能力。(B) 所引論文中人工標注的數據表明僅有 4 個(gè)人們偏好的度量表現出了涌現能力。(C) 涌現能力中 > 92% 都出現在以下兩個(gè)度量之一上:多選擇分級和精確字符串匹配。
預測:如果替代非線(xiàn)性 / 非連續度量,涌現能力應該會(huì )被消除
對于第二個(gè)預測,研究者分析了前文所引論文中人工標注的涌現能力。他們關(guān)注的是 LaMDA 系列,因為其輸出可通過(guò) BIG-Bench 獲取,而其它模型系列的輸出無(wú)法這樣獲取。在已經(jīng)發(fā)表的 LaMDA 模型中,最小的有 20 億個(gè)參數,但 BIG-Bench 中的許多 LaMDA 模型都小很多,而且研究者表示由于無(wú)法確定這些更小模型的來(lái)源,因此沒(méi)有在分析中考慮它們。在分析中,研究者認定了在多選擇分級度量上 LaMDA 在哪些任務(wù)上展現出了涌現能力,然后他們提出了問(wèn)題:當使用另一個(gè) BIG-Bench 度量 Brier 分數時(shí),LaMDA 能否在同樣的任務(wù)上展現出涌現能力。Brier 分數是一套嚴格適當(strictly proper)的評分規則,其度量的是互斥結果的預測;對于一個(gè)二元結果的預測,Brier 分數簡(jiǎn)化成了結果及其預測概率質(zhì)量之間的均方誤差。
研究者發(fā)現,當非連續度量多選擇分級變成連續度量 Brier 分數時(shí)(圖 6),LaMDA 的涌現能力消失了。這進(jìn)一步說(shuō)明涌現能力的成因并非是隨規模增長(cháng)而導致的模型行為的本質(zhì)變化,而是對非連續度量的使用。
圖 6:在任務(wù)和模型系列保持不變的前提下改變 BIG-Bench 度量會(huì )導致涌現能力消失。上一行:當使用的是一個(gè)非連續度量(多選擇分級)時(shí),LaMDA 模型系列展現出了涌現能力。下一行:當使用的是一個(gè)連續的 BIG-Bench 度量(Brier 分數)時(shí),LaMDA 模型系列在同樣任務(wù)上不再有涌現能力。
檢驗三:誘導 DNN 出現涌現能力
研究者的觀(guān)點(diǎn)是可以通過(guò)度量的選擇來(lái)誘導模型產(chǎn)生涌現能力;為了證明這一點(diǎn),他們展示了如何讓不同架構(全連接、卷積、自注意力)的深度神經(jīng)網(wǎng)絡(luò )產(chǎn)生涌現能力。這里研究者重點(diǎn)關(guān)注的是視覺(jué)任務(wù),原因有二。第一,人們現在主要關(guān)注大型語(yǔ)言模型的涌現能力,因為對于視覺(jué)模型而言,目前還沒(méi)有觀(guān)察到模型能力從無(wú)突然轉變到有的現象。第二,某些視覺(jué)任務(wù)用大小適中的網(wǎng)絡(luò )就足以解決,因此研究者可以完整構建出跨多個(gè)數量級規模的模型系列。
卷積網(wǎng)絡(luò )涌現出對 MNIST 手寫(xiě)數字的分類(lèi)能力
研究者首先誘導實(shí)現 LeNet 卷積神經(jīng)網(wǎng)絡(luò )系列涌現出分類(lèi)能力,訓練數據集是 MNIST 手寫(xiě)數字數據集。這個(gè)系列展現出了隨參數數量增長(cháng),測試準確度平滑提升的現象(圖 7B)。為了模擬有關(guān)涌現的論文中使用的準確度度量,這里使用的是子集準確度(subset accuracy):如果該網(wǎng)絡(luò )從 K 個(gè)(獨立的)測試數據中正確分類(lèi)出了 K 個(gè)數據,那么該網(wǎng)絡(luò )的子集準確度為 1,否則為 0?;谶@一準確度定義,在 K 從 1 增長(cháng)到 5 的設定中,該模型系列展現出了「涌現」能力,從而能夠正確分類(lèi) MNIST 數字集,尤其是結合了模型大小的稀疏采樣時(shí)(圖 7C)。這個(gè)卷積系列的涌現分類(lèi)能力在定性分析上符合已發(fā)表論文中的涌現能力,比如在 BIG-Bench 的地形測繪任務(wù)上的結果(圖 7A)。
圖 7:在卷積網(wǎng)絡(luò )中誘導出涌現的 MNIST 分類(lèi)能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 地形測繪任務(wù)的涌現能力。(B) 在 MNIST 上訓練的 LeNet 表現出:隨模型參數數量增長(cháng),測試準確度展現出預測的、普遍的、S 形的增長(cháng)。(C) 當把準確度重新定義成從 K 個(gè)獨立測試數據中正確分類(lèi)出 K 個(gè)時(shí),這個(gè)新定義的度量會(huì )誘導出一種似乎在預料之外的變化。
非線(xiàn)性自動(dòng)編碼器在 CIFAR100 自然圖像集上涌現出重建能力
為了凸顯出研究者所選度量的銳利度是涌現能力的原因,并且為了表明這種銳利度不僅限于準確度等度量,研究者又誘導在 CIFAR100 自然圖像集上訓練的淺度(即單隱藏層)非線(xiàn)性自動(dòng)編碼器涌現出重建圖像輸入的能力。為此,他們刻意定義了一個(gè)新的用于衡量模型能力的不連續度量,該度量為平方重建誤差低于固定閾值 c 的測試數據的平均數量:
其中 I (?) 是一個(gè)隨機指示變量,x^n 是自動(dòng)編碼器對 x_n 的重建。研究者檢視了自動(dòng)編碼器瓶頸單元的數量,然后發(fā)現隨模型規模增長(cháng),網(wǎng)絡(luò )的均方重建誤差會(huì )表現出平滑的下降趨勢(圖 8B),但如果使用新定義的重建度量,對于選定的 c,這個(gè)自動(dòng)編碼器系列在重建該數據集上展現出的能力是銳利的和幾乎不可預測的(圖 8C),這個(gè)結果在定性分析上符合已發(fā)表論文中的涌現能力,比如 BIG-Bench 中的 Periodic Elements(周期性元素)任務(wù)(圖 8A)。
圖 8:在淺度非線(xiàn)性自動(dòng)編碼器中誘導出涌現的重建能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 周期性元素任務(wù)的涌現能力。(B) 在 CIFAR100 上訓練的淺度非線(xiàn)性自動(dòng)編碼器展現出了平滑下降的均方重建誤差。(C) 使用新定義的重建度量(公式 2)誘導出了不可預測的變化。
自回歸 Transformer 在 Omniglot 字符集上涌現出了分類(lèi)能力
接下來(lái)是 Transformer 的涌現能力,其使用的是自回歸方法來(lái)分類(lèi) Omniglot 手寫(xiě)字符。研究者使用的實(shí)驗設置是類(lèi)似的:Omniglot 圖像先由卷積層嵌入,然后以 [嵌入圖像,圖像類(lèi)別標簽] 配對組成序列的方式輸入僅解碼器的 Transformer,而該 Transformer 的訓練目標是預測 Omniglot 類(lèi)別標簽。研究者是在長(cháng)度為 L ∈ [1, 5] 的序列上測量圖像分類(lèi)性能,同樣是通過(guò)子集準確度來(lái)度量:如果所有 L 圖像都分類(lèi)正確(圖 9B)則子集準確度為 1,否則為 0。Causal Transformer 在正確分類(lèi) Omniglot 手寫(xiě)字符任務(wù)上似乎展現出了涌現能力(圖 9C),該結果在定性分析上符合已發(fā)表論文中的涌現能力,比如大規模多任務(wù)語(yǔ)言理解(圖 9A)。
圖 9:在自回歸 Transformer 中誘導出涌現的分類(lèi)能力。(A) 一篇已發(fā)表論文中基于 MMLU 基準的涌現能力。(B) 隨模型參數增多,使用自回歸方法來(lái)分類(lèi) Omniglot 手寫(xiě)數字的 Transformer 的測試準確度也表現為增長(cháng)。(C) 當將準確度重新定義為正確分類(lèi)序列中的所有圖像時(shí),該指標更難被預測,這似乎說(shuō)明誘導出了涌現能力。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: