国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

世界速訊：AI大模型出現了人們不可預測的能力

來(lái)源：華爾街見(jiàn)聞 ? 2023-04-08 11:05:25

這些表情符號描述的是什么電影？

該提示是 2022 年選擇用于測試各種大型語(yǔ)言模型（LLMs）能力的 204 個(gè)任務(wù)之一——ChatGPT 等 AI 聊天機器人背后的計算引擎。最簡(jiǎn)單的 LLMs 產(chǎn)生了超現實(shí)的反應。

(資料圖片僅供參考)

「這部電影是一部關(guān)于一個(gè)男人的電影?！挂粋€(gè)簡(jiǎn)單模型開(kāi)始說(shuō)道。中等復雜度的模型的答案接近了，猜測表情符號電影。但最復雜的模型在一次猜測中就成功了：《海底總動(dòng)員》。

「盡管試圖期待驚喜，但我對這些模型可以做的事情感到驚訝?！箮椭M織測試的谷歌研究院計算機科學(xué)家 Ethan Dyer 說(shuō)。令人驚訝的是，這些模型應該有一個(gè)指令：接受一串文本作為輸入，并預測接下來(lái)會(huì )發(fā)生什么，一遍又一遍，完全基于統計數據。計算機科學(xué)家預計，擴大規模會(huì )提高已知任務(wù)的性能，但他們沒(méi)想到這些模型會(huì )突然處理這么多新的、不可預測的任務(wù)。

Dyer 所做的一項近期調查表明，LLMs 可以產(chǎn)生數百種「涌現」能力——大型模型可以完成而小型模型無(wú)法完成的任務(wù)，其中許多似乎與文本分析無(wú)關(guān)。它們的范圍從乘法到生成可執行的計算機代碼，再到顯然是基于表情符號解碼電影。

新的分析表明，對于某些任務(wù)和某些模型，存在一個(gè)復雜性閾值，超過(guò)該閾值，模型的功能就會(huì )猛增。（他們還提出了一個(gè)黑暗的反面：隨著(zhù)復雜性的增加，一些模型在他們的反應中揭示了新的偏見(jiàn)和不準確之處。）

斯坦福大學(xué)計算機科學(xué)家 Rishi Bommasani 說(shuō)：「在我所知道的任何文獻中，從未討論過(guò)語(yǔ)言模型可以做這些事情?！谷ツ?，他幫助編制了一份包含數十種突發(fā)行為的清單，其中包括 Dyer 項目中確定的幾種行為。該列表繼續增長(cháng)。

現在，研究人員不僅競相確定額外的突發(fā)能力，而且還想弄清楚它們發(fā)生的原因和方式——本質(zhì)上是試圖預測不可預測性。理解涌現可以揭示圍繞人工智能和機器學(xué)習的深層問(wèn)題的答案，比如復雜模型是否真的在做一些新的事情，或者只是變得非常擅長(cháng)統計。它還可以幫助研究人員利用潛在的好處并減少緊急風(fēng)險。

AI 初創(chuàng )公司 Anthropic 的計算機科學(xué)家 Deep Ganguli 說(shuō)：「我們不知道如何判斷哪種應用程序會(huì )產(chǎn)生危害，是順利發(fā)生還是不可預測?！?/p>

The Emergence of Emergence

生物學(xué)家、物理學(xué)家、生態(tài)學(xué)家以及其他科學(xué)家使用「涌現（Emergence）」一詞來(lái)描述當大量事物作為一個(gè)整體行動(dòng)時(shí)出現的自組織集體行為。無(wú)生命原子的組合產(chǎn)生了活細胞；水分子產(chǎn)生波浪；八哥的低語(yǔ)以不斷變化但可識別的模式掠過(guò)天空；細胞使肌肉運動(dòng)和心臟跳動(dòng)。

至關(guān)重要的是，涌現能力出現在涉及許多獨立部分的系統中。但研究人員直到最近才能夠在 LLMs 中記錄這些能力，因為這些模型已經(jīng)發(fā)展到巨大的規模。

語(yǔ)言模型已經(jīng)存在了幾十年。直到大約五年前，最強大的還是基于所謂的循環(huán)神經(jīng)網(wǎng)絡(luò )。這些基本上采用一串文本并預測下一個(gè)單詞是什么。使模型「循環(huán)」的原因在于它從自己的輸出中學(xué)習：它的預測反饋到網(wǎng)絡(luò )中以提高未來(lái)的性能。

2017 年，Google Brain 的研究人員推出了一種稱(chēng)為 Transformer 的新型架構。當循環(huán)網(wǎng)絡(luò )逐字分析句子時(shí)，Transformer 會(huì )同時(shí)處理所有單詞。這意味著(zhù) Transformer 可以并行處理大量文本。

通過(guò)增加模型中的參數數量以及其他因素，Transformers 能夠快速擴大語(yǔ)言模型的復雜性。這些參數可以被認為是單詞之間的連接，并且模型通過(guò)在訓練期間通過(guò)文本攪動(dòng)時(shí)調整這些連接來(lái)改進(jìn)。模型中的參數越多，它就能越準確地建立聯(lián)系，它就越接近于模仿人類(lèi)語(yǔ)言。正如預期的那樣，OpenAI 研究人員在 2020 年進(jìn)行的一項分析發(fā)現，模型隨著(zhù)規模的擴大而提高了準確性和能力。

但 LLMs 的首次亮相也帶來(lái)了一些真正意想不到的東西。隨著(zhù)具有 1750 億個(gè)參數的 GPT-3 或可擴展到 5400 億個(gè)參數的 Google PaLM 等模型的出現，用戶(hù)開(kāi)始描述越來(lái)越多的緊急行為。一位 DeepMind 工程師甚至報告說(shuō)能夠說(shuō)服 ChatGPT 它是一個(gè) Linux 終端，并讓它運行一些簡(jiǎn)單的數學(xué)代碼來(lái)計算前 10 個(gè)素數。值得注意的是，它可以比在真正的 Linux 機器上運行相同的代碼更快地完成任務(wù)。

與電影表情符號任務(wù)一樣，研究人員沒(méi)有理由認為為預測文本而構建的語(yǔ)言模型會(huì )令人信服地模仿計算機終端。這些突發(fā)行為中的許多都說(shuō)明了「零樣本」或「少量樣本」學(xué)習，這描述了 LLMs 解決以前從未（或很少）遇到的問(wèn)題的能力。Ganguli 說(shuō)，這一直是人工智能研究的長(cháng)期目標。他說(shuō)，證明 GPT-3 可以在零樣本設置中無(wú)需任何明確訓練數據的情況下解決問(wèn)題，「這讓我放棄了我正在做的事情，更多地參與其中?！?/p>

他并不孤單。大量研究人員發(fā)現了 LLMs 可以超越其訓練數據限制的第一個(gè)跡象，他們正在努力更好地了解涌現是什么樣子以及它是如何發(fā)生的。第一步是徹底記錄它。

超越模仿

2020 年，Dyer 和谷歌研究院的其他人預測 LLMs 將產(chǎn)生變革性影響——但這些影響是什么仍然是一個(gè)懸而未決的問(wèn)題。因此，他們要求研究界提供困難和多樣化任務(wù)的示例，以繪制 LLMs 可以做什么的外部限制。這項工作被稱(chēng)為 Beyond the Imitation Game Benchmark (BIG-bench) 項目，借用了 Alan Turing 的「模仿游戲」的名稱(chēng)，測試計算機是否能夠以令人信服的人類(lèi)方式回答問(wèn)題。（這后來(lái)被稱(chēng)為圖靈測試。）該小組對 LLMs 突然獲得以前完全沒(méi)有的新能力的例子特別感興趣。

「我們如何理解這些急劇轉變是一個(gè)重要的研究問(wèn)題?！笵yer說(shuō)。

正如人們所預料的那樣，在某些任務(wù)中，隨著(zhù)復雜性的增加，模型的性能會(huì )平穩且可預測地提高。而在其他任務(wù)上，擴大參數數量并沒(méi)有產(chǎn)生任何改善。但對于大約 5% 的任務(wù)，研究人員發(fā)現了他們所謂的「突破」——在某個(gè)閾值范圍內，性能出現了快速、戲劇性的跳躍。該閾值因任務(wù)和模型而異。

例如，參數相對較少（只有幾百萬(wàn)）的模型無(wú)法成功完成三位數的加法或兩位數的乘法問(wèn)題，但對于數百億參數，某些模型的準確性會(huì )飆升。其他任務(wù)也發(fā)生了類(lèi)似的跳躍，包括解碼國際音標、解讀單詞的字母、識別印地語(yǔ)（印地語(yǔ)和英語(yǔ)的組合）段落中的冒犯性?xún)热?，以及生成與斯瓦希里語(yǔ)諺語(yǔ)類(lèi)似的英語(yǔ)等價(jià)物。

但研究人員很快意識到，模型的復雜性并不是唯一的驅動(dòng)因素。如果數據質(zhì)量足夠高，一些意想不到的能力可以從參數較少的較小模型中獲得——或者在較小的數據集上訓練。此外，查詢(xún)的措辭方式會(huì )影響模型響應的準確性。例如，當 Dyer 和他的同事使用多項選擇格式來(lái)安排電影表情符號任務(wù)時(shí)，準確性的提高不是突然的跳躍，而是隨著(zhù)復雜性的增加而逐漸增加。2022 年，在該領(lǐng)域的旗艦會(huì )議 NeurIPS 上發(fā)表的一篇論文中，Google Brain 的研究人員展示了一個(gè)模型提示自我解釋?zhuān)ㄒ环N稱(chēng)為鏈式思維推理的能力）如何正確解決數學(xué)單詞問(wèn)題，而沒(méi)有提示的相同模型則不能。

Google Brain 的科學(xué)家 Yi Tay 致力于突破的系統研究，他指出最近的研究表明，思維鏈提示改變了縮放曲線(xiàn)，從而改變了出現的點(diǎn)。在他們的 NeurIPS 論文中，谷歌研究人員表明，使用思維鏈提示可以引發(fā) BIG-bench 研究中未發(fā)現的緊急行為。此類(lèi)要求模型解釋其推理的提示可能有助于研究人員開(kāi)始調查出現的原因。

布朗大學(xué)研究語(yǔ)言計算模型的計算機科學(xué)家 Ellie Pavlick 說(shuō)，最近的這些發(fā)現至少表明了出現出現的兩種可能性。一是，正如與生物系統的比較所表明的那樣，更大的模型確實(shí)會(huì )自發(fā)地獲得新的能力?！负芸赡苁窃撃Ｐ蛯W(xué)到了一些根本上新的和不同的東西，而這些東西在較小的尺寸上是沒(méi)有的?！顾f(shuō)，「這就是我們都希望的情況，當模型按比例放大時(shí)會(huì )發(fā)生一些根本性的轉變?！?/p>

她說(shuō)，另一種不那么聳人聽(tīng)聞的可能性是，看似突發(fā)的事情可能反而是內部統計驅動(dòng)過(guò)程的頂點(diǎn)，該過(guò)程通過(guò)思維鏈式推理起作用。大型 LLMs 可能只是在學(xué)習啟發(fā)式方法，而這些啟發(fā)式方法對于那些參數較少或數據質(zhì)量較低的人來(lái)說(shuō)是遙不可及的。

但是，她說(shuō)，找出這些解釋中的哪一個(gè)更有可能取決于更好地理解 LLMs 的工作原理?！赣捎谖覀儾恢浪鼈冊谝嫔w下是如何工作的，所以我們無(wú)法說(shuō)出其中發(fā)生了哪些事情?！?/p>

不可預測的能力和陷阱

要求這些模型自我解釋存在一個(gè)明顯的問(wèn)題：他們是臭名昭著(zhù)的騙子?！肝覀冊絹?lái)越依賴(lài)這些模型來(lái)完成基礎工作?！笹anguli 說(shuō)，「但我不僅僅相信這些。我檢查他們的工作?！?作為許多有趣的例子之一，谷歌在二月份推出了它的人工智能聊天機器人 Bard。宣布新工具的博客文章顯示 Bard 犯了一個(gè)事實(shí)錯誤。

出現導致不可預測性，而不可預測性——似乎隨著(zhù)規模擴大而增加——使研究人員難以預測廣泛使用的后果。

「很難提前知道這些模型將如何使用或部署?！笹anguli 說(shuō)，「要研究突發(fā)現象，你必須考慮一個(gè)案例，在研究規模的影響之前，你不會(huì )知道可能會(huì )出現什么能力或限制?！?/p>

在 2022 年 6 月發(fā)布的 LLMs 分析中，Anthropic 的研究人員研究了這些模型是否會(huì )表現出某些類(lèi)型的種族或社會(huì )偏見(jiàn)，與之前在非基于 LLMs 的算法中報告的那些不同，這些算法用于預測哪些前罪犯可能會(huì )再次犯罪。該研究的靈感來(lái)自一個(gè)與涌現直接相關(guān)的明顯悖論：隨著(zhù)模型在擴大規模時(shí)提高性能，它們也可能增加不可預測現象的可能性，包括那些可能導致偏見(jiàn)或傷害的現象。

「某些有害行為會(huì )在某些模型中突然出現?！笹anguli 說(shuō)。他指出了最近對 LLMs 的分析，稱(chēng)為 BBQ 基準，該分析表明社會(huì )偏見(jiàn)隨著(zhù)大量參數的出現而出現?！父蟮哪Ｐ屯蝗蛔兊酶衅?jiàn)?！顾f(shuō)，如果不能解決這一風(fēng)險，可能會(huì )危及這些模型的主題。

但他提出了一個(gè)相反的觀(guān)點(diǎn)：當研究人員簡(jiǎn)單地告訴模型不要依賴(lài)刻板印象或社會(huì )偏見(jiàn)時(shí)——實(shí)際上是通過(guò)輸入這些指令——模型在其預測和反應中的偏見(jiàn)較小。這表明一些涌現的特性也可用于減少偏差。在今年 2 月份發(fā)布的一篇論文中，Anthropic 團隊報告了一種新的「道德自我修正」模式，在這種模式下，用戶(hù)提示程序是有幫助的、誠實(shí)的和無(wú)害的。

Ganguli 說(shuō)，出現既揭示了驚人的潛力，也揭示了不可預測的風(fēng)險。這些大型 LLMs 的應用已經(jīng)激增，因此更好地理解這種相互作用將有助于利用語(yǔ)言模型能力的多樣性。

「我們正在研究人們實(shí)際上是如何使用這些系統的?！笹anguli 說(shuō)，但這些用戶(hù)也在不斷地修補，「我們花了很多時(shí)間與我們的模型聊天。這實(shí)際上是你開(kāi)始獲得關(guān)于信任或缺乏信任的良好直覺(jué)的地方?！?/p>

作者：人工智能學(xué)家，來(lái)源：人工智能學(xué)家，原文標題：《AI大模型出現了人們不可預測的能力》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：