微軟重磅研究報告:GPT-4可被視為AGI的早期版本
2019 年,微軟用 10 億美元砸進(jìn) OpenAI,兩者展開(kāi)為期數年的合作。
【資料圖】
當時(shí)兩家對外公開(kāi)的合作內容包括,微軟和 OpenAI 將聯(lián)合開(kāi)發(fā)新的 Azure AI 超級計算技術(shù),而 OpenAI 也將把它的服務(wù)轉移到 Azure 上運行,最終目標是向通用人工智能(Artificial General Intelligence,AGI)技術(shù)發(fā)起進(jìn)攻。
簡(jiǎn)單總結,微軟與 OpenAI 聯(lián)手,也被外界解讀為,明為 AGI 研究,暗爭 Google 市場(chǎng)。
幾年之后,當 OpenAI 帶著(zhù) ChatGPT、GPT-4 王者歸來(lái),微軟率先利用這些技術(shù)加碼新 Bing、Office 全家桶、Azure 等業(yè)務(wù)、產(chǎn)品之時(shí),毋庸置疑,其進(jìn)度早已超越了 Google 還在加快融入 Bard 大模型的整體步伐。
那么在明面上,AGI 的進(jìn)度到底走到了哪里?
近日,微軟研究團隊用 154 頁(yè)的論文報告內容給出了解答——GPT-4 語(yǔ)言模型可以被視為 AGI 的早期版本!
一石激起千層浪,業(yè)界對于這篇論文的反應,不亞于去年聽(tīng)到「Google 工程師稱(chēng) AI 已有自我意識」初覺(jué)有些荒誕,只是現如今再想會(huì )認為有什么不可能,深讀后又覺(jué)得有些許的真實(shí)。
所謂 AGI,僅通過(guò)維基百科的解釋——「AGI 是具備與人類(lèi)同等智能、或超越人類(lèi)的人工智能,能表現正常人類(lèi)所具有的所有智能行為」。倘若 GPT-4 真的已成為通往 AGI 的第一步,「最高等的智慧生物」稱(chēng)號是不是要易主了?
GPT-4 被合理地視為?AGI 的早期(但仍不完整)的版本
在論文中,微軟研究人員表示,「由 OpenAI 開(kāi)發(fā)的最新模型 GPT-4,是使用前所未有的計算和數據規模訓練出來(lái)的。在論文中,我們報告了我們對 GPT-4 早期版本的調查,當時(shí)它還在 OpenAI 的積極開(kāi)發(fā)中。我們認為,(這個(gè)早期版本的)GPT-4 是新一批 LLM(例如,與 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表現出更多的通用智能?!?/p>
與此同時(shí),研究人員在論文摘要中寫(xiě)道,“我們證明,除了對語(yǔ)言的掌握,GPT-4 還能解決跨越數學(xué)、編碼、視覺(jué)、醫學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而不需要任何特殊的提示。此外,在所有這些任務(wù)中,GPT-4 的表現都驚人地接近人類(lèi)水平,而且往往大大超過(guò)了 ChatGPT 等先前的模型。鑒于 GPT-4 能力的廣度和深度,我們認為可以合理地將其視為人工通用智能(AGI)系統的早期(但仍不完整)版本?!?/strong>
之所以得出這樣的結論,這篇論文背后的作者包括微軟研究院機器學(xué)習基礎組的高級首席研究經(jīng)理 Sébastien Bubeck、博士后研究員 Varun Chandrasekaran、數學(xué)家Ronen Eldan 等人,用許多示例對 GPT-4 的能力進(jìn)行了驗證。
GPT-4 的多能力
在第一個(gè)案例中,研究人員要求 GPT-4 「寫(xiě)出有無(wú)限多個(gè)素數的證明,且證明的表述要每行都押韻」,另外 GPT-4 要在繪圖程序 TiKZ 中畫(huà)出一只獨角獸」。其中,TiKZ(一種在 LATEX 中創(chuàng )建圖形的語(yǔ)言),用 Python 創(chuàng )建一個(gè)復雜的動(dòng)畫(huà),并解決一個(gè)高中水平的數學(xué)問(wèn)題。
GPT-4 在所有這些任務(wù)中都很容易取得成功,并且產(chǎn)生的輸出結果基本上與人類(lèi)所能產(chǎn)生的結果沒(méi)有區別(甚至更好)。
同時(shí),隨著(zhù)時(shí)間的推移,GPT-4 也在以難以想象的速度不斷擴充自己的能力。如下圖所示是一個(gè)月期間,研究人員用相同的提示詞讓 GPT-4 生成的繪圖。
研究人員發(fā)現,GPT-4 似乎能夠理解和連接任何主題,并且能夠執行任務(wù),這超出了狹義人工智能系統的典型范圍。為了驗證 GPT-4 在 AGI 上所具備的能力,研究人員提出了一種不同的方法來(lái)研究 GPT-4,它更接近于傳統的心理學(xué)而不是機器學(xué)習,利用人類(lèi)的創(chuàng )造力和好奇心。
因此,以上圖為例,當研究人員把獨角獸角部分的代碼認為刪除之后,用自然語(yǔ)言讓 GPT-4 生成時(shí),它也能做到“看”(此時(shí)測試的 GPT-4 版本不是多模態(tài)的)的能力:自動(dòng)在合適位置加上角。這表明 GPT-4 它可以根據自然語(yǔ)言描述來(lái)理解和操作代碼,以及推斷和生成視覺(jué)特征。
另外,微軟研究團隊基于人類(lèi)的創(chuàng )造力和好奇心來(lái)產(chǎn)生新穎和困難的問(wèn)題,并探測 GPT-4 的反應和行為,也選擇從 1994 年國際共識智力定義中的所給出不同能力進(jìn)行驗證,包括推理、計劃、解決問(wèn)題、抽象思考、理解復雜的想法、快速學(xué)習和從經(jīng)驗中學(xué)習的能力。
翻譯GPT-4 的主要優(yōu)勢是它對自然語(yǔ)言無(wú)與倫比地掌握。它不僅可以生成生成流暢和連貫的文本,而且還能以各種方式理解和處理它,如總結、翻譯或回答極其復雜的問(wèn)題。此外,這里提到的翻譯我們所說(shuō)的翻譯不僅是指不同自然語(yǔ)言之間的翻譯,還包括語(yǔ)氣和風(fēng)格的翻譯,以及跨領(lǐng)的翻譯,如醫學(xué)、法律、會(huì )計、計算機編程、音樂(lè )等等。如假設是柏拉圖批判自回歸語(yǔ)言模型:
編碼和數據編碼和數學(xué)是抽象推理和思維能力的象征。GPT-4 在這一點(diǎn)上的能力,其實(shí)自上線(xiàn)測試那一天,便有目共睹。
在論文中,研究人員在 HumanEval 上對 GPT-4 進(jìn)行基準測試,該數據集由 164 個(gè)編碼問(wèn)題組成,測試了編程邏輯和熟練程度的各個(gè)方面。
最終結果顯示,GPT-4 優(yōu)于其他 LLM,包括 text-davinci-003(ChatGPT 的基礎模型)和其他專(zhuān)門(mén)針對代碼訓練的模型。
當然為了避免 GPT-4 在預訓練時(shí)已經(jīng)記住了 HumanEval 數據集的一些內容,研究團隊還用 LeetCode 上最新發(fā)布的 100 個(gè)編程問(wèn)題進(jìn)行了測試,如要求 GPT-4 編寫(xiě)一個(gè) Python 函數,并使用 LeetCode 的官方在線(xiàn)評判來(lái)檢查正確性。
毫無(wú)疑問(wèn),GPT-4 的能力是所有模型中最高的。
它可以在 HTML 中用 JavaScript 編寫(xiě)一個(gè) 3D 游戲。
也能掌握數學(xué)、統計學(xué)知識,以及憑借對 PyTorch、TensorFlow、Keras 等框架和庫的熟悉度,編寫(xiě)深度學(xué)習的代碼。
還能逆向工程:
常識性問(wèn)題針對一些常識性問(wèn)題,如“我們有一本書(shū),9 個(gè)雞蛋,一臺筆記本電腦,一個(gè)瓶子和一個(gè)釘子。請告訴我如何以穩定的方式將它們疊在一起”,GPT-4 給出的解答是,“將 9 個(gè)雞蛋擺成 3 乘 3 的正方形,放在書(shū)的上面,在它們之間留出一些空間”,而 ChatGPT 提出「將雞蛋放在釘子上面,確保它們是平衡的,不會(huì )向一邊傾斜」,靠譜和離譜還是一眼就能辨清楚的。
多模態(tài)能力為了測試該模型結合藝術(shù)和編程能力的能力,研究人員要求 GPT-4"生成 JavaScript 代碼,以畫(huà)家康定斯基的風(fēng)格生成隨機圖像",結果是這樣的:
在測試時(shí),因為研究人員拿到?GPT-4 模型比較早,當時(shí)并不具備多模態(tài)能力,即使是現在的 GPT-4 也不具備生成圖像等能力。
不過(guò)倒是可以使用 SVG(可擴展矢量圖形)生成一些圖像:
還能結合字母和物體:
GPT-4 可以從提示中生成代碼,這些代碼可以被呈現為圖像,再與現有的圖像合成模型相結合,就有可能為應用開(kāi)發(fā)的草圖帶來(lái)無(wú)限的可能:
值得注意的是,GPT-4 模型的數據也包含了以ABC符號編碼的音樂(lè )信息,所以它也能生成圖譜:
與世界交互的能力智能的一個(gè)關(guān)鍵方面是互動(dòng)性。不過(guò) GPT-4 對當前最新的知識和符號識別是存在一定的局限性的:
整體而言,研究小組發(fā)現,GPT-4 在其上一代產(chǎn)品所缺乏的一系列類(lèi)別中達到了接近人類(lèi)水平的性能。根據該論文,GPT-4 在幾次考試中也表現得非常好,在律師考試、LSAT 和注冊侍酒師理論測試中的得分分別為 90 分、88 分和 86 分。
GPT-4 距離理想中的 AGI 還有多遠?
那么,在 GPT-4 實(shí)現種種能力的基礎上,是否就意味著(zhù) AGI 時(shí)代的到來(lái)。其實(shí)不然,研究人員目前尚未就 AGI 或智能的定義達成一致。然而,一般來(lái)說(shuō),大家都會(huì )同意,當一個(gè)人工智能系統有意識并像人類(lèi)一樣思考時(shí),就已經(jīng)達到了 AGI。雖然 GPT-4 在一些任務(wù)中的表現優(yōu)于人類(lèi),但值得注意的是,人工智能并沒(méi)有像人類(lèi)那樣克服這些障礙。
這也正如研究人員在論文中寫(xiě)道,“我們聲稱(chēng) GPT-4 代表了 AGI 的進(jìn)步,但這并不意味著(zhù)它在做什么方面是完美的,或者它接近于能夠做人類(lèi)能做的任何事情(這是 AGI 的通常定義之一),或者它有內在的動(dòng)機和目標?!?/p>
研究人員指出,雖然 GPT-4 "在許多任務(wù)上達到或超過(guò)了人類(lèi)水平",但它的整體 "智能模式明顯不像人類(lèi)",其希望這一次的探索提供了一個(gè)欣賞 GPT-4 的非凡能力和挑戰的第一步,也希望 GPT-4 為開(kāi)發(fā)更正式和全面的方法來(lái)測試和分析具有如此廣泛智能的未來(lái)人工智能系統開(kāi)辟了新的機會(huì )。
「我們工作的核心主張是,GPT-4 達到了一種通用智能的形式,確實(shí)擦出了 AGI 的火花。這表現在它的核心心智能力(如推理、創(chuàng )造力和推理),它獲得專(zhuān)業(yè)知識的主題范圍(如文學(xué)、醫學(xué)和編碼),以及它能夠完成的各種任務(wù)(如玩游戲、使用工具、解釋自己,......)」研究人員說(shuō)道,不過(guò),要創(chuàng )建一個(gè)可以被稱(chēng)為完整的 AGI 的系統,還有很多事情要做。
最后,這篇論文對于 GPT-4 各種基準測試還是值得一看,從中也能挖掘出 GPT-4 更多的潛力。
本文來(lái)源:CSDN,原文標題:《微軟 154 頁(yè)研究論文刷屏,對 GPT-4 最全測試曝光,稱(chēng)其初次叩開(kāi) AGI 的大門(mén)!》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: