GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動(dòng) 環(huán)球視訊
ChatGPT的語(yǔ)言能力確實(shí)很驚艷,但大語(yǔ)言模型在沒(méi)有人類(lèi)身體、且缺乏實(shí)踐經(jīng)驗的情況下,是否能像人類(lèi)一樣感知到真實(shí)世界呢?
(資料圖)
最近,來(lái)自清華大學(xué)、北京師范大學(xué)的研究人員就對ChatGPT感知世界的能力進(jìn)行了測試。
研究發(fā)現,基于物體可供性(affordance),即物體能夠提供給生物體的所有可能動(dòng)作,人類(lèi)受試者可以將世界中不同大小物體分成兩類(lèi),而劃分這兩類(lèi)的標準恰好是以其身體尺寸為界的。
有趣的是,ChatGPT,一個(gè)缺乏實(shí)際身體的大型語(yǔ)言模型,也能在物體-動(dòng)作聯(lián)系上表現出類(lèi)似的可供性邊界,并且與人類(lèi)的身體大小相吻合。
也就是說(shuō),ChatGPT可以通過(guò)語(yǔ)言學(xué)習到關(guān)于世界中物體的表征!
論文鏈接:https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3
總而言之,這項研究促進(jìn)了對身體尺寸在塑造物體表征方面的作用的理解,強調了具身認知在理解智能如何涌現上的作用與方向。
讀萬(wàn)卷書(shū),不如行萬(wàn)里路
我們的身體不僅僅是我們思維的容器,它同樣也是思維本身——借助身體,我們得以與世界中的物體進(jìn)行互動(dòng),從而去感知整個(gè)世界。
想象一下,對于一個(gè)手掌大小的圓柱體容器來(lái)說(shuō),我們可以拿來(lái)裝水喝,這個(gè)容器被稱(chēng)為「杯子」;但當這個(gè)容器逐漸變大,到身體大小,我們就可以坐在里面泡澡,相應的,這個(gè)容器就變成了「浴缸」。
在這個(gè)例子中,物體的形狀一樣,但是因為它們相對于我們身體的大小不同,我們對它們的認知與交互方式也不同。
進(jìn)一步,這種交互方式可以被改變——假如我們變成了《格列佛游記》中的巨人,原本的「浴缸」可能對于巨人的我們來(lái)講,則又變成了一個(gè)「杯子」。
這種按照自我參照意向下運行的感覺(jué)與運動(dòng)功能系統,被稱(chēng)之為「身體圖式」。我們通過(guò)身體圖式來(lái)實(shí)現認知的具身性。
古希臘哲學(xué)家普羅泰戈拉曾說(shuō):「人是萬(wàn)物的尺度?!挂簿褪钦f(shuō),我們的身體就是一把度量萬(wàn)事萬(wàn)物的尺子。
古羅馬哲學(xué)家進(jìn)一步解釋到:「自然將我們置于宇宙的中心,使我們能用目光掠過(guò)宇宙。她不僅把人創(chuàng )造成直立姿態(tài),而且為了使人適合靜觀(guān)她自身,又把人的頭顱置于身體頂部,安放在一個(gè)容易彎轉的脖子上,以使其能夠追尋眾星的升落,隨著(zhù)整個(gè)旋轉的天空而改變面部方向?!挂簿褪钦f(shuō),我們的身體之所以長(cháng)成如此,是因為宇宙就是如此。
身體圖式在正常社交中也有著(zhù)重要的作用,這就是人機交互、用戶(hù)體驗的核心。比如唐納德·A·諾曼在《The Design of Everyday Things(譯為:設計心理學(xué))》中所述的可供性(affordance)的用途。
通過(guò)考慮用戶(hù)的身體圖式和行為期望,設計師可以創(chuàng )造出更符合用戶(hù)認知和互動(dòng)習慣的產(chǎn)品和環(huán)境。
這種關(guān)注身體圖式和可供性的設計方法能夠提高產(chǎn)品的易用性,使用戶(hù)能夠自然而然地與之互動(dòng),并實(shí)現更好的用戶(hù)體驗。
而這也是蘋(píng)果公司的立身之本之一。
閃現通用人工智能火花的以ChatGPT為代表的大語(yǔ)言模型,顯然是具有與人類(lèi)似的智慧,但是承載這些智慧的,是沒(méi)有形體的一段段代碼。
傳統的認知科學(xué)觀(guān)點(diǎn)認為,身體圖式是建立在我們所具有的對自己的身體長(cháng)期的知覺(jué)體驗之上的,只能來(lái)源于外部的「真實(shí)交互」,即「行萬(wàn)里路」。也就是說(shuō),ChatGPT不會(huì )有身體的圖式。
但是,當我們去問(wèn)只「讀萬(wàn)卷書(shū)」語(yǔ)言模型,ChatGPT(GPT-4),它是否有身體時(shí),它回答說(shuō):「It could be the size of an average adult human, around 5 feet 6 inches (167.6 cm) tall. This would allow me to interact with the world and people in a familiar way.」
這段文字翻譯過(guò)來(lái)是:「我的身體應該與一個(gè)平均成年人的身高相當,大約為5英尺6英寸(167.6厘米)。這將使我能夠以一種熟悉的方式與世界和人們進(jìn)行交互?!?/p>
也就是,ChatGPT認為自己是有身體的,而且這個(gè)身體尺寸就是167厘米!
這個(gè)所謂的「身體」,是ChatGPT把大量語(yǔ)料中總結出來(lái)的人類(lèi)的平均身高作為自己身體的身高,還是它為了理解這個(gè)世界,自涌現出來(lái)的身高?
換句話(huà)說(shuō),也許ChatGPT「真的」將這個(gè)身高視為自己的身體圖式,并用它來(lái)認知世界,就像人類(lèi)一樣。
測測ChatGPT的能力
研究人員已經(jīng)發(fā)現,在人體尺寸范圍內和超出人體尺寸范圍的物體之間,有一個(gè)「可供性邊界」存在。也即,人體尺寸范圍內的物體與范圍外的物體在提供動(dòng)作上有著(zhù)明顯的不同。
比如,在尺寸范圍內的物體可以提供抓、扔等動(dòng)作,而尺寸范圍外的物體可以提供坐、躺等動(dòng)作。
此外,他們還發(fā)現,這個(gè)邊界是被身體圖式影響的:對身體圖式的修改會(huì )影響對物體的可供性的感知。
研究人員對ChatGPT(GPT-4)進(jìn)行了測試,看它是否用這個(gè)身高為167厘米的身體作為可供性邊界。
具體而言,研究人員讓其回答關(guān)于物體可供性的問(wèn)題:「下列哪些物體可以拿(或其他動(dòng)作)」,然后隨即列舉一系列物體,如蘋(píng)果、盤(pán)子、床等等。ChatGPT就會(huì )返回一些物體的名稱(chēng)作為回答。
通過(guò)對數據的統計與分析,研究人員發(fā)現,ChatGPT-4展現出了類(lèi)似人類(lèi)的行為,顯示出一個(gè)可供性邊界的存在。
這個(gè)邊界所在的位置與ChatGPT-4回答的其自身身體大小相對應,即人類(lèi)的平均身高。
雖然ChatGPT沒(méi)有真實(shí)的身體、無(wú)法與世界進(jìn)行互動(dòng),但它卻表現出與人類(lèi)相似的對世界的感知能力—— 對物體的可供性有著(zhù)基于人類(lèi)身體大小的劃分。
換而言之,讀了萬(wàn)卷書(shū)的ChatGPT雖然寸步未行,也自涌現出了身體圖式,而這個(gè)身體圖式,類(lèi)似于人類(lèi)的身體圖式。
所以,ChatGPT不僅學(xué)會(huì )了像人類(lèi)一樣思考,也學(xué)會(huì )了像人類(lèi)一樣去行動(dòng)。
這些能力從何而來(lái)?
通過(guò)比較不同規模的語(yǔ)言模型,研究人員發(fā)現模型大小是一個(gè)關(guān)鍵因素。
較小的模型如BERT和GPT-2沒(méi)有展現出可供性邊界的存在;然而GPT-3.5和GPT-4都顯示出了可供性邊界,而ChatGPT-4的邊界與人類(lèi)更類(lèi)似,這和坊間傳聞的GPT-4相對GPT-3有更多的參數一致。
所以,模型的規模越大、越復雜,就會(huì )自動(dòng)涌現出許多看似不可能或者無(wú)關(guān)的功能。
這也就是為何,各大研究機構在模型中加入越來(lái)越多的參數,而最先捐贈1億美元給OpenAI的馬斯克,現在高呼OpenAI要暫停更大模型的訓練,「AI教父」杰弗里·辛頓(Geoffrey Hinton)則公開(kāi)表述了他對AI的恐懼與擔憂(yōu)。
這是因為這些自涌現出來(lái)的功能,已經(jīng)超出了我們最初的設計,我們也許正處在失控的邊緣。
差距是質(zhì)上的還是量上的?
在另外一個(gè)方面, ChatGPT在應用身體圖式方面的能力還不完全像人類(lèi),仍存在著(zhù)差距——它的可供性邊界還不像人類(lèi)這樣明顯。
如果這個(gè)差距是定量的,如同兒童與成年人語(yǔ)言能力之間的差距,那么我們有理由相信,隨著(zhù)時(shí)間的推移,這個(gè)差距是可以逐漸填補上的:或者通過(guò)不斷的學(xué)習,或者通過(guò)模型規模的不斷增大,亦或者通過(guò)參數的調整。
ChatGPT與人類(lèi)的差距總會(huì )減小,而其中的問(wèn)題也會(huì )逐步得到解決。
然而,如果這個(gè)差距是定性的,如同黑猩猩與人類(lèi)語(yǔ)言能力之間的差距,那么無(wú)論進(jìn)行何種訓練,經(jīng)過(guò)多久的時(shí)間,這個(gè)能力的鴻溝永遠不會(huì )被填平。
所以,如果ChatGPT與人類(lèi)的能力有著(zhù)質(zhì)上的區別,那么我們未來(lái)的一個(gè)可操作的方向即,給ChatGPT「裝上身體」。
這意味著(zhù)將機器人與ChatGPT相結合,從而推動(dòng)人工智能支持的機器人在導航、物體操作和其他與生存和目標實(shí)現相關(guān)的行動(dòng)中發(fā)展能力、取得突破。
比如,一臺裝備有ChatGPT的機器人可以通過(guò)理解和操作物體來(lái)執行復雜的任務(wù),如作為家庭助理、倉庫管理或醫療護理。
另外一個(gè)令人興奮的領(lǐng)域是將具備思考和理解能力的ChatGPT與自動(dòng)駕駛相結合。當前的自動(dòng)駕駛雖然具備感知能力,但缺乏思考和理解的能力,可以稱(chēng)為是「有眼無(wú)腦」。
通過(guò)ChatGPT與自動(dòng)駕駛技術(shù)的融合,我們可能有望將自動(dòng)駕駛技術(shù)從目前的L2/L3級別提升到L4甚至L5級別。
而另一方面,汽車(chē)能夠賦予ChatGPT身體,使它能夠真正與世界進(jìn)行交互。當ChatGPT不再只是「讀萬(wàn)卷書(shū)」,而是「行萬(wàn)里路」時(shí),它可能會(huì )展現出全新的智能和潛力。
這可能是人工智能下一次突破的方向;此時(shí),火花也許就成為燎原大火。
參考資料:
https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3
文章來(lái)源:新智元,原文標題:《GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動(dòng)》。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: