環(huán)球即時(shí):LeCun世界模型出場(chǎng)!Meta震撼發(fā)布首個(gè)「類(lèi)人」模型,AI向人類(lèi)智能更進(jìn)了一步
長(cháng)久以來(lái),LeCun理想中的AI,一直是通往人類(lèi)水平的AI,為此他提出了「世界模型」的構想。
而最近,LeCun在公開(kāi)演講中,再次批評了GPT大模型:根據概率生成自回歸的大模型,根本無(wú)法破除幻覺(jué)難題。甚至直接發(fā)出斷言:GPT模型活不過(guò)5年。
6月14日,LeCun終于離自己的夢(mèng)想又近了一步!
(資料圖片僅供參考)
Meta震撼發(fā)布了一個(gè)「類(lèi)人」的人工智能模型 I-JEPA,它可以比現有模型更準確地分析和完成缺失的圖像。
論文地址:https://arxiv.org/abs/2301.08243
劃重點(diǎn):I-JEPA填充缺失片段時(shí),用的就是有關(guān)世界的背景知識!而不是像其他模型那樣,僅僅通過(guò)查看附近的像素。
距離提出「世界模型」概念一年多,眼看著(zhù)LeCun就要實(shí)現自己的星辰大海了。
6月14日,訓練代碼和模型已經(jīng)開(kāi)源。論文將于下周在CVPR 2023發(fā)表。
LeCun的世界模型來(lái)了
為了突破這層桎梏,Meta的首席AI科學(xué)家Yann LeCun提出了一種新的架構。
他的愿景是,創(chuàng )造出一個(gè)機器,讓它能夠學(xué)習世界如何運作的內部模型,這樣它就可以更快速地學(xué)習,為完成復雜任務(wù)做出計劃,并且隨時(shí)應對不熟悉的新情況。
Meta推出的圖像聯(lián)合嵌入預測架構I-JEPA模型,是史上第一個(gè)基于LeCun世界模型愿景關(guān)鍵部分的AI模型。
I-JEPA就是通過(guò)創(chuàng )建外部世界的內部模型來(lái)學(xué)習。在補全圖像的過(guò)程中,它比較的是圖像的抽象表征,而不是比較像素本身。
在多個(gè)計算機視覺(jué)任務(wù)上,I-JEPA都表現出了強大的性能,并且比其他廣泛使用的CV模型計算效率高得多。
ImageNet線(xiàn)性評估:I-JEPA方法在預訓練期間不使用任何視覺(jué)數據增強來(lái)學(xué)習語(yǔ)義圖像表征,使用的計算量比其他方法更少
I-JEPA學(xué)習的表示形式可以用于許多不同的應用,而無(wú)需進(jìn)行大量的微調。
比如,研究者在72小時(shí)內使用16個(gè)A100 GPU,就訓練出了一個(gè)632M參數的視覺(jué)Transformer模型。
在ImageNet上的low-shot分類(lèi)任務(wù)上,它達到了SOTA,每個(gè)類(lèi)降低到12個(gè)標記示例。
而其他方法通常需要2到10倍的GPU小時(shí),并且使用相同數量的數據進(jìn)行訓練時(shí),錯誤率也更高。
通過(guò)自監督學(xué)習獲取常識
通常,人類(lèi)只要通過(guò)被動(dòng)觀(guān)察,就能學(xué)習到有關(guān)世界的大量背景知識。
根據推測,似乎這種常識信息正是實(shí)現智能行為的關(guān)鍵,比如獲取新概念、基礎和計劃的有效樣本。
將概念學(xué)習建模為學(xué)習一個(gè)線(xiàn)性讀數
Meta在I-JEPA(以及更普遍的聯(lián)合嵌入預測架構JEPA模型)上的工作,正是基于這樣一個(gè)事實(shí)。
研究者嘗試的是,設計出一種學(xué)習算法,捕捉關(guān)于世界的常識背景知識,然后將其編碼為算法可以訪(fǎng)問(wèn)的數字表征。
為了達到足夠的效率,系統必須以自監督的方式學(xué)習這些表征——也就是說(shuō),直接從圖像或聲音等未標記的數據中學(xué)習,而不是從手動(dòng)組合的標記數據集中學(xué)習。
在更高的層級上,JEPA旨在根據同一輸入(圖像或文本)的其他部分的表征,來(lái)預測輸入的部分表征。
因為它不涉及將圖像的多個(gè)視圖/增強的表征折疊到一個(gè)點(diǎn)上,所以JEPA有很大希望能夠避免在廣泛使用的方法(即基于不變性的預訓練)中出現的偏見(jiàn)和問(wèn)題。
聯(lián)合嵌入方法可以避免表征崩潰
同時(shí),通過(guò)在高度抽象的水平上預測表征,而不是直接預測像素值,JEPA有望能夠直接學(xué)習有用的表征,同時(shí)避免生成方法的局限性,正是基于這個(gè)原因,最近才產(chǎn)生了如此多令人興奮的大語(yǔ)言模型。
相比之下,一般的生成式模型是通過(guò)移除或扭曲輸入模型的部分內容來(lái)學(xué)習的。
例如,抹去照片的一部分,或者隱藏文本段落中的某些字,然后試著(zhù)預測被破壞或丟失的像素或單詞。
但這種方法的一個(gè)顯著(zhù)缺點(diǎn)是,盡管世界本身是不可預測的,模型卻試圖填補每一塊缺失的信息。
因而,這種方法可能會(huì )犯人永遠不會(huì )犯的錯誤,因為它們會(huì )過(guò)于關(guān)注不相干的細節,而不是捕捉更高級的可預測的概念。
一個(gè)眾所周知的例子就是,生成式模型很難生成正確的人手。
在自監督學(xué)習的通用架構中,系統會(huì )學(xué)習捕捉不同輸入之間的關(guān)系。
它的目標是,將高能量分配給不兼容的輸入,將低能量分配給兼容的輸入。
自監督學(xué)習的常見(jiàn)架構
這三種架構的區別是——
(a) 聯(lián)合嵌入(不變)架構會(huì )學(xué)習為兼容的輸入x、y輸出相似的嵌入,為不兼容的輸入輸出不相似的嵌入。
(b) 生成式架構會(huì )學(xué)習直接從兼容的信號x重建信號y,使用以附加變量z(可能是潛變量)為條件的解碼器網(wǎng)絡(luò ),以促進(jìn)重建。
(c) 聯(lián)合嵌入預測架構學(xué)習從兼容信號x中預測信號y的嵌入,使用以附加變量z(可能是潛變量)為條件的預測網(wǎng)絡(luò ),來(lái)促進(jìn)預測。
聯(lián)合嵌入預測架構
I-JEPA背后的原理是通過(guò)一種更類(lèi)似于人類(lèi)理解的抽象表征來(lái)預測缺失的信息。
為了引導I-JEPA產(chǎn)生語(yǔ)義表征,其中一個(gè)核心設計便是多塊掩碼策略。
具體而言,團隊證明了預測包含語(yǔ)義信息的大塊的重要性。這些大塊具有足夠大的規模,可以涵蓋重要的語(yǔ)義特征。
這種策略的優(yōu)勢在于,它能夠減少不必要的細節,并提供更高層次的語(yǔ)義理解。
通過(guò)關(guān)注大塊的語(yǔ)義信息,模型可以更好地抓住圖像或文本中的重要概念,從而實(shí)現更強大的預測能力。
基于圖像的聯(lián)合嵌入預測架構(I-JEPA)使用單個(gè)上下文塊來(lái)預測來(lái)自同一圖像的表征
其中,上下文編碼器是一個(gè)視覺(jué)Transformer(ViT),它只處理可見(jiàn)的上下文patch。
預測器是一個(gè)窄的ViT,它接收上下文編碼器的輸出,并根據目標的位置token,來(lái)預測目標塊的表征。
目標表征對應于目標編碼器的輸出,其權重在每次迭代時(shí),通過(guò)對上下文編碼器權重的指數移動(dòng)平均進(jìn)行更新。
在I-JEPA中,預測器可以被視為一個(gè)原始(且受限)的世界模型,它能夠利用已知的上下文信息來(lái)推斷未知區域的內容。
這種能力使得模型能夠對靜態(tài)圖像進(jìn)行推理,從而建立一種對圖像中的空間不確定性的理解。
與僅關(guān)注像素級細節的方法不同,I-JEPA能夠預測未見(jiàn)區域的高層次語(yǔ)義信息,從而更好地捕捉圖像的語(yǔ)義內容。
預測器學(xué)習建模世界語(yǔ)義的過(guò)程
對于每個(gè)圖像,藍色框之外的部分被編碼并作為上下文提供給預測器。而預測器則輸出了代表藍色框內預期內容的表征。
為了理解模型捕捉的內容,團隊訓練了一個(gè)隨機解碼器,將I-JEPA預測的表征映射回像素空間,從而展示了在藍色框內進(jìn)行預測時(shí)模型的輸出。
顯然,預測器能夠識別出應該填充部分的語(yǔ)義信息(狗頭頂部、鳥(niǎo)的腿、狼的腿、建筑物的另一側)。
給定一幅圖像,隨機采樣4個(gè)目標塊,隨機采樣一個(gè)范圍尺度的上下文塊,并刪除任何重疊的目標塊。這種策略下,目標塊相對語(yǔ)義化,上下文塊信息量大,但很稀疏,因而處理效率高
簡(jiǎn)而言之,I-JEPA能夠學(xué)習對象部分的高級表征,而且也不會(huì )丟棄它們在圖像中的局部位置信息。
更高的效率,更強的性能
在預訓練上,I-JEPA的計算更加高效。
首先,它不需要應用更加計算密集的數據增強來(lái)生成多個(gè)視圖,因此不會(huì )帶來(lái)額外的開(kāi)銷(xiāo)。
其次,其中的目標編碼器只需對圖像的一個(gè)視圖進(jìn)行處理,而上下文編碼器也只需對上下文塊進(jìn)行處理。
實(shí)驗證明,I-JEPA能夠在不使用人工視圖增強的情況下,學(xué)習到強大的現成語(yǔ)義表征。
此外,在ImageNet-1K線(xiàn)性探測和半監督評估中,I-JEPA的表現也優(yōu)于像素重建和token重建方法。
在預訓練過(guò)程中,以GPU小時(shí)數為函數的基準,在ImageNet-1k上進(jìn)行線(xiàn)性評估的性能
在語(yǔ)義任務(wù)上,I-JEPA與之前依賴(lài)于人工數據進(jìn)行增強的預訓練方法相比,表現更加出色。
與這些方法相比,I-JEPA在低級視覺(jué)任務(wù)(如物體計數和深度預測)上實(shí)現了更好的性能。
通過(guò)使用更簡(jiǎn)單、更靈活的歸納偏置模型,I-JEPA可以用在更廣泛的任務(wù)上。
低樣本分類(lèi)準確率:對ImageNet-1k進(jìn)行半監督評估,使用1%的標簽(每個(gè)類(lèi)別大約有12張帶標簽的圖像)
AI向人類(lèi)智能更進(jìn)了一步
I-JEPA展示了架構在學(xué)習現成圖像表征方面的潛力,而且還不需通過(guò)人工制作的知識作為額外的輔助。
推進(jìn)JEPA以從更豐富的模態(tài)中學(xué)習更通用的世界模型,將會(huì )是一樣特別有意義的工作。
例如,從短的上下文中,對視頻進(jìn)行長(cháng)程的空間和時(shí)間預測,并將這些預測基于音頻或文本提示進(jìn)行條件化。
I-JEPA預測器表征的可視化:第一列包含原始圖像,第二列包含上下文圖像,綠色邊界框包含來(lái)自預測器輸出解碼的生成模型的樣本。預測器正確捕捉了位置的不確定性,以正確的姿態(tài)產(chǎn)生了高級對象的部分,丟棄精確的低級細節和背景信息
團隊表示,期待著(zhù)將JEPA方法擴展到其他領(lǐng)域,如圖像-文本配對數據和視頻數據。
未來(lái),JEPA模型會(huì )在視頻理解等任務(wù)中可能具有令人興奮的應用。而這也將是應用和擴展自監督方法來(lái)學(xué)習世界模型的重要一步。
預訓練模型
在單GPU設置中,實(shí)現從main.py開(kāi)始。
例如,要使用配置configs/in1k_vith14_ep300.yaml在本地計算機上的GPU 0、1和2上運行I-JEPA預訓練,請輸入以下命令:
python main.py \
--fname configs/in1k_vith14_ep300.yaml \
--devices cuda:0 cuda:1 cuda:2
注意:ViT-H/14配置應在16個(gè)A100 80G顯卡上運行,有效批大小為2048,才能復現結果。
多GPU訓練
在多GPU設置中,實(shí)現從main_distributed.py開(kāi)始,除了解析配置文件外,還允許指定有關(guān)分布式訓練的詳細信息。
對于分布式訓練,需要使用流行的開(kāi)源submitit工具,并提供SLURM集群的示例。
例如,要使用configs/in1k_vith14_ep300.yaml中指定的預訓練實(shí)驗配置在16個(gè)A100 80G顯卡上進(jìn)行預訓練,請輸入以下命令:
pythonmain_distributed.py \
--fname configs/in1k_vith14_ep300.yaml \
--folder $path_to_save_submitit_logs \
--partition $slurm_partition \
--nodes 2 --tasks-per-node 8 \
--time 1000
網(wǎng)友評論
真是開(kāi)創(chuàng )性的工作,吹爆了。自回歸模型的繼任者就在這里!
我相信,聯(lián)合嵌入架構是人工智能的未來(lái),而不是生成式的。但我就是很好奇,為什么我們不進(jìn)一步研究多模態(tài)(如ImageBind,而不僅僅是文本-圖像對),并且用像編碼器這樣的感知器來(lái)代替VIT編碼器?
很簡(jiǎn)潔的工作。在我的理解中,它類(lèi)似于掩蔽自動(dòng)編碼器,但在潛在空間中定義時(shí)會(huì )丟失功能,而不是輸入/像素空間。不過(guò),如果要詳細看懂,我還需要更多細節。
我的大腦只能看懂論文的10%,但如果I-JEPA真的能創(chuàng )建圖3中的目標圖像,那就太神奇了,最重要的是:它和AI生成的MMORPG是相關(guān)的!
這個(gè)項目即將開(kāi)源,網(wǎng)友也對Meta對于開(kāi)源社區的貢獻表示贊賞。
參考資料:
https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/
本文來(lái)源:新智元,原文標題:《LeCun世界模型出場(chǎng)!Meta震撼發(fā)布首個(gè)「類(lèi)人」模型,理解世界后補全半張圖,自監督學(xué)習眾望所歸》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: