世界關(guān)注:GPT現狀終于有人講清楚了!OpenAI大牛最新演講爆火,還得是馬斯克欽點(diǎn)的天才
繼Windows Copilot發(fā)布后,微軟Build大會(huì )熱度又被一場(chǎng)演講引爆。
前特斯拉AI總監Andrej Karpathy在演講中認為思維樹(shù)(tree of thoughts)與AlphaGo的蒙特卡洛樹(shù)搜索(MCTS)有異曲同工之妙!
【資料圖】
網(wǎng)友高呼:這是關(guān)于如何使用大語(yǔ)言模型和GPT-4模型的最詳盡有趣的指南!
此外Karpathy透露,由于訓練和數據的擴展,LLAMA 65B“明顯比GPT-3 175B更強大”,并介紹了大模型匿名競技場(chǎng)ChatBot Arena:
Claude得分介于ChatGPT 3.5和ChatGPT 4之間。
網(wǎng)友表示,Karpathy的演講一向很棒,而這次的內容也一如既往沒(méi)有令大家失望。
隨著(zhù)演講而爆火的,還有推特網(wǎng)友根據演講整理的一份筆記,足足有31條,目前轉贊量已超過(guò)3000+:
所以,這段備受關(guān)注的演講,具體提到了哪些內容呢?
如何訓練GPT助手?
Karpathy這次的演講主要分為兩個(gè)部分。
第一部分,他講了如何訓練一個(gè)“GPT助手”。
Karpathy主要講述了AI助手的四個(gè)訓練階段:預訓練(pre-training)、監督微調(supervised fine tuning)、獎勵建模(reward modeling)和強化學(xué)習(reinforcement learning)。
每一個(gè)階段都需要一個(gè)數據集。
在預訓練階段,需要動(dòng)用大量的計算資源,收集大量的數據集。在大量無(wú)監督的數據集上訓練出一個(gè)基礎模型。
Karpathy用了更多例子作補充:
使用較小的有監督數據集,通過(guò)監督學(xué)習對這個(gè)基礎模型進(jìn)行微調,就能創(chuàng )建一個(gè)能夠回答問(wèn)題的助手模型。
他還展示了一些模型的進(jìn)化過(guò)程,相信很多人之前已經(jīng)看過(guò)上面這張“進(jìn)化樹(shù)”的圖了。
Karpathy認為目前最好的開(kāi)源模型是Meta的LLaMA系列(因為OpenAI沒(méi)有開(kāi)源任何關(guān)于GPT-4的內容)。
在這里需要明確指出的是,基礎模型不是助手模型。
雖然基礎模型可以回答問(wèn)題,但它所給出的回答并不可靠,可用于回答問(wèn)題的是助手模型。在基礎模型上進(jìn)行訓練的助手模型,通過(guò)監督微調,在生成回復和理解文本結構方面的表現將優(yōu)于基礎模型。
在訓練語(yǔ)言模型時(shí),強化學(xué)習是另一個(gè)關(guān)鍵的過(guò)程。
通過(guò)用人工標記的高質(zhì)量的數據進(jìn)行訓練,可以使用獎勵建模來(lái)創(chuàng )建一個(gè)損失函數,以改善其性能。然后,通過(guò)增加正向的標記,并降低負面標記的概率,來(lái)進(jìn)行強化訓練。
而在具有創(chuàng )造性的任務(wù)中,利用人類(lèi)的判斷力對于改進(jìn)AI模型至關(guān)重要,加入人類(lèi)的反饋可以更有效地訓練模型。
經(jīng)過(guò)人類(lèi)反饋的強化學(xué)習后,就可以得到一個(gè)RLHF模型了。
模型訓練好了,接下來(lái)就是如何有效利用這些模型解決問(wèn)題了。
如何更好地使用模型?
在第二部分,Karpathy主要討論了提示策略、微調、快速發(fā)展的工具生態(tài)系統以及未來(lái)的擴展等問(wèn)題。
Karpathy又給出了具體示例來(lái)說(shuō)明:
當我們在寫(xiě)文章時(shí)候,我們會(huì )進(jìn)行很多的心理活動(dòng),需要考慮自己的表述是否正確。而對于GPT來(lái)說(shuō),這只是一個(gè)序列標記(a sequence of tokens)。
而提示(prompt)可以彌補這種認知差異。
Karpathy進(jìn)一步解釋了思維鏈提示的工作方式。
對于推理問(wèn)題,要想讓自然語(yǔ)言處理中Transformer的表現更好,需要讓它一步一步地處理信息,而不能直接拋給它一個(gè)非常復雜的問(wèn)題。
如果你給它幾個(gè)例子,它會(huì )模仿這個(gè)例子的模版,最終生成的結果會(huì )更好。
模型只能按照它的序列來(lái)回答問(wèn)題,如果它生成的內容是錯誤的,你可以進(jìn)行提示,讓它重新生成。
如果你不要求它檢查,它自己是不會(huì )檢查的。
這就涉及到了System1和System2的問(wèn)題。
諾貝爾經(jīng)濟學(xué)獎得主丹尼爾卡尼曼在《思考快與慢》中提出,人的認知系統包含System1和System2兩個(gè)子系統。System1主要靠直覺(jué),而System2是邏輯分析系統。
通俗來(lái)說(shuō),System1是一個(gè)快速自動(dòng)生成的過(guò)程,而System2是經(jīng)過(guò)深思熟慮的部分。
這在最近一篇挺火的論文“Tree of thought”(思維樹(shù))中也有被提及。
深思熟慮指的是,不是簡(jiǎn)單的給出問(wèn)題的答案,而更像是與Python膠水代碼一起使用的prompt,將許多prompt串聯(lián)在一起。模型必須要維護多個(gè)提示,還必須要執行一些樹(shù)搜索算法,來(lái)找出要擴展的提示。
Karpathy認為這種思路與AlphaGo非常相似:
AlphaGo在下圍棋時(shí),需要考慮下一枚棋子下在哪里。最初它是靠模仿人類(lèi)來(lái)學(xué)習的。
但除此之外,它還進(jìn)行了蒙特卡洛樹(shù)搜索,可以得到具有多種可能性的策略。它可以對多種可能的下法進(jìn)行評估,僅保留那些較好的策略。我認為這在某種程度上相當于A(yíng)lphaGo。
對此,Karpathy還提到了AutoGPT:
我認為目前它的效果還不是很好,我不建議大家進(jìn)行實(shí)際應用。我只是認為,隨著(zhù)時(shí)間的推移,我們或許可以從它的發(fā)展思路中汲取靈感。
其次,還有一個(gè)小妙招是檢索增強生成(retrieval agumented generation)和有效提示。
窗口上下文的內容就是transformers在運行時(shí)的記憶(working memory),如果你可以將與任務(wù)相關(guān)的信息加入到上下文中,那么它的表現就會(huì )非常好,因為它可以立即訪(fǎng)問(wèn)這些信息。
簡(jiǎn)而言之,就是可以為相關(guān)數據建立索引讓模型可以高效訪(fǎng)問(wèn)。
如果Transformers也有可參考的主要文件,它的表現會(huì )更好。
最后,Karpathy簡(jiǎn)單講了一下在大語(yǔ)言模型中的約束提示(Constraint prompting)和微調??梢酝ㄟ^(guò)約束提示和微調來(lái)改進(jìn)大語(yǔ)言模型。約束提示在大語(yǔ)言模型的輸出中強制執行模板,而微調則調整模型的權重以提高性能。
我建議在低風(fēng)險的應用中使用大語(yǔ)言模型,始終將它們與人工監督相結合,將它們看作是靈感和建議的來(lái)源,考慮copilots而不是讓它們完全自主代理。
關(guān)于A(yíng)ndrej Karpathy
Andrej Karpathy博士畢業(yè)后的第一份工作,是在OpenAI研究計算機視覺(jué)。
后來(lái)OpenAI聯(lián)合創(chuàng )始人之一的馬斯克看上了Karpathy,把人挖到了特斯拉。但也因為這件事,馬斯克和OpenAI徹底鬧翻,最后還被踢出局。在特斯拉,Karpathy是Autopilot、FSD等項目的負責人。
今年二月份,在離開(kāi)特斯拉7個(gè)月后,Karpathy再次加入了OpenAI。
最近他發(fā)推特表示,目前對開(kāi)源大語(yǔ)言模型生態(tài)系統的發(fā)展饒有興趣,有點(diǎn)像早期寒武紀爆發(fā)的跡象。
傳送門(mén):[1]https://www.youtube.com/watch?v=xO73EUwSegU(演講視頻)[2]https://arxiv.org/pdf/2305.10601.pdf(“Treeof thought”論文)
參考鏈接:[1]https://twitter.com/altryne/status/1661236778458832896[2]https://www.reddit.com/r/MachineLearning/comments/13qrtek/n_state_of_gpt_by_andrej_karpathy_in_msbuild_2023/[3]https://www.wisdominanutshell.academy/state-of-gpt/
本文來(lái)源:量子位,原文標題:《GPT現狀終于有人講清楚了!OpenAI大牛最新演講爆火,還得是馬斯克欽點(diǎn)的天才》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: