国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

OpenAI成功的背后,鮮為人知的游戲訓練史

2022年,OpenAI旗下ChatGPT橫空出世,人工智能再次成為全球矚目的焦點(diǎn)。ChatGPT的成功得益于OpenAI團隊在人工智能大語(yǔ)言模型和強化學(xué)習領(lǐng)域持續不斷地投入、探索和創(chuàng )新。但鮮為人知的是,在OpenAI不斷迭代升級的過(guò)程中,電子游戲也曾發(fā)揮過(guò)舉足輕重的作用。早期的OpenAI 曾在2019年打造出名為OpenAI Five的游戲AI,并成功擊敗了兩屆DOTA2國際邀請賽的世界冠軍OG戰隊(恭喜OG?。?。


【資料圖】

前幾天,來(lái)自斯坦福大學(xué)和谷歌的研究人員也構建了一個(gè)名為Smallville的2D虛擬游戲場(chǎng)景,并將25個(gè)基于ChatGPT的AI智能體置于該游戲場(chǎng)景中進(jìn)行訓練,研究發(fā)現25個(gè)AI智能體實(shí)現了對人類(lèi)行為的可信模擬,他們不僅能夠相互交談,還能夠與自身所處環(huán)境互動(dòng),記住并回憶它們所做的和觀(guān)察到的事情,并作出相應決策。

那么,為什么OpenAI會(huì )選擇電子游戲作為訓練和測試AI模型,電子游戲對于A(yíng)I的發(fā)展究竟意味著(zhù)什么?

鮮為人知:Open AI團隊為AI打造專(zhuān)屬“游戲訓練”平臺

在展開(kāi)OpenAI與DOTA2的故事之前,不妨簡(jiǎn)要回顧下電子游戲與OpenAI那段鮮為人知的歷史,或許能夠幫助我們更好的理解電子游戲與OpenAI之間的關(guān)系。

成立于2015年12月美國舊金山,OpenAI最初是一個(gè)由小團隊組成的非盈利性質(zhì)的人工智能實(shí)驗室,其目標是通過(guò)與其他機構和研究者的“自由合作”,向公眾開(kāi)放AI專(zhuān)利和研究成果。OpenAI在成立之時(shí)并未獲得太多關(guān)注,在成立一年后(2016年12月),OpenAI對外發(fā)布了首款產(chǎn)品基于電子游戲的AI測試平臺“Universe”。這是一款能在幾乎所有環(huán)境中衡量和訓練 AI 通用智能水平的開(kāi)源平臺,其發(fā)布時(shí)間甚至早于第一代GPT(基于轉換器的生成式預訓練模型)產(chǎn)品。

OpenAI 的Universe是一個(gè)訓練 AI 通用智能水平的開(kāi)源平臺,由微軟、英偉達等公司參與建設,其中包含多達1000多種游戲訓練環(huán)境,主要包括了各類(lèi)Flash游戲、Atari 2600游戲,以及《GTA 5》等PC游戲。OpenAI研究人員介紹說(shuō),Universe平臺最初是從李飛飛等人創(chuàng )立的ImageNet數據庫項目中獲得啟發(fā),希望把ImageNet在降低圖像識別錯誤率上的成功經(jīng)驗引入到通用人工智能的研究上來(lái),取得實(shí)質(zhì)進(jìn)展。

圖1 OpenAI Universe平臺

對于OpenAI而言,打造Universe的最終目標是訓練出一個(gè)“通用人工智能”,可以靈活地將在訓練環(huán)境中積累和掌握的經(jīng)驗快速應用到陌生、困難的環(huán)境。

當時(shí)的人工智能發(fā)展已經(jīng)在“聽(tīng)、說(shuō)、看”感知智能取得了一定突破,基于強化學(xué)習的AlphaGo也剛剛擊敗了人類(lèi)圍棋世界冠軍,但在OpenAI團隊看來(lái),這些突破依舊沒(méi)有跳出“弱人工智能(Narrow AI)”的范疇,并不具備理解問(wèn)題的和解決問(wèn)題的能力。

OpenAI團隊認為,要想讓人工智能具備這種能力,就必須將其置于更為廣泛和復雜的環(huán)境中進(jìn)行訓練,只有通過(guò)不斷的訓練,才能讓人工智能發(fā)展出可以有效遷移復用的知識和問(wèn)題解決策略,而電子游戲就是這個(gè)“訓練環(huán)境”的絕佳選擇。

最佳陪練:OpenAI從DOTA2中學(xué)到了什么?

事實(shí)上,早在2017年的DOTA2國際邀請賽上,OpenAI的智能體已經(jīng)能在1v1比賽中擊敗過(guò)頂尖人類(lèi)職業(yè)選手;在2018年DOTA2國際邀請賽上嶄露頭角,與人類(lèi)玩家組成的職業(yè)戰隊過(guò)招;而到了2019年4月,OpenAI對外宣布旗下的智能體項目OpenAI Five已經(jīng)能夠在5V5的比賽中擊敗DOTA2世界冠軍OG職業(yè)戰隊,成為了首個(gè)擊敗電子競技游戲世界冠軍戰隊的AI系統。

OpenAI團隊為什么要選擇DOTA2作為訓練環(huán)境呢?在開(kāi)發(fā)OpenAI five之前,OpenAI團隊一直在探尋如何讓AI在深度強化學(xué)習方向上實(shí)現突破,創(chuàng )造性地提升智能體的效率。當時(shí),一般強化學(xué)習(RL)的研究人員傾向于認為,如果想讓智能體在長(cháng)時(shí)間游戲中表現出色,就難免需要一些根本上的新突破,比如采用Hierarchical Reinforcement learning(分層強化學(xué)習)的方式,即將復雜問(wèn)題分解成若干子問(wèn)題(sub-problem),通過(guò)分而治之(divide and conquer)的方法,逐個(gè)解決子問(wèn)題從而最終解決一個(gè)復雜問(wèn)題。

而以規則復雜、要素眾多、環(huán)境多變,同時(shí)也是全球擁有超高人氣的電子游戲DOTA2,順理成章地成為了OpenAI的首選,正如OpenAI團隊所言“相比標準的RL開(kāi)發(fā)環(huán)境,DOTA2顯得更加有趣,也更加困難。但是,如果一個(gè)AI能在像DOTA這樣復雜的游戲里超越人類(lèi)水平,那這個(gè)AI本身就是一個(gè)里程碑?!毕噍^于A(yíng)I之前在國際象棋和圍棋里取得的成就,像DOTA2這類(lèi)復雜的游戲能更好地捕捉現實(shí)世界中的混亂和連續性,使其訓練出的AI能夠擁有更好的通用性,使之更有可能應用于游戲之外的人類(lèi)社會(huì )。

為了戰勝DOTA2人類(lèi)職業(yè)戰隊,OpenAI 團隊進(jìn)行了長(cháng)達數年的努力,詳細拆解游戲中各類(lèi)復雜規則和問(wèn)題,并依次不斷調整優(yōu)化AI模型。

DOTA2的游戲內容十分豐富,而且還存在“戰爭迷霧”設定,即單位和建筑物只能看到它們周?chē)膮^域,地圖的其余部分被迷霧所覆蓋,AI需要根據不完全信息進(jìn)行推斷,而國際象棋和圍棋則都是全信息游戲。下圖是OpenAI Five使用的觀(guān)察空間和動(dòng)作空間的交互式演示,它把整張地圖看做一個(gè)有2萬(wàn)個(gè)數據的列表,并通過(guò)8個(gè)列舉值的列表來(lái)采取行動(dòng):

圖2 OpenAI Five決策過(guò)程

在OpenAI戰勝DOTA2 Ti冠軍OG戰隊時(shí),OpenAI Five團隊使用的訓練計算量比2018年的版本增加了8倍,并在10個(gè)實(shí)時(shí)月內經(jīng)歷了大約4萬(wàn)5千年的DOTA2游戲,平均每天的游戲量相當于人類(lèi)玩家250年的積累。

在戰勝人類(lèi)世界冠軍之后的總結中,OpenAI團隊提及他們在DOTA2中的訓練環(huán)境中,學(xué)到了最重要的一點(diǎn)是:如果想要提升智能體的性能,其根本并非要實(shí)現訓練方法的突破,而是要不斷擴大規模。如果規模夠大、結構夠合理,AI依舊可以表現出強大的能力。正如OpenAI首席科學(xué)家Ilya Sutskever 所言“我們堅信越大越好,OpenAI 的目標就是擴大規模?!?/p>

OpenAI在DOTA2上的嘗試,為AI強化學(xué)習效率提升提供了方向,這些都成為了ChatGPT的養分。在Ilya Sutskever看來(lái),“通過(guò)DOTA2的訓練,OpenAI的學(xué)習模式從“強化學(xué)習”轉變?yōu)榱恕盎谌祟?lèi)反饋的強化學(xué)習(RLHF)”,而這些與GPT技術(shù)的結合,才最終塑造出了ChatGPT?!?/p>

未來(lái)之路:AIGC 助力游戲內容生產(chǎn)

如今,伴隨著(zhù)以ChatGPT為代表的AIGC技術(shù)的成熟,AI也開(kāi)始反向助力游戲的內容生產(chǎn)。ChatGPT真的能輔助游戲制作嗎?首先,不妨讓我們來(lái)聽(tīng)聽(tīng)ChatGPT自己的回答:

GPT-4可以在多個(gè)方面輔助游戲制作。以下是一些具體的應用場(chǎng)景:

1、游戲劇本和故事創(chuàng )作:GPT-4可以生成故事情節、角色設定和對話(huà),為游戲制作提供創(chuàng )意靈感。

2、任務(wù)和關(guān)卡設計:GPT-4可以根據提供的游戲類(lèi)型和主題生成任務(wù)、關(guān)卡設計和謎題,幫助設計師更高效地制作游戲內容。

3、人工智能NPC:GPT-4可以生成自然的對話(huà)和反應,使得游戲內的非玩家角色(NPC)更加真實(shí)、有趣。

4、自動(dòng)生成游戲文檔:GPT-4可以幫助制作團隊編寫(xiě)設計文檔、技術(shù)文檔和測試用例等,提高生產(chǎn)效率。

5、游戲本地化:GPT-4支持多種語(yǔ)言,可以輔助游戲的翻譯和本地化工作,讓游戲能夠更好地適應不同地區的市場(chǎng)。

6、社區管理和客戶(hù)支持:GPT-4可以幫助回答玩家的問(wèn)題、解決技術(shù)問(wèn)題并對玩家反饋進(jìn)行分類(lèi)和總結,提高客戶(hù)支持的效率和質(zhì)量。

7、游戲內文本和資源生成:GPT-4可以幫助生成游戲內的文本,如物品描述、任務(wù)說(shuō)明等,減輕游戲開(kāi)發(fā)者的負擔。

8、測試和質(zhì)量保證:GPT-4可以幫助分析游戲的錯誤報告,確定可能的問(wèn)題來(lái)源,以及為開(kāi)發(fā)團隊提供修復建議。

9、創(chuàng )意概念和美術(shù)設計:雖然GPT-4主要以文本處理為主,但它可以為美術(shù)設計團隊提供創(chuàng )意概念和設計建議,有助于創(chuàng )造獨特的游戲視覺(jué)效果。

通過(guò)與游戲制作團隊的協(xié)作,GPT-4有望提高游戲開(kāi)發(fā)的效率、創(chuàng )新性和質(zhì)量。當然,GPT-4仍然是一個(gè)AI輔助工具,它不能完全替代人類(lèi)的創(chuàng )造力和專(zhuān)業(yè)知識。在實(shí)際應用中,開(kāi)發(fā)者需要根據自己的需求和項目特點(diǎn),合理地利用GPT-4的能力。

看完以上GPT-4的回答,不禁會(huì )想問(wèn)ChatGPT回答真的能夠在現實(shí)中實(shí)現嗎?目前來(lái)看,ChatGPT的確可以制作一些簡(jiǎn)單的數字游戲,但對于制作3A游戲大作而言,顯然有些捉襟見(jiàn)肘。

Digital Trends的一份新報告詳細介紹了如何使用流行的對話(huà)和腳本生成器來(lái)創(chuàng )建可玩的PC游戲。報告指出,只需來(lái)自用戶(hù)的幾個(gè)簡(jiǎn)單提示,ChatGPT就發(fā)明了自己的基于數學(xué)的邏輯益智游戲。不僅如此,它還生成了一些簡(jiǎn)單的游戲代碼,后來(lái)變成了一款令人上癮的免費瀏覽器游戲,已經(jīng)在網(wǎng)上引起了一些轟動(dòng)。但是,當被問(wèn)到是否可以制作出像《最后生還者》(The Last of US)這樣的3A游戲大作時(shí),ChatGPT顯然有些“茫然”,只能夠簡(jiǎn)單吐露出一些故事情節,無(wú)法為游戲生成代碼。

圖3 ChatGPT自動(dòng)生成簡(jiǎn)單的數字游戲

雖然對于游戲復雜規則的設計、代碼的編寫(xiě)等工作,在短期內依舊需要依靠人工來(lái)解決,但是以ChatGPT為代表的人工智能,已經(jīng)能夠幫助游戲開(kāi)發(fā)者們生成對話(huà)、腳本和其他數字資產(chǎn),提升游戲開(kāi)發(fā)者的工作效率,幫助游戲開(kāi)發(fā)者們簡(jiǎn)單地填充虛擬的游戲空間,縮短游戲制作的周期。

而隨著(zhù)AIGC技術(shù)發(fā)展,游戲AI智能體(決策智能)也會(huì )隨之不斷迭代升級。正如文章開(kāi)頭提及的斯坦福和谷歌團隊訓練的AI智能體,其已經(jīng)能夠基于大模型實(shí)現一些簡(jiǎn)單的決策,而生成式智能(AIGC)和決策智能的結合,將打開(kāi)通用人工智能的大門(mén)。

可以預見(jiàn)的是,未來(lái)AI與游戲的發(fā)展勢必會(huì )更加緊密的聯(lián)系在一起?,F實(shí)中,已經(jīng)有越多越多的人們意識到游戲與人工智能的共生關(guān)系:2023年3月25日出版的最新一期《經(jīng)濟學(xué)人》刊文,認為游戲在21世紀全球流行文化及國際競爭中扮演重要地位。在系列報道中,《經(jīng)濟學(xué)人》也為AI 技術(shù)的革命和普及,將會(huì )帶動(dòng)“用戶(hù)自制游戲的興起”,“人工智能技術(shù)的發(fā)展將允許開(kāi)發(fā)者用簡(jiǎn)單的文本、語(yǔ)音指令創(chuàng )建交互式3D模型”,極大降低游戲制作的門(mén)檻。Omdia發(fā)布的2023年技術(shù)趨勢展望報告中,也將“游戲科技(GamesTech)”列為最值得關(guān)注的技術(shù)趨勢之一,并認為游戲AI將成為2023年游戲開(kāi)發(fā)中最受關(guān)注的熱門(mén)技術(shù)話(huà)題。此外,在中國音數協(xié)游戲工委、中國游戲產(chǎn)業(yè)研究院與多家單位合作推出《游戲科技能力與科技價(jià)值研究報告》中,面向游戲與電子通信、硬件制造等領(lǐng)域的行業(yè)調研數據顯示,81%的受訪(fǎng)者認同游戲促進(jìn)了AI技術(shù)的發(fā)展。

在OpenAI Five之后,包括索尼、騰訊在內的多家科技公司都開(kāi)始基于游戲訓練AI智能體。前者基于《GT賽車(chē)》游戲創(chuàng )新了AI強化學(xué)習算法,研究成果登上《Nature》雜志封面;后者基于《王者榮耀》游戲開(kāi)發(fā)出AI開(kāi)放研究平臺“開(kāi)悟”,助力構建產(chǎn)學(xué)研體系。

回到文章的開(kāi)頭,OpenAI團隊選擇游戲訓練AI的初心是想要打造出“通用人工智能”。而對于通用人工智能的發(fā)展而言,目前以ChatGPT為代表的大語(yǔ)言訓練模型,讓人們窺見(jiàn)到了AGI(通用人工智能)的未來(lái)圖景,而以游戲AI為代表的決策智能,以及游戲提供的絕佳AI訓練場(chǎng),也正在加快AI走向通用的進(jìn)程。

我們期待未來(lái)的AI能夠與游戲在實(shí)現“通用人工智能”的道路上攜手共進(jìn),為人類(lèi)社會(huì )的發(fā)展帶來(lái)更多美好的期待。

本文來(lái)源于騰訊研究院,作者為王樞,原文標題為《OpenAI成功的背后,鮮為人知的游戲訓練史》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: