国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

每日視訊:GPT-4滿(mǎn)分通過(guò)MIT本科數學(xué)考試!這套提示詞火了

萬(wàn)萬(wàn)想不到啊,MIT數學(xué)考試,被GPT-4攻破了?!


【資料圖】

突然有人在最新論文工作中高調宣布:

GPT-4在MIT的數學(xué)和EECS(電氣工程和計算機科學(xué)系)本科學(xué)位考試中,表現出的能力完全滿(mǎn)足畢業(yè)要求。

而且妥妥地拿下滿(mǎn)分!

要知道,測出這個(gè)結果的不是別人,正是來(lái)自MIT和波士頓大學(xué)、康奈爾大學(xué)的研究團隊。

而且強如上一代王者GPT-3.5,在同樣的測試中,只成功搞定了三分之一。

△GPT-3.5考試成績(jì)

GPT-4這樣看似開(kāi)掛的行為,自然引發(fā)了不少網(wǎng)友的感慨。

比GPT-3.5強好多,好耶!

咱就是說(shuō),有沒(méi)有可能以后不需要比GPT-4更強的模型,來(lái)解決學(xué)術(shù)問(wèn)題了?

還有網(wǎng)友展現了自己網(wǎng)上沖浪的“前沿性”,玩了個(gè)這兩天Yann LeCun吐槽“GPT-4智商不如狗”的梗:

GPT-4開(kāi)掛MIT考試

研究團隊策劃了一個(gè)數據集,其中包含4550個(gè)問(wèn)題和解決方案。

這4550個(gè)問(wèn)題和解決方案,來(lái)自MIT數學(xué)系和EECS的學(xué)生獲得本科學(xué)位,需要學(xué)習的課程問(wèn)題集、期中考試和期末考試。

包括:

6-1:電氣科學(xué)與工程;6-2:電氣工程與計算機科學(xué);6-3:計算機科學(xué)與工程;6-4:人工智能與決策;18-1:普通數學(xué);18-2:應用數學(xué);18-3:純數學(xué);18-C:數學(xué)與計算機科學(xué)。

每個(gè)專(zhuān)業(yè)的詳細分類(lèi)總結

題目統統出自MIT的數據集,從中隨機生成228個(gè)問(wèn)題,不涉及圖像和已有解決方案的問(wèn)題。

題目的難度等級由易到難依次為:練習、習題、 期中考試、期末考試、實(shí)驗和專(zhuān)題。

按答案類(lèi)型排序,題目的難度由易到難依次為:編程、開(kāi)放、選擇題、數值、表達式和圖像。

這一次,參與考試的不只有GPT-4和GPT-3.5,還有StableVicuna-13B、LLaMA-30B和LLaMA-60B。

選擇讓這4個(gè)大模型作為考試參賽選手,原因是它們是“最先進(jìn)的大語(yǔ)言模型”。

△最終考試成績(jì)

通過(guò)表格里的數據可以看到,得分最高的是經(jīng)過(guò)調優(yōu)后的GPT-4,得分率100%;表現最一般的是LLaMA-30B,只拿下了30%的分數。

值得關(guān)注的是,原始版本的GPT-4開(kāi)箱即用,完全不經(jīng)過(guò)調優(yōu),在本次MIT考試中也拿到了90%的分數。

調優(yōu)流程,包括Few-Shot+CoT+Self-critique+Experts。

從最終考試成績(jì)的表格數據可以看到,從左到右每增加一個(gè)環(huán)節,調優(yōu)后的GPT-4得分都會(huì )更上一層樓。

此外,研究團隊還在提示框里進(jìn)行了工程優(yōu)化,具體的“咒語(yǔ)”如下:

等等,評分人是GPT-4自己?

看到這樣的結果,不少網(wǎng)友心生感慨,LLM在數學(xué)考試上的進(jìn)步,未免有些神速了哈。

2年前,AI還在苦苦掙扎小學(xué)數學(xué)問(wèn)題。

類(lèi)似“小明種了5棵檸檬樹(shù),每年從每棵樹(shù)上得到6個(gè)檸檬,10年間他總共得到多少檸檬”這種。

去年年初,MIT+哈佛+哥倫比亞大學(xué)+滑鐵盧大學(xué)的聯(lián)合研究表示,把數學(xué)問(wèn)題轉換成等價(jià)的編程問(wèn)題,就可以讓GPT-3的同門(mén)師兄弟——OpenAI的Codex掌握高數,達到MIT本科水平。

學(xué)了6門(mén)MIT本科基礎數學(xué)課里隨機抽取的例題,6門(mén)課程每門(mén)隨機出25道題,再加上一個(gè)ACT水平(美國高考)的數據集里的60道題。

總計210道題,AI全部答對。

不過(guò)有人提出,AI達到的“MIT本科水平”,實(shí)際是Codex在做語(yǔ)言題而非數學(xué)題——

因為當時(shí)的評測中,Codex負責讀寫(xiě),并不包括求解。

所以,這一回GPT-4表現奇佳,怎一個(gè)妙字了得~

好了,知道你很著(zhù)急夸它,但你先別著(zhù)急夸它,因為很快有人發(fā)現了一些“詭異”。

主要有2大槽點(diǎn)。

第一個(gè)值得質(zhì)疑一番的,就是OpenAI的訓練數據集沒(méi)有完全公布。

這也就意味著(zhù),無(wú)法證明數據集中的4550個(gè)問(wèn)題和解決方案,在GPT-4的訓練集中不存在。

換句話(huà)說(shuō),如果GPT-4在預訓練階段已經(jīng)接觸到了這次的考題們,那最終拿下完美得分,就沒(méi)什么好驚喜的了。

也難怪乎有網(wǎng)友毫不客氣地yygq,認定GPT-4拿到這樣的結果,一定是數據集已經(jīng)包含在訓練數據里了。

第二個(gè)槽點(diǎn),就是GPT-4最后100%的得分率,似乎哪里不對勁???

定睛一看,在論文的第2.6節有一句很關(guān)鍵的點(diǎn):

團隊在數據集上微調開(kāi)源大模型,“給定問(wèn)題Q、基本事實(shí)解S和LLM答案A,我們使用GPT-4自動(dòng)對模型響應進(jìn)行評分”。

實(shí)際操作上,就是每個(gè)大模型生成這次考試的答案,然后派出GPT-4打分,分值在0-5之間。

所以給GPT-4打出滿(mǎn)分的,實(shí)際上是GPT-4自己。

啊這……很難說(shuō)沒(méi)有王婆賣(mài)瓜自賣(mài)自夸的嫌疑。

此外,關(guān)于要給GPT-4提供“好的提示”,才能讓它達到滿(mǎn)分成績(jì),也讓許多人抱有微詞。

到底什么算“好的提示”呢?似乎無(wú)法定義。

甚至有人喊著(zhù),應該把這些題丟給MIT數學(xué)和EECS的學(xué)生去做,并不斷給他們“好的提示”,這樣人類(lèi)學(xué)生也能拿下100%的吧……

One More Thing

一個(gè)小小的彩蛋:

整個(gè)測試中,基本上可以在筆記本電腦上部署運行的StableVicuna-13B,也有48%的得分率。

這個(gè)成績(jì),不僅比模型更大的LLaMA-65B高出近10個(gè)百分點(diǎn),就連MIT fine-tuing過(guò)后的LLaMA-30B,還要高。

讓人不得不陷入一些關(guān)于模型規模與能力相關(guān)性的思考。

參考鏈接:[1]https://arxiv.org/abs/2306.08997[2]https://twitter.com/johnjnay/status/1669687958960586753[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792[4]https://twitter.com/emollick/status/1669742473097228292

本文來(lái)源:量子位,作者:衡宇,原標題:《GPT-4滿(mǎn)分通過(guò)MIT本科數學(xué)考試!這套提示詞火了》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: