天天動(dòng)態(tài):全球最知名大模型排行榜首次重磅更新!GPT-4穩居榜首,全新330億參數「小羊駝」位列開(kāi)源第一
就在剛剛,UC伯克利主導的「LLM排位賽」迎來(lái)了首次重磅更新!這次,團隊不僅在排行榜中加入了更多模型(目前已達到28個(gè)),而且還增加了2個(gè)全新的評價(jià)標準。
與此同時(shí),團隊還發(fā)布了更新的Vicuna-v1.3系列模型,參數量為70億、130億和330億,且權重已公開(kāi)。
在全新的評價(jià)系統下,GPT-4依然穩居第一,而GPT-3.5則成功奪回了第二的寶座。Anthropic的兩款Claude模型緊隨其后,排在了第三和第四的位置上。UC伯克利最新發(fā)布的330億參數Vicuna進(jìn)軍第五,小幅領(lǐng)先微軟華人團隊開(kāi)源的300億參數WizardLM模型。
(相關(guān)資料圖)
增強版LLM排行榜
不難看出,GPT-3.5、Claude-v1和Claude-instant-v1這三個(gè)模型之間實(shí)際難分伯仲。不僅在MT-bench得分上咬得很緊,而且在諸如Elo和MMLU得分上還有后者還有反超。和這些專(zhuān)有模型相比,開(kāi)源模型們則有著(zhù)明顯的差距,即便是作為開(kāi)源第一的Vicuna-33B也是如此。當然,事情總有例外。比如谷歌的PaLM2,就落后于一眾開(kāi)源模型。
全新評價(jià)機制:MT-bench
雖然,現在已經(jīng)有了不少用來(lái)評估大語(yǔ)言模型(LLM)性能的基準測試,比如MMLU、HellaSwag和HumanEval等。但是,在評估LLM的人類(lèi)偏好時(shí),這些基準測試存在著(zhù)明顯的不足。舉個(gè)例子,傳統的基準測試通常是在封閉式問(wèn)題(例如,多項選擇題)上對LLM進(jìn)行測試,并提供一些簡(jiǎn)潔的輸出作為評價(jià)。
用戶(hù)與LLaMA-13B和Vicuna-13B之間的多輪對話(huà),開(kāi)始是MMLU基準中的問(wèn)題和后續指令,然后將GPT-4與上下文一起呈現,比較誰(shuí)的答案更好
顯然,大部分人在實(shí)踐中并不是這么用聊天機器人的……為了填補這一空白,來(lái)自UC伯克利的團隊在這次排行榜更新中,除了Chatbot Arena Elo系統之外,還增加了一個(gè)新的基準測試:MT-bench。MT-Bench可以作為對聊天機器人競技場(chǎng)的質(zhì)量控制補充。
目前,競技場(chǎng)的具體評價(jià)機制如下:1. Chatbot Arena Elo,基于Chatbot Arena收到的42,000個(gè)匿名投票,并使用Elo評級系統進(jìn)行評分。2. MT-Bench得分,基于一個(gè)具有挑戰性的多輪基準測試和GPT-4評分,其方法在「Judging LLM-as-a-judge」論文中提出,并已經(jīng)過(guò)驗證。3. MMLU,一項廣泛采用的基準測試。
為什么選擇MT-Bench?
具體來(lái)說(shuō),MT-Bench是一個(gè)經(jīng)過(guò)精心設計的基準測試,包含80個(gè)高質(zhì)量的多輪問(wèn)題。這些問(wèn)題可以評估模型在多輪對話(huà)中的對話(huà)流程和指令遵循能力,其中包含了常見(jiàn)的使用情景,以及富有挑戰性的指令。通過(guò)對過(guò)去2個(gè)月運營(yíng)聊天機器人競技場(chǎng)以及對收集的一部分用戶(hù)數據的分析,團隊確定了8個(gè)主要的類(lèi)別:寫(xiě)作、角色扮演、提取、推理、數學(xué)、編程、知識I(科學(xué)技術(shù)工程數學(xué))和知識II(人文社科)。其中,每個(gè)類(lèi)別有10個(gè)多輪問(wèn)題,總共160個(gè)問(wèn)題。
MT-Bench中的問(wèn)題示例
用LLM評判LLM
那么問(wèn)題來(lái)了,我們應該如何對聊天機器人的答案進(jìn)行評分呢?盡管在針對LLM的評估中,人類(lèi)的偏好可以說(shuō)是「黃金標準」,但收集人類(lèi)偏好的這一過(guò)程,卻非常耗時(shí),而且成本極高。相比之下,UC伯克利主導的團隊在一開(kāi)始便探索出了一種基于GPT-4的自動(dòng)化評估管線(xiàn)。而這種方法也隨后在幾個(gè)工作中,得到了廣泛的采用。?
此外,團隊還在最新的論文「Judging LLM-as-a-judge」中進(jìn)行了一項系統研究——揭示了LLM評判者的可靠性問(wèn)題。結果顯示,像GPT-4這樣強大的LLM評判者,可以與專(zhuān)家組和眾包組的人類(lèi)裁判的偏好非常好地對齊,一致性均超過(guò)了80%。這種一致性水平,已經(jīng)可以和兩個(gè)人類(lèi)評判者之間的一致性相媲美。而基于GPT-4的單個(gè)答案評分,也可以有效地對模型進(jìn)行排名,并與人類(lèi)偏好很好地匹配。因此,如果使用得當,LLM評判者完全可以作為人類(lèi)偏好的可擴展、可解釋的近似值。
不過(guò),當LLM作為評判者時(shí),依然會(huì )存在一些潛在限制:1. 位置偏差,即LLM評判者可能偏向于在成對比較中選擇第一個(gè)答案。2. 冗長(cháng)偏差,即LLM評判者可能偏向于更長(cháng)的回答,而不考慮其質(zhì)量。3. 自我增強偏差,即LLM評判者可能偏向于自己的回答。4. 推理能力有限,即LLM評判者在給數學(xué)和推理問(wèn)題打分時(shí),會(huì )存在一些缺陷。
不同LLM評判者的立場(chǎng)偏見(jiàn)
其中,所謂的「一致性」是指評判者在LLM順序交換時(shí),給出一致性結果的案例百分比對于這些限制,團隊探討了如何利用少樣本評判、思維鏈評判、基于參考的評判和微調評判來(lái)進(jìn)行緩解。
結果分析
MT-Bench有效地區分了LLM之間的性能差異
在這次的「排位賽」中,團隊針對28個(gè)模型進(jìn)行了全面評估。結果顯示,不同能力的LLM之間存在明顯的區別,而它們的得分與Chatbot Arena Elo評分呈高度的相關(guān)性。特別是MT-Bench的引入,非常鮮明地顯示出:GPT-4與GPT-3.5/Claude之間,以及開(kāi)源和專(zhuān)有模型之間,有著(zhù)明顯的性能差距。為了更深入地了解LLM之間的差距,團隊選擇了幾個(gè)有代表性的LLM,并分析了它們在每個(gè)類(lèi)別下的表現。結果顯示,與GPT-3.5/Claude相比,GPT-4在編碼和推理方面表現出更高的性能,而Vicuna-13B在幾個(gè)特定的類(lèi)別中(包括提取、編碼和數學(xué))明顯落后。這表明,開(kāi)源模型仍有很大的改進(jìn)空間。
比較6個(gè)模型的8種能力:寫(xiě)作、角色扮演、推理、數學(xué)、編碼、信息提取、自然科學(xué)、人文科學(xué)
多輪對話(huà)能力的評估
團隊接下來(lái)分析了所選模型在多輪對話(huà)中的得分。開(kāi)源模型在第一輪和第二輪之間的性能顯著(zhù)下降(如Vicuna-7B,WizardLM-13B),而強大的專(zhuān)有模型卻始終保持著(zhù)一致性。另外,基于LLaMA的模型和更寬松的模型之間(如MPT-7B、Falcon-40B和調整后的Open-LLaMA),也存在明顯的性能差距。
模型在第一輪和第二輪對話(huà)中的MT-bench得分,滿(mǎn)分為10分
LLM評判者的可解釋性
用LLM進(jìn)行評判的另一個(gè)優(yōu)勢在于,它們能夠提供可解釋的評估結果。下圖展示了GPT-4對一個(gè)MT-bench問(wèn)題的判斷,其中包括了來(lái)自alpaca-13b和gpt-3.5-turbo的回答??梢钥吹?,對于自己給出的判斷,GPT-4提供了詳細全面、邏輯清晰的反饋。而UC伯克利的研究也認為,這種評價(jià)有利于指導人類(lèi)做出更明智的決策。
MT-bench在評估LLM的人類(lèi)偏好方面提供了更多的可解釋性
總之,MT-Bench可以有效地區分不同的聊天機器人。不過(guò)在使用時(shí),仍然應該謹慎。因為它還是有出錯的可能,尤其是在數學(xué)/推理問(wèn)題打分時(shí)。
下一步計劃
發(fā)布對話(huà)數據
團隊計劃發(fā)布Chatbot Arena的對話(huà)數據,以供更廣泛的研究社區使用,敬請期待。
MT-bench-1K
目前,團隊正在積極擴展問(wèn)題集,將Chatbot Arena的高質(zhì)量提示集成進(jìn)來(lái),并利用LLM自動(dòng)生成新的問(wèn)題,進(jìn)而建立更豐富的MT-Bench-1K數據集。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: