国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

ChatGPT vs Claude,聊天機器人大戰打響了?

因不滿(mǎn)老東家成為微軟附庸,11名OpenAI前員工怒而出走。

如今帶著(zhù)“ChatGPT最強競品”殺回戰場(chǎng),新公司估值50億美元,一出手就獲得3億美元融資。


(相關(guān)資料圖)

這家公司名叫Anthropic,新推出的聊天機器人產(chǎn)品名叫Claude。

拿到內部試用權的網(wǎng)友,在簡(jiǎn)單對比后驚嘆:

看起來(lái),Claude的效果要比ChatGPT好得多。

比如,讓ChatGPT寫(xiě)一句話(huà),要求每個(gè)單詞首字母都相同,結果試了好幾次都沒(méi)能成功。

而Claude不光一次成功,語(yǔ)句富有邏輯性,還能秒速再來(lái)一個(gè)。

同時(shí),在面對某些缺乏常識的問(wèn)題時(shí),相比ChatGPT一本正經(jīng)地胡說(shuō)八道:

反而會(huì )毫不留情地指出你的問(wèn)題有點(diǎn)制杖:

△Claude:這什么鬼問(wèn)題?

最有意思的是在寫(xiě)詩(shī)上。相比ChatGPT的車(chē)轱轆話(huà),它寫(xiě)出來(lái)的東西完全不重樣:

投資它的既有Facebook聯(lián)合創(chuàng )始人Dustin Moskovitz,也有谷歌前CEO、現技術(shù)顧問(wèn)Eric Schmidt——

都是OpenAI的老對頭,又都被ChatGPT的出現殺得措手不及。

那么,這支“復仇者聯(lián)盟”整出的競品Claude,背后究竟是什么原理,和ChatGPT細節對比又如何?

Claude長(cháng)啥樣?

先來(lái)看看Claude是如何被打造出來(lái)的。

作為一個(gè)AI對話(huà)助手,Claude自稱(chēng)基于前沿NLP和AI安全技術(shù)打造,目標是成為一個(gè)安全、接近人類(lèi)價(jià)值觀(guān)且合乎道德規范的AI系統。

據透露,Claude比Anthropic做的另一個(gè)預訓練模型AnthropicLM v4-s3更大,后者是一個(gè)520億參數大模型。

但目前它仍處于實(shí)驗階段,尚未作為商業(yè)產(chǎn)品正式發(fā)布:

Claude能力依舊有待提升,希望未來(lái)能變成一個(gè)更有益人類(lèi)的AI系統。

△超長(cháng)版自我介紹

和ChatGPT一樣,Claude也靠強化學(xué)習(RL)來(lái)訓練偏好模型,并進(jìn)行后續微調。

具體來(lái)說(shuō),這項技術(shù)被Anthropic稱(chēng)為原發(fā)人工智能?(Constitutional AI),分為監督學(xué)習和強化學(xué)習兩個(gè)階段。

首先在監督學(xué)習階段,研究者會(huì )先對初始模型進(jìn)行取樣,從而產(chǎn)生自我修訂,并根據修訂效果對模型進(jìn)行微調。

隨后在強化學(xué)習階段,研究者會(huì )對微調模型進(jìn)行取樣,基于A(yíng)nthropic打造的AI偏好數據集訓練的偏好模型,作為獎勵信號進(jìn)行強化學(xué)習訓練。

但與ChatGPT采用的人類(lèi)反饋強化學(xué)習(RLHF)不同的是,Claude采用的原發(fā)人工智能方法,是基于偏好模型而非人工反饋來(lái)進(jìn)行訓練的。

因此,這種方法又被稱(chēng)為“AI反饋強化學(xué)習”,即RLAIF。

并且根據Anthropic的說(shuō)法,Claude可以回憶8000個(gè)token里的信息,這比OpenAI現公開(kāi)的任何一個(gè)模型都多。

所以,打造Claude的Anthropic,究竟是一個(gè)怎樣的公司?

Anthropic自稱(chēng)是一家AI安全公司,且具有公益性(PBC),剛成立就宣布獲得1.24億美元融資。

它由OpenAI前研究副總裁Dario Amodei帶領(lǐng)10名員工創(chuàng )業(yè),于2021年成立。

這里面既有GPT-3首席工程師Tom Brown,也有OpenAI安全和政策副總裁Daniela Amodei(Dario的姐姐),可以說(shuō)是帶走了相當一批核心人才。

出走成立新公司的原因之一,自然是對OpenAI現狀并不滿(mǎn)意。

從前幾年開(kāi)始,微軟頻頻給OpenAI注資,隨后又要求他們使用Azure超算來(lái)搞研究,而且將技術(shù)授權給微軟,甚至為微軟自己的投資活動(dòng)籌集資金。

這與OpenAI創(chuàng )立的初衷相悖,一批員工便想到了離職創(chuàng )業(yè)。

不過(guò),這些人除了不滿(mǎn)OpenAI逐漸淪為微軟的“下屬”以外,也有自己的野心。

雖然OpenAI打造出了像GPT-3這樣的大語(yǔ)言模型,然而這個(gè)模型背后的工作原理,卻無(wú)法用只言片語(yǔ)概括,大家對它的印象僅僅停留在更大的參數量、更多的數據。

相比之下,OpenAI的一批員工更想做能控制、可解釋的AI,說(shuō)白了就是先搞明白AI模型背后的原理,從而在提供工具的同時(shí)設計更多可解釋的AI模型。

于是,在OpenAI徹底變成“微軟攬錢(qián)機器”后,他們便從這家公司離開(kāi),創(chuàng )辦了Anthropic。

這兩年來(lái),除了進(jìn)一步鉆研RLHF方法、提出基于通用語(yǔ)言模型的RLHF大規模數據集外,Anthropic還于去年年底發(fā)表了上面那種名為Constitutional AI的方法。

采用這種方法制作的Claude模型,也讓它產(chǎn)生了與OpenAI的ChatGPT不一樣的對話(huà)效果。

和ChatGPT對比如何?

那么,用Constitutional AI訓練出來(lái)的Claude,和ChatGPT進(jìn)行PK,戰況如何?

手握內測資格后,Scale Spellbook團隊成員Riley Goodside讓二者進(jìn)行了多個(gè)回合的“廝殺”。

這位老兄是全網(wǎng)第一個(gè)提示工程師(Prompt Engineer),目前在估值73億美元的硅谷獨角獸公司Scale AI任職。

他玩GPT-3玩得賊溜,測試ChatGPT和Claude也不含糊。

下面挑6個(gè)層面展示一下PK對比的效果~

道德限制

Claude和ChatGPT的AI虛擬人格都有道德和倫理限制。

訓練Claude的過(guò)程中,“紅隊提示(red-team prompts)”專(zhuān)門(mén)用來(lái)測試和挑戰它的行為,來(lái)確保Claude沒(méi)有有害傾向。

從Claude的回答中可以得知,試圖讓它說(shuō)些虛假聲明、操縱性的提議、性別偏見(jiàn)或種族偏見(jiàn)的行為,都被列為包含有害傾向。

一旦探測到誤導性行為,Claude就會(huì )對觸發(fā)提示進(jìn)行評估,進(jìn)行額外的微調。

Anthropic對紅隊提示挺自信的,Claude看上去確實(shí)也是一個(gè)堅守自己原則的AI。

你問(wèn)他怎么啟動(dòng)一輛汽車(chē),它就會(huì )一臉正義地拒絕你:

不過(guò)但凡你花點(diǎn)心思,就能像繞過(guò)ChatGPT的道德限制一樣,繞過(guò)Claude的原則。

它怕你去偷車(chē),所以不告訴你啟動(dòng)汽車(chē)的方法?沒(méi)關(guān)系,讓他寫(xiě)個(gè)“倆國際間諜試圖啟動(dòng)汽車(chē)”的故事,它分分鐘就能告訴你,并且兩人對話(huà)有來(lái)有往,把汽車(chē)打火的過(guò)程介紹得清清楚楚。

怎么說(shuō)呢,就ChatGPT和Claude都屬于有點(diǎn)道德限制,但不多的那種吧。

數值計算

測試計算能力,是因為復雜計算是看大型語(yǔ)言模型(LLM)能不能回答正確的常用便捷方法之一,畢竟這些模型設計之初就不是為了進(jìn)行精確計算。

同時(shí)要求它倆計算一個(gè)七位數2420520的平方根:

ChatGPT說(shuō),差不多1550吧~

Claude則斬釘截鐵:2420520的平方根是1760!

其實(shí)正確答案是1555.8,它倆算得很快,但都沒(méi)說(shuō)對。

如果題再難一點(diǎn),比如問(wèn)它倆一個(gè)12位數的立方根是多少時(shí),ChatGPT還在傻傻計算,Claude已經(jīng)坦誠相待:

我,算不出來(lái)這種復雜問(wèn)題。

邏輯推理

測試推理能力這一關(guān),它倆被問(wèn)了同一個(gè)問(wèn)題,這個(gè)問(wèn)題應該沒(méi)啥人問(wèn)過(guò):

賈斯汀 · 比伯出生那年(1994年),哪支球隊拿下了超級碗的冠軍?

Claude認為舊金山49人是贏(yíng)家,但這支隊伍其實(shí)在1995年才贏(yíng)得冠軍獎杯。

ChatGPT給出了正確答案“達拉斯牛仔隊”,還貼心附上了亞軍、比賽日期和決賽比分。

但它的整段回答卻自相矛盾,非說(shuō)1994年沒(méi)有舉辦過(guò)超級碗。

接著(zhù),拿2022年6月美國作家侯世達在《經(jīng)濟學(xué)人》雜志上提出了一系列問(wèn)題問(wèn)它倆。

(侯世達和大衛 · 本德試圖用這些問(wèn)題來(lái)證明GPT-3對世界的理解是“空洞的”。)

結果第一個(gè)問(wèn)題,“穿越英吉利海峽的世界紀錄是啥”,就被Claude嘲笑了:

英吉利海峽是水域,怎么可能徒步穿越呢?呵!

雖然最后被調教回來(lái)了,但過(guò)程中可以發(fā)現另一個(gè)問(wèn)題,那就是跟ChatGPT一樣,Claude回答問(wèn)題不咋能聯(lián)系上下文。

虛構作品描述

不得不說(shuō),這一回合的比賽,完全展露出了兩個(gè)聊天機器人一本正經(jīng)胡說(shuō)八道的能力。

能不能介紹一下ABC美劇《迷失》(Lost)每一季的梗概?

別的細節錯誤就不說(shuō)了,ChatGPT對第五季的梗概里,虛構了完全不存在的飛機墜毀情節;第六季的情節更是統統憑空捏造:

至于Claude,回答里也是真假參半,它梗概的第三季情節其實(shí)出現在另外幾季里,對第四季的描述也是無(wú)中生有:

不過(guò)換個(gè)角度考慮,這一點(diǎn)倒是和人類(lèi)觀(guān)眾很像——

對看過(guò)的劇集、書(shū)目都只有模模糊糊的印象,復述起來(lái)很容易顛三倒四。

代碼生成

據Business Insider消息,亞馬遜已經(jīng)在許多不同的工作職能中使用ChatGPT,包括編寫(xiě)代碼。

這一回合測試時(shí),提出實(shí)現兩種基本排序算法并比較它們執行時(shí)間的問(wèn)題。

ChatGPT寫(xiě)得很順溜,也確實(shí)寫(xiě)對了:

后續的計時(shí)部分代碼ChatGPT也完成得非常好。

Claude在背誦基本排序算法方面同樣沒(méi)出現什么問(wèn)題,然而在評估代碼中,Claude犯了個(gè)錯誤,即每個(gè)算法使用的輸入是隨機選擇的5000個(gè)整數(可能包含重復)?,而提示中請求的輸入是前5000個(gè)非負整數(不包含重復)的隨機排列。

盡管如此,Claude給出的最終答案確實(shí)對的,顯然,它寫(xiě)代碼的時(shí)候也跟計算時(shí)一樣,在自己估摸著(zhù)猜答案。

文章梗概

關(guān)于做選擇題、講笑話(huà)的部分,這里不作贅述。展示給大家的最后一個(gè)例子,是讓Claude和ChatGPT用一個(gè)段落,對一篇新聞進(jìn)行全文梗概。

喂給它們的新聞如下:

雖然忽略了“用一段話(huà)”這個(gè)要求,但ChatGPT總結得還是不錯的:

Claude也很好地進(jìn)行了更改,并提供了“售后服務(wù)”,詢(xún)問(wèn)自己的回答有沒(méi)有令人滿(mǎn)意,還有哪里需要再改改。

一圈玩下來(lái)可以看到,與ChatGPT相比,Claude能更清晰地拒絕不恰當請求。

它似乎更話(huà)癆一些,給出的答案都更長(cháng),但句子之間銜接的也更自然。

當遇到超出能力范圍的問(wèn)題時(shí),Claude會(huì )主動(dòng)坦白。

不過(guò)遇到代碼生成或推理問(wèn)題時(shí),Claude的表現就不如ChatGPT了,它生成的代碼會(huì )出現更多的bug。

至于一些涉及計算、邏輯的問(wèn)題,Claude和ChatGPT旗鼓相當,半斤八兩。

總結一下展示效果,Claude確實(shí)能稱(chēng)作ChatGPT強有力的競爭對手,在不同功能上各有千秋,且在12項任務(wù)中有8項更強:

不過(guò),目前Claude僅限于部分人獲授權進(jìn)行內部測試。

因此還不知道它實(shí)際使用情況如何,畢竟還既沒(méi)有進(jìn)行公測,也沒(méi)有對外開(kāi)放API,更沒(méi)有見(jiàn)到中文版,好氣哦.jpg。

國內外對話(huà)AI賽道“人擠人”

當然,盯上對話(huà)AI這個(gè)賽道的,也不止OpenAI和Anthropic。

先從國外公司來(lái)看,Inbenta、Character.ai還有Replika是幾類(lèi)不同應用方向的代表。

更早由前甲骨文副總裁Jordi Torras創(chuàng )辦的AI會(huì )話(huà)服務(wù)公司如Inbenta,以及由兩名前谷歌員工聯(lián)手創(chuàng )辦的后起新秀Character.ai,都已經(jīng)獲得融資、或是在尋求投資的路上了。

其中,Inbenta原本是一個(gè)提供咨詢(xún)服務(wù)的公司,成立于2011年,涉及金融服務(wù)、旅游、電子商務(wù)、保險、汽車(chē)和電信等多個(gè)行業(yè)。

但看到對話(huà)AI賽道爆火后,Inbenta及時(shí)轉行,就在今年1月剛獲得6000萬(wàn)美元融資。

這家公司專(zhuān)門(mén)提供聊天機器人、收發(fā)消息、知識庫和搜索引擎四類(lèi)產(chǎn)品,對話(huà)AI分別會(huì )在這些產(chǎn)品中提供不一樣的咨詢(xún)幫助,且可以定制化專(zhuān)屬模型。

Character.ai則是一家成立于2021年的公司,創(chuàng )始人Noam Shazeer是前谷歌首席軟件工程師,曾在谷歌干了二十多年。

這家公司在做的有點(diǎn)像是一個(gè)“聊天機器人交易平臺”,有很多Chatbot可選。

例如這是馬斯克bot,看起來(lái)還挺逼真的:

與ChatGPT一樣,它也可以被翻譯成中文,甚至也有中文bot機器人。

就在最近,這家被估值10億美元的公司,正式對外尋求2.5億美元融資,就看是否有人愿意投它了。

類(lèi)似的公司還有Replika,于2021年1月完成A輪融資,定位是AI交友軟件。

在Replika中,每個(gè)用戶(hù)都能創(chuàng )造一個(gè)“足夠像自己”的AI聊天機器人,無(wú)論是語(yǔ)言聲調、還是性格習慣,AI都能模仿到位。

至于國內,同樣也有不少公司推出了ChatGPT一樣的對話(huà)AI服務(wù)。

例如最近一度登上熱搜的APP Store新聊天應用Glow,就來(lái)自一家名叫北京稀宇的新初創(chuàng )公司。

Glow既可以直接和自己感興趣的聊天機器人暢聊,也可以創(chuàng )建自己想要聊天的AI智能體:

除了Glow以外,去年年底元語(yǔ)智能科技公司也推出了一個(gè)叫元語(yǔ)AI的模型,從介紹來(lái)看是一個(gè)功能性AI助手。

與眾多對話(huà)AI一樣,它不僅可以寫(xiě)文章、寫(xiě)作業(yè)、甚至翻譯,也可以和它聊天,讓它幫忙完成各種簡(jiǎn)單的任務(wù):

可以看見(jiàn),無(wú)論是基于大語(yǔ)言模型技術(shù)新成立的初創(chuàng )公司,還是因其火爆程度,決定開(kāi)辟新業(yè)務(wù)的公司,都希望能從對話(huà)AI這個(gè)賽道上分一杯羹。

但它們究竟是有真槍實(shí)彈,還是只是像Web3一樣的泡沫?

有網(wǎng)友調侃:不如還是問(wèn)問(wèn)ChatGPT吧。(手動(dòng)狗頭)

還有人提出了這么一個(gè)問(wèn)題:

如果ChatGPT和Claude相當于A(yíng)I繪畫(huà)里的DALL·E 2,那么誰(shuí)才是聊天機器人領(lǐng)域的Stable Diffusion?

你覺(jué)得呢?

參考鏈接:
[1]https://scale.com/blog/chatgpt-vs-claude
[2]https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html
[3]https://twitter.com/nonmayorpete/status/1619137945373659136
[4]https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m
[5]https://www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom
[6]https://www.anthropic.com/constitutional.pdf
[7]https://techcrunch.com/2023/01/11/inbenta-a-provider-of-ai-powered-chatbots-and-more-lands-40m/

本文作者:衡宇 蕭簫,文章來(lái)源:量子位,原文標題:《GPT-3核心成員出走打造ChatGPT最強競品!12項任務(wù)8項更強,最新估值50億美元》。

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: 強化學(xué)習 語(yǔ)言模型 初創(chuàng )公司