国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

<xmp id="4aea4">

<object id="4aea4"></object>

<input id="4aea4"><nav id="4aea4"></nav></input>

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

國產(chǎn)ChatGPT「套殼」的秘密，現在被找到了

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-28 15:07:00

“科大訊飛套殼ChatGPT！”“百度文心一言套皮Stable Diffusion！”“商湯大模型實(shí)則抄襲！”……

外界對國產(chǎn)大模型產(chǎn)生質(zhì)疑已經(jīng)不是一次兩次了。

(資料圖)

業(yè)內人士對這個(gè)現象的解釋是，高質(zhì)量的中文數據集實(shí)在緊缺，訓模型時(shí)只能讓采買(mǎi)的外文標注數據集“當外援”。訓練所用的數據集撞車(chē)，就會(huì )生成相似結果，進(jìn)而引發(fā)烏龍事件。

其余辦法中，用現有大模型輔助生成訓練數據容易數據清洗不到位，重復利用token會(huì )導致過(guò)擬合，僅訓練稀疏大模型也不是長(cháng)久之計。

業(yè)內漸漸形成共識：

通往AGI的道路，對數據數量和數據質(zhì)量都將持續提出極高的要求。

時(shí)勢所需，近2個(gè)月來(lái)，國內不少團隊先后開(kāi)源了中文數據集，除通用數據集外，針對編程、醫療等垂域也有專(zhuān)門(mén)的開(kāi)源中文數據集發(fā)布。

高質(zhì)量數據集雖有但少

大模型的新突破十分依賴(lài)高質(zhì)量、豐富的數據集。

根據OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則（scaling law）可以看到，獨立增加訓練數據量，是可以讓預訓練模型效果變更好的。

這不是OpenAI的一家之言。

DeepMind也在Chinchilla模型論文中指出，之前的大模型多是訓練不足的，還提出最優(yōu)訓練公式，已成為業(yè)界公認的標準。

△主流大模型，Chinchilla參數最少，但訓練最充分

不過(guò)，用來(lái)訓練的主流數據集以英文為主，如Common Crawl、BooksCorpus、WiKipedia、ROOT等，最流行的Common Crawl中文數據只占據4.8%。

中文數據集是什么情況？

公開(kāi)數據集不是沒(méi)有——這一點(diǎn)量子位從瀾舟科技創(chuàng )始人兼CEO、當今NLP領(lǐng)域成就最高華人之一周明口中得到證實(shí)——如命名實(shí)體數據集MSRA-NER、Weibo-NER等，以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在，但整體數量和英文數據集相比可謂九牛一毛。

并且，其中部分已經(jīng)老舊，可能都不知道最新的NLP研究概念（新概念相關(guān)研究只以英文形式出現在arXiv上）。

中文高質(zhì)量數據集雖有但少，使用起來(lái)比較麻煩，這就是所有做大模型的團隊不得不面對的慘烈現狀。此前的清華大學(xué)電子系系友論壇上，清華計算機系教授唐杰分享過(guò)，千億模型ChatGLM-130B訓練前數據準備時(shí)，就曾面臨過(guò)清洗中文數據后，可用量不到2TB的情況。

解決中文世界缺乏高質(zhì)量數據集迫在眉睫。

行之有效的解決方法之一，是直接用英文數據集訓大模型。

在人類(lèi)玩家打分的大模型匿名競技場(chǎng)Chatbot Arena榜單中，GPT-3.5在非英文排行榜位居第二（第一是GPT-4）。要知道，96%的GPT-3.5訓練數據都是英文，再刨去其他語(yǔ)種，用來(lái)訓練的中文數據量少到可以用“千分之n”來(lái)計算。

國內top3高校某大模型相關(guān)團隊在讀博士透露，如果采用這種方法，不嫌麻煩的話(huà)，甚至可以給模型接一個(gè)翻譯軟件，把所有語(yǔ)言都轉換成英語(yǔ)，然后把模型的輸出轉換為中文，再返回給用戶(hù)。

然而這樣喂養出的大模型始終是英文思維，當遇到成語(yǔ)改寫(xiě)、俗語(yǔ)理解、文章改寫(xiě)這類(lèi)含有中文語(yǔ)言特色的內容，往往處理不佳，出現翻譯錯誤或潛在文化的偏差。

還有個(gè)解決辦法就是采集、清洗和標注中文語(yǔ)料，做新的中文高質(zhì)量數據集，供給給大模型們。

開(kāi)源數據集眾人拾柴

察覺(jué)現況后，國內不少大模型團隊決定走第二條路，著(zhù)手利用私有數據庫做數據集。

百度有內容生態(tài)數據，騰訊有公眾號數據，知乎有問(wèn)答數據，阿里有電商和物流數據。

積累的私有數據不一，就可能在特定場(chǎng)景和領(lǐng)域建立核心優(yōu)勢壁壘，將這些數據嚴格搜集、整理、篩選、清洗和標注，能保證訓出模型的有效性和準確性。

而那些私有數據優(yōu)勢不那么明顯大模型團隊，開(kāi)始全網(wǎng)爬數據（可以預見(jiàn)，爬蟲(chóng)數據量會(huì )非常大）。

華為為了打造盤(pán)古大模型，從互聯(lián)網(wǎng)爬取了80TB文本，最后清洗為1TB的中文數據集；浪潮源1.0訓練采用的中文數據集達5000GB（相比GPT3模型訓練數據集為570GB）；最近發(fā)布的天河天元大模型，也是天津超算中心搜集整理全域網(wǎng)頁(yè)數據，同時(shí)納入各種開(kāi)源訓練數據和專(zhuān)業(yè)領(lǐng)域數據集等的成果。

與此同時(shí)，近2個(gè)月來(lái)，中文數據集出現眾人拾柴火焰高的現象——

許多團隊陸續發(fā)布開(kāi)源中文數據集，彌補當前中文開(kāi)源數據集的不足或失衡。

其中部分整理如下：

CodeGPT：由GPT和GPT生成的與代碼相關(guān)的對話(huà)數據集；背后機構為復旦大學(xué)。

CBook-150k：中文語(yǔ)料圖書(shū)集合，包含15萬(wàn)本中文圖書(shū)的下載和抽取方法，涵蓋人文、教育、科技、軍事、政治等眾多領(lǐng)域；背后機構為復旦大學(xué)。

RefGPT：為了避免人工標注的昂貴成本，提出一種自動(dòng)生成事實(shí)型對話(huà)的方法，并公開(kāi)我們的部分數據，包含5萬(wàn)條中文多輪對話(huà)；背后是來(lái)自上海交大、香港理工大學(xué)等機構的NLP從業(yè)者。

COIG：全稱(chēng)“中國通用開(kāi)放指令數據集”，是更大、更多樣化的指令調優(yōu)語(yǔ)料庫，并由人工驗證確保了它的質(zhì)量；背后的聯(lián)合機構包括北京人工智能研究院、謝菲爾德大學(xué)、密歇根大學(xué)、達特茅斯學(xué)院、浙江大學(xué)、北京航空航天大學(xué)、卡內基梅隆大學(xué)。

Awesome Chinese Legal Resources：中國法律數據資源，由上海交大收集和整理。

Huatuo：通過(guò)醫學(xué)知識圖譜和GPT3.5 API構建的中文醫學(xué)指令數據集，在此基礎上對LLaMA進(jìn)行了指令微調，提高了LLaMA在醫療領(lǐng)域的問(wèn)答效果；項目開(kāi)源方是哈工大。

Baize：使用少量“種子問(wèn)題”，讓 ChatGPT 自己跟自己聊天，并自動(dòng)收集成高質(zhì)量多輪對話(huà)數據集；加州大學(xué)圣迭戈分校（UCSD）與中山大學(xué)、MSRA合作團隊把使用此法收集的數據集開(kāi)源。

當更多的中文數據集被開(kāi)源到聚光燈下，行業(yè)的態(tài)度是歡迎與欣喜。如智譜AI創(chuàng )始人兼CEO張鵬表達出的態(tài)度：

中文高質(zhì)量數據只是被藏在深閨而已，現在大家都意識到這個(gè)問(wèn)題了，自然也會(huì )有相應的解決方案，比如數據開(kāi)源?？傊窃谙蚝玫姆较虬l(fā)展，不是嗎？

值得注意的是，除了預訓練數據，目前階段人類(lèi)反饋數據同樣不可或缺。

現成的例子擺在眼前：

與GPT-3相比，ChatGPT疊加的重要buff就是利用RLHF（人類(lèi)反饋強化學(xué)習），生成用于fine-tuing的高質(zhì)量標記數據，使得大模型向與人類(lèi)意圖對齊的方向發(fā)展。

提供人類(lèi)反饋最直接的辦法，就是告訴AI助手“你的回答不對”，或者直接在A(yíng)I助手生成的回復旁邊點(diǎn)贊或踩一踩。

先用起來(lái)就能先收集一波用戶(hù)反饋，讓雪球滾起來(lái)，這就是為什么大家都搶著(zhù)發(fā)布大模型的原因之一。

現在，國內的類(lèi)ChatGPT產(chǎn)品，從百度文心一言、復旦MOSS到智譜ChatGLM，都提供了進(jìn)行反饋的選項。

但由于在大部分體驗用戶(hù)眼中，這些大模型產(chǎn)品最主要的還是“玩具”屬性。

當遇到錯誤或不滿(mǎn)意的回答，會(huì )選擇直接關(guān)掉對話(huà)界面，并不利于背后大模型對人類(lèi)反饋的搜集。

So～

今后遇到AI生成回答有錯誤或遺漏時(shí)，請不要吝惜一次點(diǎn)擊，高舉你手中的“”或“”，讓大模型能收集更多的人類(lèi)反饋。

本文來(lái)源：量子位，作者：衡宇，原標題：《國產(chǎn)ChatGPT「套殼」的秘密，現在被找到了》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：

<source id="wiq6g"><input id="wiq6g"></input></source>

<pre id="wiq6g"><strike id="wiq6g"></strike></pre>

<rt id="wiq6g"><nav id="wiq6g"></nav></rt>