国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

當大模型不再稀缺:得數據者得天下

緊隨OpenAI、谷歌的步伐,國內大模型軍備競賽正打得火熱。繼百度、三六零之后,本周阿里、華為、京東等大模型陸續浮出水面。

大模型不再稀缺之后,AI競賽的下一步將走向何處?民生證券分析師呂偉發(fā)表研報指出,盡管目前表面上大模型百花齊放,但是能夠擁有高質(zhì)量數據場(chǎng)景助力持續迭代,使得逐步性能逼近ChatGPT的大模型預計最終仍是“鳳毛麟角”。數據將成為差異化競爭的關(guān)鍵,最終是得數據者得天下。

分析師認為,未來(lái)的AI競爭中,三類(lèi)企業(yè)將掌控主動(dòng)權:


(資料圖片僅供參考)

1.同時(shí)擁有搜索引擎、瀏覽器、辦公插件等高質(zhì)量數據的公司;

2.掌握音箱、攝像頭等物聯(lián)網(wǎng)終端數據的公司;

3.垂直行業(yè)有絕佳數據卡位優(yōu)勢的企業(yè)。

具體來(lái)看:

搜索引擎公司

搜索引擎公司天然具備數十年網(wǎng)絡(luò )爬蟲(chóng)積累的高質(zhì)量互聯(lián)網(wǎng)數據資源,而且憑借這一數據卡位戰略入口,其數據資源與質(zhì)量仍將不斷迭代提升:當搜索引擎爬蟲(chóng)完成對某個(gè)網(wǎng)站或者某個(gè)主題下所有相關(guān)網(wǎng)站的抽取后,需要對其進(jìn)行處理和分析。這通常包括以下幾個(gè)方面:1)數據清洗與去重;2)數據挖掘與分析;3)建立索引以便后續查詢(xún)。

繼微軟公司已經(jīng)在其必應(Bing)搜索引擎中部署ChatGPT系統背后的技術(shù)后,據《華爾街日報》4月6日報道,谷歌CEOSundarPichai透露,谷歌計劃在其搜索引擎中添加AI對話(huà)功能,目前該公司正在對幾種搜索引擎版本進(jìn)行測試。他表示,此舉是為了應對ChatGPT等聊天機器人帶來(lái)的競爭和商業(yè)壓力,但聊天機器人不會(huì )對谷歌的搜索業(yè)務(wù)構成威脅,AI的進(jìn)步反而能進(jìn)一步增強谷歌的信息檢索能力。

從GPT-1的1.17億參數到GPT-2的15億參數,再到GPT-3劃時(shí)代的1750億參數,OpenAI依托篩選過(guò)的優(yōu)質(zhì)數據形成參數量的階梯式上升,最終帶來(lái)GPT-3乃至ChatGPT具備理解上下文、連貫性等諸多先進(jìn)特征。

在提出GPT-3的論文《LanguageModelsareFew-ShotLearners》中,OpenAI在收集近一萬(wàn)億文字(參數)的數據庫后,放棄直接使用海量數據訓練模型,而是轉向通過(guò)三種模式篩選優(yōu)質(zhì)數據進(jìn)行訓練,從而從萬(wàn)億參數歸納出眾人所熟知的1750億參數,其核心原因在于“未經(jīng)過(guò)濾或輕度過(guò)濾的爬蟲(chóng)數據往往比篩選后數據集質(zhì)量更低”。

物聯(lián)網(wǎng)終端

近期天貓精靈。通過(guò)音箱端接入阿里大模型,做出了一款阿里版ChatGPT個(gè)性化語(yǔ)音助手,標志這一趨勢已經(jīng)開(kāi)啟。AIoT終端的“賣(mài)鏟人”以及視頻攝像頭數據入口企業(yè)都擁有巨大優(yōu)勢。

垂直行業(yè)有絕佳數據卡位優(yōu)勢的企業(yè)

彭博新聞社近期發(fā)布了專(zhuān)門(mén)為金融領(lǐng)域打造的大型語(yǔ)言模型(LLM)—BloombergGPT就是垂直數據優(yōu)勢“挑戰”巨頭通用大模型的案例。

在過(guò)去40年里,彭博收集了海量的金融市場(chǎng)數據,擁有廣泛的金融數據檔案,涵蓋一系列的主題。使用該公司數據終端的客戶(hù)遍布全球,包括交易員、投行、美聯(lián)儲、美國其他官方機構以及全球各大央行等。這些特有數據,使得BloombergGPT比ChatGPT擁有更專(zhuān)業(yè)的訓練語(yǔ)料。

據彭博社發(fā)布的報告中可以看出,研究人員利用彭博社現有的數據,對資源進(jìn)行創(chuàng )建、收集和整理,構建了一個(gè)3630億個(gè)標簽的數據集,并基于通用和金融業(yè)務(wù)的場(chǎng)景進(jìn)行混合模型訓練,以支持金融行業(yè)內各種各樣的自然語(yǔ)言處理(NLP)任務(wù)。

映射至國內,掌握垂直優(yōu)質(zhì)數據的公司,將有機會(huì )開(kāi)發(fā)自己的BloombergGPT。

本文主要觀(guān)點(diǎn)來(lái)自民生證券呂偉(執業(yè):S0100521110003)發(fā)表的研報《當大模型不再稀缺:得數據者得天下》,有刪節

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: