国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

阿里云大模型上新!AI神器「通義聽(tīng)悟」公測中:長(cháng)視頻一秒總結,還能自動(dòng)做筆記、翻字幕-今頭條

又一個(gè)接入大模型能力的組會(huì )神器實(shí)用工具,開(kāi)啟免費公測啦!

背后大模型,是阿里的通義千問(wèn)。至于為什么說(shuō)是組會(huì )神器嘛——

注意看,這是我的B站導師李沐老師,他正在帶同學(xué)們精讀一篇大模型論文。


(資料圖)

不巧就在這時(shí),老板催我抓緊搬磚。我只好默默摘下耳機,點(diǎn)開(kāi)名為“通義聽(tīng)悟”的插件,然后切換頁(yè)面。

你猜怎么著(zhù)?雖然我人不在“組會(huì )”現場(chǎng),但聽(tīng)悟已經(jīng)幫我完整記錄下了組會(huì )內容。

甚至還幫我一鍵總結出了關(guān)鍵詞、全文摘要和學(xué)習要點(diǎn)。

簡(jiǎn)單來(lái)說(shuō),這個(gè)剛剛接入大模型能力的“通義聽(tīng)悟”,是一個(gè)大模型版的聚焦音視頻內容的工作學(xué)習AI助手。

跟以往的錄音轉寫(xiě)工具不同,它不只是能把錄音、視頻轉成文字這么簡(jiǎn)單。能一鍵總結全文不說(shuō),總結不同發(fā)言人觀(guān)點(diǎn)也能做到:

甚至還能當實(shí)時(shí)字幕翻譯來(lái)用:

看上去,不僅開(kāi)組會(huì )好使,對于經(jīng)常要處理一大堆錄音、熬夜跟各種國外發(fā)布會(huì )的量子位來(lái)說(shuō),也實(shí)屬日常工作新神器。

我們趕緊第一時(shí)間深入測試了一波。

通義聽(tīng)悟上手實(shí)測

音頻內容的整理和分析,最基礎也是最重要的,就是轉寫(xiě)的準確性。

Round 1,我們先上傳一個(gè)時(shí)長(cháng)在10分鐘左右的中文視頻,看看聽(tīng)悟與同類(lèi)工具相比,在準確性方面表現如何。

基本上,AI處理這種中等長(cháng)度音視頻的速度很快,大概不到2分鐘就能轉寫(xiě)完成。

先來(lái)看看聽(tīng)悟的表現:

在這個(gè)200字左右的段落中,聽(tīng)悟只出現了兩處錯誤:強 → 墻,都好處 → 恰到好處。像原子核、電荷、斥力這些物理名詞,聽(tīng)悟都能弄明白。

我們用同一段視頻在飛書(shū)妙記上也進(jìn)行了測試?;締?wèn)題也不大,但相比聽(tīng)悟,飛書(shū)多了兩處錯誤,把其中一處“原子”寫(xiě)成了“園子”,把“斥力”聽(tīng)成了“勢力”。

有意思的是,聽(tīng)悟犯的錯,飛書(shū)也一比一復刻了??磥?lái)這口鍋還得量子位某說(shuō)話(huà)吞字的up主來(lái)背(手動(dòng)狗頭)。

訊飛聽(tīng)見(jiàn),倒是分辨出了前兩位選手沒(méi)有識別出來(lái)的“恰到好處”。但訊飛聽(tīng)見(jiàn)基本上把“墻”全部都轉寫(xiě)成了“強”,還出現了“強的糖?!边@種神奇的搭配。另外,三位選手中,只有訊飛聽(tīng)見(jiàn)把“電磁力”聽(tīng)成了“電子力”。

總體來(lái)說(shuō),中文的識別對這些AI工具來(lái)說(shuō)難度不大。那么在英文材料面前,它們又會(huì )表現如何?

我們上傳了一段馬斯克的最新訪(fǎng)談,內容是他與OpenAI過(guò)去的恩怨糾葛。

還是先來(lái)看聽(tīng)悟給出的結果。在馬斯克的這一段回答中,聽(tīng)悟沒(méi)有分辨出拉里·佩奇的名字,除此之外基本都能識別正確。

值得一提的是,聽(tīng)悟能夠直接將英文轉寫(xiě)結果翻譯成中文,并將雙語(yǔ)對照顯示,翻譯質(zhì)量也相當不錯。

飛書(shū)妙記則成功聽(tīng)出了拉里·佩奇的名字,不過(guò)和聽(tīng)悟一樣,由于馬斯克整體語(yǔ)速較快并且有一些口語(yǔ)化的表達,存在一些小錯誤,比如把“stay at his house”寫(xiě)成了“say this house”。

訊飛聽(tīng)見(jiàn)這邊,人名、連讀細節處理得都不錯,不過(guò)同樣存在被馬斯克的口語(yǔ)化表達誤導的情況,比如把“l(fā)ong into the evening”當成了“l(fā)onging to the evening”。

如此看來(lái),在基礎能力語(yǔ)音識別方面,AI工具們都已經(jīng)達到了很高的準確率,在極高的效率面前,一些小問(wèn)題已經(jīng)瑕不掩瑜。

那么,我們將難度再升一級,Round 2,來(lái)測試測試它們對1小時(shí)左右長(cháng)視頻的總結能力。

測試視頻是一段40分鐘的圓桌討論,主題是中國AIGC新機遇。參與圓桌討論的共有5人。

聽(tīng)悟這邊,從轉寫(xiě)完成到AI提取關(guān)鍵詞、給出全文摘要,一共花了不到5分鐘的時(shí)間。

結果是醬嬸的:

不僅給出了關(guān)鍵詞,圓桌討論的內容也總結得很到位,并且還給視頻劃分了關(guān)鍵點(diǎn)。

對比人類(lèi)編輯摘錄的話(huà)題要點(diǎn),我嗅到了一絲危機……

值得一提的是,針對不同嘉賓的發(fā)言,聽(tīng)悟都能給出對應的發(fā)言總結。

同樣的題目拋給飛書(shū)妙記。目前,在內容總結方面,飛書(shū)妙記還只能給出關(guān)鍵詞。

會(huì )議紀要需要手動(dòng)在轉寫(xiě)文字上標注。

訊飛聽(tīng)見(jiàn)基于星火認知大模型,也有能夠分析文件內容的產(chǎn)品正在內測,不過(guò)需要填寫(xiě)申請,排隊等待。(有內測資格的小伙伴歡迎分享體驗~)

在基礎的訊飛聽(tīng)見(jiàn)中,目前沒(méi)有類(lèi)似的總結功能。

看來(lái)這一輪測試:

不過(guò)要說(shuō)在本次實(shí)測中,通義聽(tīng)悟最令人感覺(jué)驚喜的,其實(shí)是一個(gè)“小”設計:

Chrome插件功能。

無(wú)論是看英文視頻,看直播,還是上課開(kāi)會(huì ),點(diǎn)開(kāi)聽(tīng)悟插件,就能實(shí)現音視頻的實(shí)時(shí)轉錄和翻譯。

就像開(kāi)頭所展示的那樣,拿來(lái)當實(shí)時(shí)字幕用,延遲低,翻譯快,還有雙語(yǔ)對照功能,同時(shí),錄音和轉寫(xiě)文字都能一鍵保存下來(lái),方便后續使用。

媽媽再也不用擔心我啃不下來(lái)英文視頻資料了。

另外,我還有個(gè)大膽的想法……

開(kāi)組會(huì )的時(shí)候打開(kāi)聽(tīng)悟,開(kāi)會(huì )兒小差再也不用怕被導師突然抽查了。

目前,聽(tīng)悟已經(jīng)和阿里云盤(pán)打通,存放在云盤(pán)中的音視頻內容可以一鍵轉寫(xiě),在線(xiàn)播放云盤(pán)視頻時(shí)還能自動(dòng)顯示字幕。并且在企業(yè)版本中,AI整理后的音視頻文件將來(lái)還可以在內部快速分享。

聽(tīng)悟官方還透露,接下來(lái),聽(tīng)悟還會(huì )持續上新大模型能力,比如直接抽取視頻內的PPT截圖、針對音視頻內容可以直接向AI提問(wèn)……

關(guān)鍵是,公測福利現在人人可薅,每天登陸即可自動(dòng)獲得2小時(shí)轉寫(xiě)時(shí)長(cháng),阿里云官方微博、微信及各大平臺社區還會(huì )發(fā)放大量20小時(shí)轉寫(xiě)口令碼,并且時(shí)長(cháng)均可疊加,一年內有效。

勤快點(diǎn)的羊毛大師,攢出100小時(shí)以上的免費時(shí)長(cháng)不是夢(mèng)(手動(dòng)狗頭)。

背后技術(shù):大語(yǔ)言模型+語(yǔ)音SOTA

其實(shí),在公測之前,通義聽(tīng)悟就已經(jīng)在阿里內部精心打磨過(guò)了。

去年年底,也有量子位讀者拿到了聽(tīng)悟內測體驗卡,當時(shí)版本中,已經(jīng)有離線(xiàn)語(yǔ)音/視頻轉寫(xiě)和實(shí)時(shí)轉寫(xiě)的功能。

這次公測,聽(tīng)悟主要是接入了通義千問(wèn)大模型的摘要及對話(huà)能力。具體而言,是以通義千問(wèn)大模型為基座,融合了研發(fā)團隊在推理、對齊和對話(huà)問(wèn)答等方面的研究成果。

首先,如何準確抽取關(guān)鍵信息,是這類(lèi)神器提升工作效率的關(guān)鍵。這就需要借助大模型的推理能力。

阿里AI團隊在2022年提出了基于大語(yǔ)言模型的知識探測與推理利用框架Proton(Probing Turning from Large Language Models)。相關(guān)論文發(fā)表在KDD2022和SIGIR2023等國際頂會(huì )上。

該框架的核心思路在于,探測大模型的內部知識,以思維鏈為載體進(jìn)行知識流動(dòng)和利用。

在通用常識推理CommonsenseQA2.0、物理常識推理PIQA、數值常識推理Numbersense三大榜單上,Proton曾先后取得第一。

在TabFact(事實(shí)驗證)榜單上,Proton憑借知識分解和可信思維鏈技術(shù),首次實(shí)現了超越人類(lèi)的效果。

其次,為了確保摘要內容和格式符合用戶(hù)預期,在對齊方面,聽(tīng)悟還用上了ELHF,即基于人類(lèi)反饋的高效對齊方法。

該方法僅需少量高質(zhì)量人工反饋樣本,就能實(shí)現對齊。在模型效果主觀(guān)評測中,ELHF能使模型勝率提高20%。

在此之外,聽(tīng)悟背后的研發(fā)團隊,還發(fā)布了首個(gè)中文超大規模文檔對話(huà)數據集Doc2Bot。該團隊提升模型問(wèn)答能力的Re3G方法,已經(jīng)入選ICASSP 2023:該方法通過(guò)Retrieve(檢索)、Rerank(重排序)、Refine(精調)和Generate(生成)四個(gè)階段,能提升模型對用戶(hù)問(wèn)題的理解、知識檢索和回復生成能力,在Doc2Dial和Multi Doc2Dial兩大文檔對話(huà)榜單中取得第一。

除了大模型能力,聽(tīng)悟還是阿里語(yǔ)音技術(shù)的集大成者。

其背后的語(yǔ)音識別模型Paraformer,來(lái)自阿里達摩院,首次在工業(yè)級應用層面解決了端到端識別效果與效率兼顧的難題:

不僅在推理效率上較傳統模型提升10倍,剛推出時(shí)還“屠榜”多個(gè)權威數據集,刷新語(yǔ)音識別準確率SOTA。在專(zhuān)業(yè)第三方全網(wǎng)公共云中文語(yǔ)音識別評測SpeechIO TIOBE白盒測試中,目前,Paraformer-large仍是準確率最高的中文語(yǔ)音識別模型。

Paraformer是單輪非自回歸模型,由編碼器、預測器、采樣器、解碼器和損失函數這五個(gè)部分組成。

通過(guò)對預測器的創(chuàng )新設計,Paraformer實(shí)現了對目標文字個(gè)數及對應聲學(xué)隱變量的精準預測。

另外,研究人員還引入了機器翻譯領(lǐng)域中瀏覽語(yǔ)言模型(GLM)的思路,設計了基于GLM的采樣器,增強了模型對上下文語(yǔ)義的建模。

同時(shí),Paraformer還使用了數萬(wàn)小時(shí)、覆蓋豐富場(chǎng)景的超大規模工業(yè)數據集進(jìn)行訓練,進(jìn)一步提升了識別準確率。

而準確的多人討論發(fā)言人區分,則得益于達摩院的CAM++說(shuō)話(huà)人識別基礎模型。該模型采用基于密集型連接的時(shí)延網(wǎng)絡(luò )D-TDNN,每一層的輸入均由前面所有層的輸出拼接而成,這種層級特征復用和時(shí)延網(wǎng)絡(luò )的一維卷積,可以顯著(zhù)提高網(wǎng)絡(luò )的計算效率。

在行業(yè)主流的中英文測試集VoxCeleb和CN-Celeb上,CAM++均刷新了最優(yōu)準確率。

大模型開(kāi)卷,用戶(hù)受益

據中國科學(xué)技術(shù)信息研究所報告,據不完全統計,目前國內已經(jīng)發(fā)布了79個(gè)大模型。

這種大模型開(kāi)卷的趨勢下,AI應用進(jìn)化的速度再次進(jìn)入到一個(gè)沖刺階段。

站在用戶(hù)的角度來(lái)說(shuō),喜聞樂(lè )見(jiàn)的局面正逐步形成:

大模型的“統籌”之下,各種AI技術(shù)開(kāi)始在應用側百花齊放,使得工具越來(lái)越高效,越來(lái)越智能。

從一個(gè)斜杠就能幫你自動(dòng)寫(xiě)完工作計劃的智能文檔,到快速幫你總結要素的音視頻記錄和分析工具,生成式大模型這朵AGI的火花,正在讓越來(lái)越多的人感受到AI的魔力。

與此同時(shí),對于科技企業(yè)來(lái)說(shuō),新的挑戰和新的機會(huì ),無(wú)疑也已經(jīng)出現。

挑戰是,所有產(chǎn)品都將被大模型的風(fēng)暴席卷,技術(shù)創(chuàng )新已經(jīng)成為了無(wú)可回避的關(guān)鍵問(wèn)題。

機會(huì )是,對于新的殺手級應用而言,重寫(xiě)市場(chǎng)格局的時(shí)間點(diǎn)已經(jīng)到來(lái)。而誰(shuí)能拔得頭籌,就要看誰(shuí)的技術(shù)準備更充分,誰(shuí)的技術(shù)進(jìn)化速度更快了。

無(wú)論如何,技術(shù)開(kāi)卷,終將是用戶(hù)受益。

本文來(lái)源:量子位,原文標題:《阿里云大模型上新!AI神器「通義聽(tīng)悟」公測中:長(cháng)視頻一秒總結,還能自動(dòng)做筆記、翻字幕 | 羊毛可薅》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: