今日訊!【直播紀要】AIGC有哪些新看點(diǎn)?| 見(jiàn)智研究
特邀嘉賓:凌云光技術(shù)股份有限公司董事/副總經(jīng)理【楊藝】、凌云光技術(shù)股份有限公司BU總經(jīng)理【熊偉】
(資料圖片僅供參考)
摘要:
1、AIGC為什么火了?
AIGC是從文字、聲音、還有圖畫(huà)等二維層面的應用陸續發(fā)展起來(lái)。目前人們更關(guān)心AIGC在三維世界中能做什么?首先要將技術(shù)數字化,自動(dòng)化,最后達到智能化。AIGC能夠通過(guò)虛擬數字人得到一次重大的發(fā)展。
2、數字人上用到AIGC技術(shù)僅有一成
虛擬人的主要制作過(guò)程包括:建模、驅動(dòng),渲染。目前AI能占10%的輔助作用。非常期待AI的參與能力能夠達到90%,這樣就能提高節目制作效率。還需要幾次技術(shù)的質(zhì)變才能達到從10%到90%的利用率提升。
3、數字人制作成本在快速下降
之前制作一個(gè)15分鐘渲染的沉浸體驗式節目,需要700w元的制作成本?,F在基本上可以實(shí)現每分鐘10w元。未來(lái)希望能夠實(shí)現每分鐘1w元,甚至每分鐘幾千元的價(jià)格。
4、產(chǎn)業(yè)鏈的核心環(huán)節是什么?
虛擬內容制作中,大量的成本是在資產(chǎn)創(chuàng )作環(huán)節。比如說(shuō)數字人三維模型以及基礎動(dòng)畫(huà)的創(chuàng )建,是最重要的資產(chǎn)內容。
正文:
見(jiàn)智研究:
AIGC為什么在當下突然火了,還掀起了全民熱潮?
楊藝:
在互聯(lián)網(wǎng)上原來(lái)是有UGC、PGC,現在很開(kāi)心看到大家把AIGC也放在里面。AIGC首先是分成兩段,先是AI,然后才是GC,也就是用AI來(lái)generate content。
現在虛擬現實(shí)和元宇宙等更多指向三維世界的創(chuàng )造是大家非常關(guān)心的話(huà)題,然而AIGC其實(shí)在過(guò)去是從文字、聲音、還有圖畫(huà)、和平等二維世界陸續發(fā)展起來(lái)。
最近一段時(shí)間,二維世界中的AIGC也有了非常好的技術(shù)進(jìn)步甚至能達到以假亂真的個(gè)程度。
我們現在更關(guān)心在三維世界里,AI到底能為我們做什么?
現在的AIGC在三維世界中能承擔的角色還比較少。所有的技術(shù)首先要將它數字化,再自動(dòng)化,最后達到智能化。
而現在的AI技術(shù)在三維世界里處理點(diǎn)云,再轉換到自動(dòng)化的內容,整個(gè)制作的過(guò)程我們還沒(méi)有掌握出很好的規律,所以AI暫時(shí)是幫不上什么大忙,更多是在信息采集及處理時(shí)候的一些輔助作用。
所以AIGC目前在三維世界里的作用還比較有限,但比較可喜的事就是出現了虛擬數字人。
虛擬數字人就相等于做出了三維的形象,并且能放在虛擬世界里。聲音與文字又作為載體讓AIGC在三維空間中釋放出活力。所以我們非常期待AIGC能夠通過(guò)虛擬數字人得到一次重大的發(fā)展。
見(jiàn)智研究:
AIGC目前用在了數字人制作的哪些方面?
楊藝:
首先要進(jìn)行建模,建模了之后要驅動(dòng),驅動(dòng)之后要基于各種環(huán)境進(jìn)行渲染。在用光場(chǎng)技術(shù)獲取點(diǎn)云的時(shí)候還會(huì )經(jīng)常出現一些干擾。
當需要進(jìn)行修補工作的時(shí)候,AI技術(shù)可以很好地加速修補這樣的自動(dòng)化工作。在驅動(dòng)過(guò)程中,從動(dòng)作采集到自動(dòng)驅動(dòng)甚至智能化驅動(dòng),AI技術(shù)也能比較好地發(fā)揮它的作用。
另外我們都知道渲染是需要很多適應光的照明條件,目前AI只能占到建模渲染驅動(dòng)上10%的輔助作用。
我們非常期待它的參與能力能夠達到90%,這樣就能大幅的加快節目制作的效率。我們還在不斷地打磨,還需要幾次技術(shù)的質(zhì)變才能達到從10%到90%的利用率的提升。
進(jìn)行渲染的工具是比較復雜的。首先在裝備上需要做的穩定可靠,獲得的信息要完整,而且它還要軟件結合,和軟件也結合在一起,這是一個(gè)工具基礎建設裝備的過(guò)程。所以在這十年中,我們有了這些基礎,就有幸參與到了整個(gè)虛擬數字人的成長(cháng)階段。
在世界 VR 大會(huì )上發(fā)布了對虛擬數字人的定義:
第一個(gè) level 就是三維建模,首先,先獲得一個(gè)數字人的形象,基本上是用來(lái)做平面宣傳,相對偏靜態(tài)的;
第二個(gè) level就是我們跟動(dòng)作已經(jīng)綁定在一起了,所以他需要采集和動(dòng)作合在一起;
第三個(gè)level就開(kāi)始要形成很好的實(shí)時(shí)渲染能力,能夠實(shí)時(shí)表演;
第四個(gè) level是要有 AI 的能力,比如說(shuō)像冬奧手語(yǔ),數字人之類(lèi)直接來(lái)進(jìn)行回答你的問(wèn)題;
第五個(gè) level我們定義為是需要智能,不僅能夠有 AI 的知識,還能夠進(jìn)行交互,而且在交互的時(shí)候你能懂得他的表情,他也能夠懂得一些你的語(yǔ)氣語(yǔ)義所帶來(lái)的這種含義。
目前,虛擬數字人制作起來(lái)超級貴,甚至達到千萬(wàn)級別,我們基本上做一些名人的數字人,比如說(shuō)去制造鄧麗君,梅蘭芳大師等,制作過(guò)程非常精細,甚至需要帶著(zhù)一定的微表情,基本上都要手動(dòng)去每幀去調整,然后每個(gè)面片每個(gè)面片去綁定,所以成本就是非常昂貴。
當然,不同的 level 的追求和費用是不一樣的,而且它背后牽扯到的技術(shù)還沒(méi)有達到全自動(dòng),這個(gè)效率又決定了費用的提高。
目前我們開(kāi)發(fā)這么多的裝備和軟件以及算法,就是為了讓工作效率提升,未來(lái)用 10 萬(wàn)級的成本就能夠實(shí)現現在百萬(wàn)級的數字人效果。這是未來(lái)一年到兩年的時(shí)間我們的主要的奮斗目標。
見(jiàn)智研究:
未來(lái)要實(shí)現這種級別的跨越,可能會(huì )涉及到哪些軟硬件升級?
楊藝:
首先在數據采集這個(gè)層面上,最初都是用3D的照明,相當于數字人的采集系統。
它是用復雜的散斑照明系統,來(lái)模擬各種環(huán)境光的照明,甚至還增加偏振,讓各種色彩維度的信息的能夠模擬,包括人臉上的皮膚發(fā)質(zhì)等等在不同的環(huán)境下能夠被很好地適應。
在今年年底,在研的last stage 的產(chǎn)品就能夠比較好地服務(wù)于我們的應用,整個(gè)后面的渲染工作就可以從原來(lái)完全無(wú)法自動(dòng)化向自動(dòng)化推進(jìn)一些。
另外,我們希望動(dòng)作捕捉系統能夠有更高的精度,同時(shí)在算法軟件上,也就是運用一些 AI 的技術(shù),把我們大量采集到的數據中獲得的一些噪聲和干擾能夠比較充分的剔除掉。
這樣獲得的數據能夠比較好的推動(dòng)自動(dòng)驅動(dòng)和自動(dòng)綁定技術(shù),所以算法工作,還有的硬件裝備的提升,對整個(gè)工作的自動(dòng)化的提高,會(huì )產(chǎn)生很大的推進(jìn)效果。
而且的話(huà)我覺(jué)得我們比較有幸能看到,在渲染引擎上,無(wú)論是國內還是國際,尤其是國際的UE ,從 UE 4 到現在的UE 5確實(shí)是在數字人這個(gè)層面上的后期升層過(guò)程中已經(jīng)是非常友好,都高了很多,所以這些話(huà)合在一起的話(huà),能夠讓數字人更加逼真性和寫(xiě)實(shí)。
見(jiàn)智研究:
數字人距離大規模的商用還有多遠呢?
熊偉:
虛擬人在音樂(lè )主播、線(xiàn)上表演、電商直播、教育、銀行客服等方面都已經(jīng)在展開(kāi)。但是制作成本相對來(lái)講比較高的。
隨著(zhù)這兩年AI的制作技術(shù)的大幅提升以后,數字人無(wú)論在形象上,還是解決問(wèn)題的能力上會(huì )越來(lái)越滿(mǎn)足大規模商業(yè)化的需求,未來(lái)兩到三年的這個(gè)時(shí)間之內可以實(shí)現的。
之前湖南博物館的項目經(jīng)驗,制作一個(gè) 15 分鐘的一個(gè)深度沉浸體驗式的節目,需要700w元的成本。
現在我們基本上可以做到每分鐘達到 10 w元。但我們的目標是希望未來(lái)能夠實(shí)現每分鐘1 萬(wàn),甚至每分鐘可以幾千元。這樣的話(huà),會(huì )迎來(lái)比較規?;纳虡I(yè)到來(lái)。
見(jiàn)智研究:
數字人產(chǎn)業(yè)鏈是如何劃分的?
熊偉:
從創(chuàng )造數字內容或者是我們沉浸式角度來(lái)講的話(huà),大概可以分為四個(gè)層級。
那基礎的層級就是通信,運算, GPU 運算、 CPU 運算,云計算、區塊鏈等底層技術(shù)。
在上一層是交互體驗終端,像是XR、3D顯示。
然后再上一層就是創(chuàng )作內容,包括內容制作工具,內容制作的團隊,創(chuàng )造 IP的團隊。
頂層,就是應用以及運營(yíng)分發(fā)平臺了。
見(jiàn)智研究:
這個(gè)行業(yè)的核心的競爭力是什么?
熊偉:
未來(lái)其實(shí)整個(gè)數字人的平臺的制作,它其實(shí)是一個(gè)多環(huán)節組成的,就是我們剛剛前面說(shuō)的這種關(guān)鍵技術(shù),是里面一個(gè)很重要的核心點(diǎn)。
當然整個(gè)數字 IP 打造是另外一個(gè)核心點(diǎn),就是說(shuō)最后我們要創(chuàng )造這種普通的真人藝人一樣。那你數字人怎么讓一個(gè)藝人成名怎么有價(jià)值,這也是非常重要的事情。
最后就是我們也要讓他有真正的一些商業(yè)的鏈接去做。
當然前期我們覺(jué)得目前真正卡住數字人以及這種虛擬現實(shí)產(chǎn)業(yè)往前發(fā)展的地方還是在技術(shù)環(huán)節。
因為這么多年,原來(lái)我們創(chuàng )作內容還是位于那種影視游戲這種離線(xiàn)內容創(chuàng )作來(lái)用的。但是到了元宇宙虛擬現實(shí)環(huán)節,我們的內容大量是要實(shí)時(shí)交互的,它要一個(gè)更加高效的創(chuàng )造內容的情況,才能讓我們的產(chǎn)業(yè)大面積商業(yè)化。
這部分就是我們剛剛說(shuō)到了還有很多要走的路,它能夠讓它變成未來(lái)像我們今天看到的短視頻這種媒體大面產(chǎn)生的狀況,這個(gè)是我們要去突破的地方。
見(jiàn)智研究:
創(chuàng )作數字人過(guò)程中,哪一個(gè)環(huán)節的技術(shù)迭代是最重要的?
熊偉:
我覺(jué)得有多個(gè)技術(shù)環(huán)節都很重要。但是我覺(jué)得就是像底層那些渲染這些引擎,游戲。
但是本身數字人的資產(chǎn)創(chuàng )建環(huán)節,這是里面最核心的,其實(shí)我們整個(gè)虛擬內容產(chǎn)生的里面大量的成本是在資產(chǎn)創(chuàng )作的環(huán)節,就比如說(shuō)我們數字人三維模型以及它的一些基礎動(dòng)畫(huà)的創(chuàng )建環(huán)節,這是它的最重要的資產(chǎn)內容。
好在是我們現在就是有這樣的光場(chǎng)重建技術(shù),它是相當于能夠把我們現實(shí)世界當中所有的物體反射出來(lái)的光線(xiàn)信息全部收集起來(lái)的技術(shù)。
然后這樣計算出它人體或者物體表現的這種特性的信息以后,然后把它輸入給引擎,我們渲染引擎就可以完全 1 比 1 的還原出我們的所有物體。
但是這種之前都是靠人工一點(diǎn)點(diǎn)的去靠他自己理解去做出來(lái)的,這種效率就很低,真實(shí)度也很難保障。
而有了這種光場(chǎng)呈樣技術(shù),未來(lái)就可以大量存在。而且在現在的光場(chǎng)成像技術(shù)以后,還有了未來(lái)升級的空間,就是用 AI 去生成光場(chǎng),原來(lái)我們光場(chǎng)是靠光學(xué)技術(shù)去還原去計算得到的,這個(gè)對于整個(gè)光學(xué)系統要求很高很精密。
但是我們通過(guò)積累大量的高精度光場(chǎng)數據,采集數據庫以后,我們用 AI 學(xué)習,將來(lái)可以更加輕量化的去產(chǎn)生我們大量?jì)热?,這讓我們的數字生產(chǎn)能夠更加高效、更加低成本的產(chǎn)生。
楊藝:
光場(chǎng)采集系統可能對很多聽(tīng)眾來(lái)說(shuō)都很陌生的詞。
可以這樣去理解,就是說(shuō)我們是過(guò)去拍照片,那整體上都是從一個(gè)角度來(lái)對大家進(jìn)行拍照。
但事實(shí)上我們真正活在這個(gè)世界里面的光是從各個(gè)維度來(lái)去,就是照到我們每個(gè)物體,每個(gè)人,都是這樣。而且光所帶來(lái)的信息不僅僅是強度、顏色,還有非常多的光譜信息、偏正態(tài)的信息,還有很多時(shí)序層面上的信息。
其實(shí)光本身實(shí)際上是里面有很多的高維度的信息,然后我們用光場(chǎng)采集系統,就是把這些高維度的信息也要把它模擬出來(lái)。實(shí)際上這就是我們?yōu)槭裁丛诂F實(shí)生活中,我們人的眼睛看到的世界其實(shí)還是蠻豐富多彩的,還蠻細膩的。
但是我們單純用我們原來(lái)的相機成像傳感器,實(shí)際上拍到的信息是達不到那樣的效果的。這就是需要要把人眼睛所能感知到的高維度的信息,也能用數學(xué)和裝備的方式把它解算出來(lái)??赡軐?lái)就是現在學(xué)光學(xué)的年輕人已經(jīng)越來(lái)越知道,計算成像已經(jīng)不再是陌生的詞了。我們當時(shí)讀大學(xué)的時(shí)候,這都還不是我們學(xué)習的知識內容。光場(chǎng)是把立體的事物數字化的,實(shí)際上相當于是信息采集的靈魂。
所以我們這個(gè)地方是可能今天先理解一下這個(gè)詞的存在,然后光場(chǎng)技術(shù)的進(jìn)步,還有它的解算能力是里面一個(gè)信息采集的源頭,一定是好的 information 再經(jīng)過(guò)處理就能得到好的結果。所以就信息的源頭的豐富性是清晰處理的關(guān)鍵。
見(jiàn)智研究:
未來(lái)隨著(zhù)數字人滲透率的提高,我們還會(huì )在哪些領(lǐng)域看到數字人的應用?
熊偉:
數字人早期偏娛樂(lè )應用,現在我們發(fā)現它可以從事非體力勞動(dòng),就是我們用腦力勞動(dòng)的地方都可以用上數字人,它可以代替我們大量的人去做回答問(wèn)題的重復性工作。
比如電商領(lǐng)域介紹商品,金融推薦產(chǎn)品,醫療領(lǐng)域、交通領(lǐng)域做簡(jiǎn)單的問(wèn)答,這都可以大量的去代替真人從事服務(wù)勞動(dòng)。
隨著(zhù) AI 進(jìn)一步提升,將來(lái)可以代替個(gè)人去進(jìn)行陪護、交流以及更多表現力的工作。
見(jiàn)智研究:
可以分享一個(gè)數字人的制作案例嗎?
熊偉:
手語(yǔ)數字人的創(chuàng )立過(guò)程其實(shí)非常有意思。我們最早想的可能只是做一個(gè)能夠動(dòng)起來(lái)的這個(gè)動(dòng)畫(huà),可能很多條件都是標準的固定詞匯,我們覺(jué)得可能還比一般的 AI簡(jiǎn)單一點(diǎn)。但是后來(lái)發(fā)現它比一般的 AI動(dòng)畫(huà)數字人難度更高。因為手語(yǔ)數字人對準確性要求非常高。
一般 AI 的數字人其實(shí)只要表達出大體的情態(tài)、情緒是對的就行。但是手語(yǔ)數字人要傳達信息的每一個(gè)動(dòng)作,每一個(gè)表情都要非常精準,而且要連成一段故事,是一段段完整的句子,這樣聾啞人才能看得懂。特別是我們還拿它來(lái)做新聞播報,準確性要求就會(huì )更高。
所以我們做了大量的工作,才最終達到了我們真正在電視臺上面看到的這種冬奧手語(yǔ)數字人的自動(dòng)播出。
這里面有我們前期大量的錄制的手語(yǔ)老師的標準動(dòng)作,也有我們用 AI 的方式,去適應聾啞人的這種語(yǔ)序語(yǔ)調。
它的整個(gè)句子的語(yǔ)法跟正常的口頭表達還不太一樣。在新聞播報的時(shí)候,由于手語(yǔ)是靠動(dòng)作去表達,而不是說(shuō)出來(lái),語(yǔ)速要比我們真人的說(shuō)話(huà)語(yǔ)速要慢很多。要做到同步翻譯,還要對每一句話(huà)的信息縮減,提取關(guān)鍵詞才能夠趕上實(shí)時(shí)翻譯的速度。
這里面有很多的挑戰,從我們的動(dòng)作準確性也好,從我們的 AI智能分解也好,都比往常提出了更高的要求。
通過(guò)不斷的修改,我們最后也達到了90% 以上的可懂度。在安全播出的過(guò)程中我們也有了很多實(shí)踐的驗證,會(huì )有專(zhuān)門(mén)的手語(yǔ)老師進(jìn)行這個(gè)新聞播出之前的審核,然后去確保所有手語(yǔ)動(dòng)作的準確性。最開(kāi)始手語(yǔ)老師還擔心以后被替代,但后來(lái)我們發(fā)現手語(yǔ)數字人其實(shí)是緩解手語(yǔ)老師工作量的技術(shù)。原來(lái)一位手語(yǔ)老師可能參與30分鐘的節目播出就會(huì )滿(mǎn)頭大汗,這是一種體能的消耗?,F在可以連續審核幾個(gè)小時(shí)以上,甚至可以同時(shí)審核多檔節目,大大提高了工作效率。
見(jiàn)智研究:
不同類(lèi)型數字人的創(chuàng )作的過(guò)程和技術(shù)支持有什么差異?
熊偉:
數字人直播帶貨的時(shí)候,其實(shí)是在數字人基礎上增加一個(gè)虛實(shí)融合的播出內容。
現在純虛擬數字人跟真人的交互雖然讓大家有新鮮感,但同時(shí)又產(chǎn)生一些距離感和不真實(shí)的感覺(jué)。所以我們在創(chuàng )作的時(shí)候,比較多的會(huì )是去采用數字人和真人結合的一起播出的形式,更好地去跟觀(guān)眾進(jìn)行互動(dòng)。在做這種節目的時(shí)候,需要在現場(chǎng)做出一種趨勢融合的直播系統。
通過(guò)專(zhuān)業(yè)的光學(xué)追蹤設備識別真人在什么位置,虛擬人在什么位置,虛擬場(chǎng)景在什么位置,最后把他們拍攝在一起。同時(shí)我們在虛擬主播的時(shí)候還需要解決在播出之后無(wú)人值守的問(wèn)題。所以我們要產(chǎn)生相應的一定的 AI 數字能力來(lái)實(shí)現數字人在真人主播下線(xiàn)的時(shí)候,還能夠代替真人主播的過(guò)程,做到24 小時(shí)不停播的效果。
見(jiàn)智研究:
數字人應用最快落地可能是哪幾個(gè)領(lǐng)域?
熊偉:
數字人的應用其實(shí)是一個(gè)從娛樂(lè )向產(chǎn)業(yè)的轉化過(guò)程。
目前來(lái)講主要還是應用在娛樂(lè )的主播,我們的文旅,包括教育這些領(lǐng)域。主要是因為我們可以用真人驅動(dòng),就可以進(jìn)行表演進(jìn)行互動(dòng),就可以產(chǎn)生內容的這種場(chǎng)景。而且可以更好的替代真人的形象,讓大家能產(chǎn)生親和力,生成的內容也更加豐富度多樣化。
隨著(zhù)我們給AI 的賦能變得越來(lái)越多,它也會(huì )被應用到金融、醫療等更多的領(lǐng)域,但也賴(lài)于我們 AI 技術(shù)的一個(gè)成熟的發(fā)展的一個(gè)過(guò)程。我們相信隨著(zhù)數字人越來(lái)越多,大家為數字人創(chuàng )造的數據庫、數據資產(chǎn)越來(lái)越多,我們AI 的進(jìn)步也會(huì )很快的。我相信在更多產(chǎn)業(yè)的應用到來(lái),也不會(huì )太久。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。