小冰打工10年了,小愛打工5年,虛擬數(shù)字人他們都有光明的未來?
顯然不是所有虛擬數(shù)字人都像小冰、小愛那樣熱愛工作,即便元宇宙概念持續(xù)走熱,作為人類未來在元宇宙世界的虛擬分身,愛屋及烏,虛擬人產(chǎn)業(yè)也受到廣泛關(guān)注,并且在現(xiàn)實生活中呈現(xiàn)出商業(yè)、文化等領(lǐng)域的持續(xù)拓展。應(yīng)用場景從虛擬KOL、虛擬偶像,到虛擬直播間主播、基礎(chǔ)服務(wù)虛擬人,變現(xiàn)路徑從傳統(tǒng)的演唱會、唱片、廣告代言,到直播打賞、直播帶貨,商業(yè)變現(xiàn)模式逐漸多元化。但是除了前面提到的小冰、小愛等少數(shù)幾位數(shù)字虛擬人成為一名勤勤懇懇的打工人,其他即便是柳夜熙也是三天打魚兩天曬網(wǎng), 那么虛擬數(shù)字人是打工人還是搞笑人?
01 虛擬數(shù)字人來了
最早的虛擬人出現(xiàn)于20世紀(jì)80年代,1982年,世界上第一個虛擬偶像歌姬林明美誕生,而在兩年后(1984)的英國,又誕生了世界首位參演電影的虛擬人——Max Headroom,不過此時虛擬人仍處在萌芽時期,其實現(xiàn)手段仍以手繪為主;而進(jìn)入21世紀(jì)后虛擬人進(jìn)入了新的探索時期,CG、動作捕捉等計算機(jī)技術(shù)取代手繪成為虛擬人技術(shù)的新寵,最成功的案例便是2001年的《指環(huán)王》中通過CG動作捕捉而塑造出的咕嚕一角。
而2015年之后,虛擬人則發(fā)展到了初級階段,終于可以嘗試出入各種場合了,譬如2018年新華社與搜狗合作打造的虛擬主持人(以主持人邱浩為原型打造),再比如某房企拿下了最佳新人獎的虛擬員工等……而在這一時期,AI深度學(xué)習(xí)算法成為了虛擬人制造的關(guān)鍵技術(shù),那么當(dāng)下的虛擬數(shù)字人究竟是怎么誕生的呢?
虛擬人的制作流程涵蓋了諸多技術(shù),制作方式仍在逐步進(jìn)化中,存在某些步驟互相融合的趨勢,但尚沒有完全定型的整套解決流程。虛擬人制作流程中最為核心、最具挑戰(zhàn)的是建模、驅(qū)動、渲染三大流程。
先說建模,目前的建模方式主要可以分為三種:第一種是手工建模,這是最初的建模手段,目前仍廣泛應(yīng)用,但人工制作周期較長。第二種是圖像采集模型,通過幾張照片還原人臉 3D 結(jié)構(gòu),但其精度仍不足以建立高質(zhì)量模型。第三種是儀器采集模型,是目前發(fā)展的重點,其精度可達(dá) 0.1 毫米,但目前成本較高。
再說驅(qū)動,虛擬人驅(qū)動部分按照基本邏輯可拆分為面部動作和肢體動作部分。面部動作部分最具挑戰(zhàn)的是嘴部動作,其基本邏輯為:以文本為起點,制作相關(guān)語音與動畫,并通過大量模型訓(xùn)練,最終達(dá)到任意文本可驅(qū)動的模型。具體驅(qū)動方式有視頻算法訓(xùn)練,即使用大量與文本綁定的語音嘴型視頻進(jìn)行機(jī)器訓(xùn)練;接著將語音與動作相綁定,從而達(dá)成文本輸入到特定動作的實現(xiàn);最后通過相關(guān)設(shè)備采集點,將真人的面部動作還原到模型當(dāng)中。而肢體動作目前主要的生成方式則是動作捕捉,具體實現(xiàn)方式是光學(xué)式、慣性式、電磁式及基于計算機(jī)視覺的動作捕捉。
最后便是渲染,渲染指對三維物體或虛擬場景加入幾何、視點、紋理、照明和陰影等信息從而達(dá)成從模型到圖像的轉(zhuǎn)變,渲染決定了最終作品的質(zhì)量與風(fēng)格。渲染技術(shù)的升級是綜合實力的體現(xiàn),每一次技術(shù)提升對數(shù)字人皮膚紋理、3D 效果、質(zhì)感和細(xì)節(jié)等方面提升巨大。
目前渲染技術(shù)分為兩類,離線渲染技術(shù)(預(yù)渲染技術(shù))和實時渲染技術(shù),其本質(zhì)區(qū)別是在目前發(fā)展?fàn)顩r各項局限下,對時效性和圖形質(zhì)量間的取舍。離線渲染技術(shù)不關(guān)心完成速度,這類渲染技術(shù)主要應(yīng)用于影視動畫等方面,其對真實度、精細(xì)度有較高要求,可使用更多的計算資源。
實時渲染技術(shù)重點關(guān)注交互性與時效性,適用于用戶交互頻繁的場景,如游戲、虛擬客服、虛擬主播等,此類場景要求快速創(chuàng)建圖像。目前圖形生產(chǎn)硬件和可用信息的預(yù)編譯等提高了實時渲染的性能,但其質(zhì)量仍然受限于渲染時長以及計算資源。隨著硬件與算法的提升,實時渲染技術(shù)已具備較強(qiáng)的綜合表現(xiàn)實力,預(yù)計將逐步普及。
02 努力成為一位合格的打工人
目前上至騰訊、阿里等巨頭科技公司,下至抖音中的電商直播間,似乎人人都想讓虛擬數(shù)字人成為光榮的勞動者……
虛擬偶像是虛擬數(shù)字人的重要類別,也是主要的變現(xiàn)方式之一。1982 年,以手繪技術(shù)作支撐的世界第一位虛擬歌姬林明美誕生,虛擬人首次被引入現(xiàn)實世界,其發(fā)布的音樂專輯取得驕人的成績,證明了虛擬人利用高質(zhì)量內(nèi)容變現(xiàn)的商業(yè)模式的可行性。隨后職業(yè)偶像始終作為虛擬偶像發(fā)展主流,海外及中國均不斷推出歌唱類或唱跳類虛擬偶像,包括以初音未來為代表的日本虛擬歌姬,和以洛天依為代表的中國虛擬偶像,走出了較為成功的商業(yè)變現(xiàn)之路。2016年以后,虛擬角色興起,虛擬主播、虛擬 KOL、虛擬品牌形象頻頻出世,在直播、電商、品牌營銷等細(xì)分場景參演。
而虛擬主播則是虛擬數(shù)字人另一重要類別。早在 2004 年,央視電影頻道就推出了第一位虛擬主持人小龍,但由于當(dāng)時國內(nèi)虛擬人技術(shù)不成熟,小龍的智能水平低,只是曇花一現(xiàn)。如今虛擬新聞主播和虛擬主持人已經(jīng)走向高擬人化和高智能化,在其 AI 系統(tǒng)支持下,不僅能通過文本輸入實現(xiàn)聲音加畫面的同步輸出,大大提高內(nèi)容產(chǎn)出效率和準(zhǔn)確性,而且形象超寫實,可根據(jù)不同場景選擇姿態(tài)、動作、服裝等,甚至在實時渲染技術(shù)加持下虛擬主持人能參與進(jìn)節(jié)目錄制或直播中,完成實時互動:2019 年小小撒亮相央視春晚直播,與撒貝寧互動。
但是放大到整個行業(yè)從整個虛擬人的制作流程來看,目前的制作方式自動化程度低,尤其是 3D 虛擬人需要大量的人工參與,AI、算法的開發(fā)和建模數(shù)據(jù)積累還需要時間,尚難以實現(xiàn)高效率地生產(chǎn)高質(zhì)量虛擬人。因此從制作成本上看,一個標(biāo)準(zhǔn)化的功能型虛擬人項目(客服、導(dǎo)游等)基本需要投入十幾萬到幾十萬不等的成本,具體數(shù)額取決于建模精細(xì)度、渲染實時性、交互深度等技術(shù)細(xì)節(jié)。而虛擬偶像、虛擬 KOL等制作成本則要更高,例如 “鄧麗君”虛擬人、柳夜熙等,成本高達(dá)上百萬,如要在舞臺現(xiàn)場表演呈現(xiàn)更好的效果,則成本更高,可以說當(dāng)前虛擬數(shù)字人要的工資又高又不能干活,還不是一個合格的打工人。