去年大火的數(shù)字人今年便宜了，成本從幾十萬(wàn)降到了幾千塊

2023-04-26 11:42:33 來(lái)源：經(jīng)濟(jì)觀察報(bào)

經(jīng)濟(jì)觀察網(wǎng)記者任曉寧“從成本的角度，前年還是百萬(wàn)元，去年是幾十萬(wàn)元，今年就是千元級(jí)別。”4月25日下午

經(jīng)濟(jì)觀察網(wǎng) 記者任曉寧

“從成本的角度，前年還是百萬(wàn)元，去年是幾十萬(wàn)元，今年就是千元級(jí)別。”4月25日下午，騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊告訴經(jīng)濟(jì)觀察網(wǎng)記者，今年以來(lái)，數(shù)字人成本有了明顯下降。

由于成本降低，周期、效率提升，數(shù)字人面向的受眾規(guī)模變大了。當(dāng)下雖然不再是去年年初那種，到處都在談?wù)摂?shù)字人的熱度，但經(jīng)過(guò)一年發(fā)展，數(shù)字人已經(jīng)落地到更多場(chǎng)景。用陳磊話說(shuō)，去年數(shù)字人還只是大企業(yè)或網(wǎng)紅專(zhuān)屬，現(xiàn)在基本上到了每個(gè)人都能有自己數(shù)字化分身的階段。

(相關(guān)資料圖)

應(yīng)用范圍擴(kuò)大

數(shù)字經(jīng)濟(jì)學(xué)者劉興亮4月25日發(fā)布了一條短視頻，他在鏡頭里侃侃而談了2分鐘，當(dāng)說(shuō)明視頻里的他其實(shí)是個(gè)“假人”時(shí)，評(píng)論區(qū)里的粉絲覺(jué)得真假難分。

2016年開(kāi)始制作短視頻后，劉興亮給自己定了個(gè)KPI，工作日至少發(fā)一條。之前，這個(gè)KPI會(huì)讓他感到壓力，偶爾出差或出去喝酒聚餐，就難以完成。現(xiàn)在有了數(shù)字人，真人不出鏡，也能很快制作出短視頻。

“過(guò)去錄一個(gè)視頻，需要攝像師、化妝師團(tuán)隊(duì)配合，即使是我這種‘老司機(jī)’，錄幾分鐘也至少需要花1個(gè)小時(shí)以上。有數(shù)字人之后可以省下很多時(shí)間。”劉興亮說(shuō)。

劉興亮最近還在學(xué)習(xí)AIGC技術(shù)，想用AI生成短視頻腳本。等到這一步也落地后，他說(shuō)，以后就真的能“躺賺”了。

除了劉興亮這種知識(shí)性博主外，電商主播、醫(yī)院醫(yī)師、B站UP主、投資顧問(wèn)、保險(xiǎn)銷(xiāo)售等，都是當(dāng)下數(shù)字人使用人群。

微媒數(shù)字會(huì)議CEO天狐在電商行業(yè)從業(yè)多年，他告訴記者，在直播電商行業(yè)，雖然當(dāng)下數(shù)字人占比并不大，但未來(lái)有可能替代掉線上70%-80%的帶貨主播。

陳磊告訴記者，騰訊數(shù)字人目前已經(jīng)落地了數(shù)十個(gè)行業(yè)，上百個(gè)具體業(yè)務(wù)場(chǎng)景，覆蓋金融、傳媒、教育、醫(yī)療等多個(gè)領(lǐng)域。

為什么能便宜

數(shù)字人今年普及度變高，主要原因在于價(jià)格便宜了，并且生產(chǎn)速度變快了。陳磊告訴記者，從效率的角度來(lái)看，以前做一個(gè)數(shù)字人是幾個(gè)月，去年是到周，今年在數(shù)字人工廠里面，做一些2D小樣本數(shù)字人已經(jīng)達(dá)到小時(shí)級(jí)，12小時(shí)就能夠出來(lái)一個(gè)demo，可以跟客戶確認(rèn)數(shù)字人做成什么樣。

目前騰訊2D小樣本數(shù)字人制作流程已經(jīng)實(shí)現(xiàn)工廠化。只需要一段3分鐘真人口播視頻、100句語(yǔ)音素材，就可獲得與真人形象、語(yǔ)音近似的數(shù)字人。

這些數(shù)字人的表情也更加豐富，它可以像一個(gè)真人演員一樣，表現(xiàn)出高興、生氣、悲傷、羞澀的情緒，也因此有了更大應(yīng)用范圍。

記者了解到，騰訊已經(jīng)成立了一座數(shù)字人生產(chǎn)工廠。之后制作數(shù)字人更簡(jiǎn)單，用戶自己開(kāi)賬號(hào)，上傳素材，下個(gè)訂單就能生成。

AI的助力也是數(shù)字人落地速度變快的原因。騰訊研究院高級(jí)研究員宋揚(yáng)比喻說(shuō)，建模仿真技術(shù)給了數(shù)字人好看的皮囊，AI技術(shù)則給了它有趣的靈魂。目前AI技術(shù)已經(jīng)覆蓋了數(shù)字人生產(chǎn)運(yùn)營(yíng)全流程。

騰訊優(yōu)圖實(shí)驗(yàn)室研究總監(jiān)汪鋮杰告訴記者，2D小樣本技術(shù)的背后是3D技術(shù)。“從‘文本/音頻’信息到‘3D人像驅(qū)動(dòng)’再到‘2D人像視頻’的模式，把3D人臉結(jié)構(gòu)的先驗(yàn)信息引入，使數(shù)智人口型、表情更到位，讓小樣本數(shù)智人形象實(shí)現(xiàn)‘皺紋級(jí)’還原。”

另一方面，小（樣本）的背后是大，即大規(guī)模數(shù)據(jù)訓(xùn)練。大模型可以將語(yǔ)音、文本與人像的表情、口型進(jìn)行關(guān)聯(lián)，3分鐘的訓(xùn)練視頻正是基于這個(gè)模型，學(xué)習(xí)了每個(gè)人個(gè)性化的發(fā)音和口型特征。