當(dāng)直播時(shí)長(zhǎng)逼近6個(gè)小時(shí)、大多數(shù)電商主播顯露疲態(tài)時(shí),百度直播間里的主播“羅永浩”和搭檔“朱蕭木”仍然可以情緒飽滿地回答觀眾提問(wèn),時(shí)不時(shí)還能講兩句“段子”,吸引觀眾下單。這兩位主播并非真人,而是百度借助劇本驅(qū)動(dòng)多模協(xié)同數(shù)字人技術(shù)打造的數(shù)字人主播。
在2025年世界互聯(lián)網(wǎng)大會(huì)烏鎮(zhèn)峰會(huì)上,由百度自主研發(fā)的劇本驅(qū)動(dòng)多模協(xié)同的高擬真數(shù)字人技術(shù)獲得世界互聯(lián)網(wǎng)大會(huì)領(lǐng)先科技獎(jiǎng)。
隨著人工智能技術(shù)快速發(fā)展,大模型向多模態(tài)加速演進(jìn),數(shù)字人成為融合大語(yǔ)言模型與多模態(tài)技術(shù)的創(chuàng)新應(yīng)用,電商直播是數(shù)字人落地的極佳場(chǎng)景。數(shù)字人技術(shù)使商家無(wú)需投入大量人力、物力進(jìn)行現(xiàn)場(chǎng)直播,能顯著降低場(chǎng)地租賃、設(shè)備采購(gòu)、人員培訓(xùn)等費(fèi)用。同時(shí),數(shù)字人可以24小時(shí)不間斷直播,進(jìn)一步增加商品曝光時(shí)間和銷(xiāo)售機(jī)會(huì),提升經(jīng)濟(jì)效益。
但傳統(tǒng)數(shù)字人生成技術(shù)常面臨語(yǔ)音、語(yǔ)言、視覺(jué)多模態(tài)割裂的問(wèn)題,表現(xiàn)為臺(tái)詞生硬、語(yǔ)音語(yǔ)調(diào)與臺(tái)詞情感匹配不佳、表情手勢(shì)單一等。百度首席技術(shù)官王海峰說(shuō),針對(duì)數(shù)字人應(yīng)用痛點(diǎn),百度創(chuàng)新研發(fā)了劇本驅(qū)動(dòng)多模協(xié)同的高擬真數(shù)字人技術(shù)。
劇本的基礎(chǔ)是臺(tái)詞。臺(tái)詞生成不僅是內(nèi)容輸出,還要貼合主播人設(shè)與語(yǔ)言風(fēng)格,確保語(yǔ)言表達(dá)的個(gè)性化與一致性;在多主播場(chǎng)景中,還需實(shí)現(xiàn)語(yǔ)義邏輯、語(yǔ)調(diào)節(jié)奏和情感風(fēng)格的整體協(xié)調(diào)。同時(shí),為提升臺(tái)詞的內(nèi)容深度,還要引入內(nèi)容規(guī)劃、知識(shí)增強(qiáng)與事實(shí)校驗(yàn)機(jī)制,以降低人工智能幻覺(jué)風(fēng)險(xiǎn)?;谂_(tái)詞,大模型可以直接生成一份數(shù)字人直播劇本。劇本自帶“視覺(jué)標(biāo)簽”和“語(yǔ)音標(biāo)簽”,它能夠告訴系統(tǒng),對(duì)應(yīng)臺(tái)詞人物要做出哪些動(dòng)作。
互動(dòng)性強(qiáng)是電商直播場(chǎng)景的一大特點(diǎn)。在與觀眾互動(dòng)過(guò)程中,語(yǔ)音合成的自然度是決定用戶(hù)沉浸感的關(guān)鍵因素。觀眾希望聽(tīng)到主播有情緒、有起伏的聲音,而不是生硬機(jī)械的朗讀。王海峰介紹,針對(duì)這一需求,百度提出了“文本自控的語(yǔ)音合成”方案。文本自控的語(yǔ)音合成大模型不僅具備高復(fù)原的語(yǔ)音合成能力,還能夠結(jié)合直播臺(tái)詞及主播個(gè)人特征,把這些文本內(nèi)容轉(zhuǎn)化為自然、有感染力的聲音,讓數(shù)字人不僅能發(fā)出聲音,更能精準(zhǔn)傳遞出調(diào)侃、得意、強(qiáng)調(diào)等細(xì)微情緒。
除了要和用戶(hù)交互,數(shù)字人主播在直播時(shí)還要與商品和所在空間進(jìn)行符合物理邏輯的互動(dòng)。如何做到這一點(diǎn)?高一致性超擬真數(shù)字人長(zhǎng)視頻生成技術(shù),能對(duì)輸入的歷史視頻數(shù)據(jù)、劇本腳本、語(yǔ)音信息以及骨骼驅(qū)動(dòng)等多模態(tài)信號(hào)進(jìn)行分析與理解,并基于此分別生成高表現(xiàn)力片段、復(fù)雜“人—物—場(chǎng)”交互片段以及大動(dòng)作大表情片段。系統(tǒng)能夠?qū)@些片段在較長(zhǎng)時(shí)間跨度上進(jìn)行統(tǒng)一調(diào)度,確保語(yǔ)音、口型、表情與動(dòng)作始終保持高度一致且同步。
如今,數(shù)字人正逐漸從實(shí)驗(yàn)室走向各類(lèi)應(yīng)用場(chǎng)景,商業(yè)化進(jìn)程顯著加快??梢灶A(yù)見(jiàn),隨著深度思考、多模態(tài)交互等關(guān)鍵能力的躍升,還將有越來(lái)越多數(shù)字人出現(xiàn)在屏幕上,走進(jìn)人們的生活中。同時(shí),業(yè)內(nèi)專(zhuān)家提醒,《直播電商監(jiān)督管理辦法(征求意見(jiàn)稿)》提出,使用人工智能等技術(shù)生成的人物圖像、視頻從事直播營(yíng)銷(xiāo)活動(dòng)的,直播間運(yùn)營(yíng)者應(yīng)當(dāng)在直播頁(yè)面進(jìn)行顯著標(biāo)識(shí),持續(xù)向消費(fèi)者提示該人物圖像、視頻屬于人工智能等技術(shù)生成,以與自然人名義或者形象進(jìn)行明顯區(qū)分。
中國(guó)科學(xué)院信息工程研究所正高級(jí)工程師韓冀中說(shuō),人們?cè)趽肀?shù)字人技術(shù)的同時(shí),也需設(shè)立清晰的邊界,必須防止利用高擬真技術(shù)以假亂真進(jìn)行欺詐或虛假宣傳。技術(shù)的發(fā)展必須與法律、倫理的約束并行,確保創(chuàng)新在正確的軌道上行穩(wěn)致遠(yuǎn)。(科技日?qǐng)?bào)記者 都 芃)
(責(zé)任編輯:蔡文斌)