<匯港通訊> 百度(09888)應用模型研發部負責人賈磊今日表示,文心應用模型旨在實現從行業到專精的突破,賦能千行百業。在文心基礎大模型之下,構建了矩陣模型與專精模型兩大體系,同時也在各個行業持續推進專精模型的研發。
他主要介紹語音合成大模型技術及實時交互數字人技術這兩項核心技術及應用。其中,語音合成大模型基於聲音Token打造端到端合成系統,通過離散化處理滿幀語音Token,構建MOE大語言模型描述聲音韻律與情感,搭配Flow後處理模型及UNet自重構技術,實現文字直接生成Waveform音頻點。
針對數字人實時交互的成本高、反應慢等痛點,賈磊指出,文心創新打通語音、圖像、視頻的Token互通,實現三者共享Token、級聯運行。最終整合數字人動作庫與面部表情庫,生成低延遲、低成本、高表現力的實時數字人視頻流。
賈磊強調,文心應用模型的核心價值在於落地應用,通過技術優化讓大模型在真實場景中「跑得穩、答得對、用得起」,真正賦能千行百業。
#百度 #文心 #人工智能
(CW)
新聞來源 (不包括新聞圖片): 滙港資訊