本站5月28日消息,騰訊混元發布語音數字人模型HunyuanVideo-Avatar。僅需一張圖和一段音頻,就能讓圖中的主角自然的說話、唱歌。
據悉,HunyuanVideo-Avatar由騰訊混元視頻大模型及騰訊音樂天琴實驗室MuseV技術聯合研發。
該模型支持頭肩、半身與全身景別,以及多風格、多物種與雙人場景,面向視頻創作者提供高一致性、高動態性的視頻生成能力。
用戶上傳人物圖像與音頻,HunyuanVideo-Avatar模型就會自動理解圖片與音頻。讓圖中人物自然地說話或唱歌,生成包含自然表情、唇形同步及全身動作的視頻。
當用戶輸入一張拿著吉他的坐在沙灘的女性圖片和一段抒情音樂。
模型會自行理解“她在海邊彈吉他,唱著非常抒情的歌曲”,并生成一段圖中人物在彈唱的視頻。
目前,HunyuanVideo-Avatar適用于短視頻創作、電商與廣告等多種應用場景。
可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產品介紹視頻或多人互動廣告,降低制作成本。
據介紹,HunyuanVideo-Avatar的單主體能力已經開源,并在騰訊混元官網上線,目前支持上傳不超過14秒的音頻進行視頻生成,后續將逐步上線和開源其他能力。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。