昆侖萬(wàn)維發(fā)布SkyReels-A3模型
中證報中證網(wǎng)訊(王珞)8月11日,昆侖萬(wàn)維(300418)正式發(fā)布SkyReels-A3模型。該模型基于“DiT(Diffusion Transformer)視頻擴散模型+插幀模型進(jìn)行視頻延展+基于強化學(xué)習的動(dòng)作優(yōu)化+運鏡可控”,能實(shí)現任意時(shí)長(cháng)的全模態(tài)音頻驅動(dòng)數字人創(chuàng )作。
據公司介紹,作為音頻驅動(dòng)(audio-driven)人像視頻生成模型,SkyReels-A3就像給任意照片或視頻裝上“AI聲帶”,能夠實(shí)現讓一張照片“活”起來(lái)、創(chuàng )作一段新的視頻、給現有視頻“改臺詞”。
同時(shí),公司基于對實(shí)際應用場(chǎng)景(如廣告、直播帶貨等)的分析,發(fā)現這些場(chǎng)景不僅需要更長(cháng)的一致性視頻,在特定交互動(dòng)作上的自然度和清晰度也有待加強,因此構造了針對線(xiàn)上直播等場(chǎng)景的數據,對于此類(lèi)場(chǎng)景中的視頻生成進(jìn)行了特定優(yōu)化。
為了讓鏡頭語(yǔ)言更加靈動(dòng),昆侖萬(wàn)維構造了一種基于ControlNet結構的鏡頭控制模塊,通過(guò)精細化鏡頭參數的輸入,實(shí)現幀級別精準運鏡控制。具體來(lái)說(shuō),鏡頭控制模塊提取參考圖的深度信息,配合相機參數,渲染目標運鏡軌跡的參考視頻,該參考視頻隨后作為顯式運動(dòng)先驗,引導模型逐幀復現精準的運鏡效果,生成帶有運鏡效果的數字人視頻。當前預設了8種常見(jiàn)的運鏡參數,用戶(hù)可以根據需要選擇相應運鏡,并且每個(gè)運鏡的強度可0-100%連續調節,滿(mǎn)足不同需求,生成專(zhuān)業(yè)的運鏡效果。
昆侖萬(wàn)維表示,SkyReels-A3正在把“讓影像隨聲而動(dòng)”這件事變成人人可上手操作的工具,不需要專(zhuān)業(yè)影棚、不需要昂貴設備,只要一段聲音和一張照片,人人都能創(chuàng )造無(wú)限時(shí)長(cháng)、無(wú)限可能的數字內容。
讓靜態(tài)照片開(kāi)口說(shuō)話(huà)、讓現有視頻改詞不換臉、讓數字人直播永不掉幀,SkyReels-A3為電影制作、虛擬直播、游戲開(kāi)發(fā)與教育內容創(chuàng )作溝通提供了低門(mén)檻、低成本、高保真的AI技術(shù)制作方案,讓個(gè)性化、交互式內容的創(chuàng )作前所未有的高效與便捷。
0人