2024-08-12 20:47:44來(lái)源:今日熱點(diǎn)網(wǎng)
近日,智象未來(lái)(HiDream.ai)智象大模型2.0在文生視頻領(lǐng)域取得了重大突破,將視頻生成時(shí)長(zhǎng)從去年的15秒提升至分鐘級(jí)別,這是繼去年12月打破4秒時(shí)長(zhǎng)限制后的又一技術(shù)飛躍。
智象未來(lái)(HiDream.ai)智象大模型2.0的文生視頻功能在時(shí)長(zhǎng)、畫(huà)面自然度、內(nèi)容和角色一致性方面均有顯著提升,這得益于其自研的DiT架構(gòu)。與傳統(tǒng)U-Net架構(gòu)相比,DiT架構(gòu)具有更高的靈活度,能夠有效提升圖像和視頻的生成質(zhì)量。眾所周知,DiT 架構(gòu)的基礎(chǔ)實(shí)現(xiàn)依賴于 Transformer 技術(shù)。為了進(jìn)一步提升這一技術(shù)的性能,智象未來(lái)(HiDream.ai)智象大模型 2.0 對(duì)整個(gè)Transformer網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)的構(gòu)成和訓(xùn)練策略上采用完全自研的模塊,特別是在訓(xùn)練策略方面進(jìn)行了深度研究和改進(jìn)。
該模型采用了高效的時(shí)空聯(lián)合注意力機(jī)制,不僅適應(yīng)了視頻的空間域和時(shí)間域特征,還解決了傳統(tǒng)注意力機(jī)制在訓(xùn)練過(guò)程中的速度問(wèn)題。為了支持更長(zhǎng)視頻片段的訓(xùn)練,智象未來(lái)(HiDream.ai)智象大模型2.0能夠處理幾分鐘甚至十幾分鐘的視頻片段,使得直接輸出分鐘級(jí)時(shí)長(zhǎng)的視頻成為可能。同時(shí),智象未來(lái)(HiDream.ai)還自研了視頻描述生成的Captioning Model,實(shí)現(xiàn)了對(duì)視頻內(nèi)容的詳細(xì)且精準(zhǔn)描述。
在訓(xùn)練策略上,智象未來(lái)(HiDream.ai)智象大模型2.0利用不同長(zhǎng)度的視頻片段進(jìn)行視頻和圖片數(shù)據(jù)的聯(lián)合訓(xùn)練,并動(dòng)態(tài)調(diào)整不同長(zhǎng)度視頻的采樣率,以完成長(zhǎng)鏡頭訓(xùn)練。此外,模型還根據(jù)用戶反饋數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),進(jìn)一步優(yōu)化性能。
從原來(lái)的15秒左右延長(zhǎng)至分鐘級(jí)別,智象未來(lái)(HiDream.ai)的智象大模型2.0現(xiàn)已實(shí)現(xiàn)視頻生成時(shí)長(zhǎng)的顯著提升,達(dá)到了行業(yè)領(lǐng)先水平。除了視頻時(shí)長(zhǎng)進(jìn)入分鐘級(jí)別這一重大進(jìn)步外,此次升級(jí)的另一個(gè)亮點(diǎn)是視頻時(shí)長(zhǎng)和尺寸的可變性。以往的視頻生成模型通常是預(yù)設(shè)固定時(shí)長(zhǎng),用戶無(wú)法進(jìn)行選擇。而智象未來(lái)(HiDream.ai)則將選擇權(quán)交給了用戶,用戶既可以直接指定視頻時(shí)長(zhǎng),也可以根據(jù)輸入的Prompt內(nèi)容,讓系統(tǒng)動(dòng)態(tài)判斷。內(nèi)容復(fù)雜時(shí),系統(tǒng)會(huì)生成較長(zhǎng)視頻;內(nèi)容簡(jiǎn)單時(shí),則生成較短視頻,以這種動(dòng)態(tài)調(diào)整的方式,自適應(yīng)地滿足用戶的創(chuàng)作需求。同時(shí),視頻的尺寸也可根據(jù)用戶需求進(jìn)行定制,這一靈活的設(shè)計(jì)大幅提升了用戶體驗(yàn)。
值得一提的是,智象未來(lái)(HiDream.ai)的智象大模型2.0在視頻畫(huà)面觀感上也有了顯著的提升,物體動(dòng)作表現(xiàn)得更加自然流暢,細(xì)節(jié)渲染更為精細(xì),并且支持了4K超清畫(huà)質(zhì)。隨著這次技術(shù)升級(jí),智象未來(lái)(HiDream.ai)智象大模型2.0正朝著生成更高質(zhì)量的多鏡頭視頻方向快速發(fā)展,并向L3階段加速前進(jìn)。據(jù)了解,升級(jí)后的文生視頻功能即將投入使用,屆時(shí)用戶將能夠體驗(yàn)到更加豐富和高質(zhì)量的視頻生成服務(wù)。
業(yè)內(nèi)人士表示,隨著智象未來(lái)(HiDream.ai)智象大模型2.0的不斷完善和升級(jí),其有望為視頻內(nèi)容創(chuàng)作領(lǐng)域帶來(lái)更多革命性的變化,助力廣大用戶輕松實(shí)現(xiàn)創(chuàng)意變現(xiàn),推動(dòng)整個(gè)行業(yè)邁向更加廣闊的發(fā)展空間。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。
責(zé)任編輯:標(biāo)簽:
近日,智象未來(lái)(HiDream ai)智象大模型2 0在文生視頻領(lǐng)域取得了重
教育的舞臺(tái)上,知識(shí)的傳遞需要精準(zhǔn)與高效。訊飛聽(tīng)見(jiàn)以其獨(dú)特的實(shí)時(shí)
近日,淄博博山萬(wàn)達(dá)美華酒店在萬(wàn)眾期待中活力啟航,成為山東省第四
近日,塔什庫(kù)爾干帕米爾萬(wàn)達(dá)美華酒店在眾人的期盼中活力啟航!這家
世界氣候變化與國(guó)際環(huán)保政策,助推世界新能源賽道熱度持續(xù)攀升。為