Vidu是北京生數(shù)科技有限公司聯(lián)合清華大學(xué)發(fā)布的中國首個長時長、高一致性、高動態(tài)性視頻大模型,于2024年4月27日在中關(guān)村論壇未來人工智能先鋒論壇上發(fā)布,模型采用團隊原創(chuàng)的全球首個Diffusion與Transformer融合的架構(gòu)U-ViT。
2024年7月,Vidu面向全球上線,核心功能包括參考生視頻、圖生視頻、圖生視頻??缮?秒和8秒視頻,分辨率最高達(dá)1080P。上線百天用戶數(shù)即破千萬,2025年1月15日為止,是全球增速最快的AI視頻模型。
Vidu自上線以來就致力于解決“一致性”核心難題,Vidu1.5發(fā)布“多圖參考”功能,是全球首個發(fā)布“多主體一致性”的視頻模型。
Vidu的快速突破源自于團隊在貝葉斯機器學(xué)習(xí)和多模態(tài)大模型的長期積累和多項原創(chuàng)性成果。其核心技術(shù)U-ViT架構(gòu)由團隊于2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個Diffusion與Transformer融合的架構(gòu)。2023年3月,團隊開源了全球首個基于U-ViT融合架構(gòu)的多模態(tài)擴散模型UniDiffuser,率先完成了U-ViT架構(gòu)的大規(guī)??蓴U展性驗證。
2024年4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型——Vidu。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對標(biāo)國際頂尖水平,并在加速迭代提升中。
2024年6月6日,Vidu模型能力迭代更新,支持一鍵生成達(dá)32秒的視頻、支持音視頻生成、支持Vidu4D生成。
2024年7月30日,生數(shù)科技自研視頻大模型Vidu上線。
2024年9月11日,Vidu全球首發(fā)“主體參照”功能,一張照片實現(xiàn)主體可控。
2024年9月25日,Vidu正式開放API。
2024年11月13日,Vidu1.5上線,全球首發(fā)“多主體一致性”能力,標(biāo)志著視覺模型進(jìn)入全新的“上下文”時代。
2025年1月15日,Vidu2.0上線,推動視頻生成走向人人可用的奇點時刻。3月17日晚間,生數(shù)科技宣布,旗下視頻大模型產(chǎn)品Vidu正式與美國知名動漫制作工作室Aura Productions達(dá)成戰(zhàn)略合作。
參考生視頻:全球首個參考生視頻功能,讓創(chuàng)作的角色、物體、場景等始終保持一致
圖生視頻:基于任意圖片描述您想象的畫面,即刻動態(tài)呈現(xiàn),讓您的創(chuàng)意栩栩如生
文生視頻:用文字描述您想象的畫面,自由表達(dá)創(chuàng)意,即刻創(chuàng)作視頻
Vidu開放了參考生視頻、文生視頻、圖生視頻三大核心功能,提供4s和8s兩種時長選擇,分辨率最高達(dá)1080P。
Vidu在生成速度、一致性、動態(tài)性等方面具備領(lǐng)先優(yōu)勢,生成一段4秒視頻僅需10秒。
參考生視頻
通過上傳1-3張參考圖,Vidu 1.5可實現(xiàn)對單主體100%的精確控制,同時實現(xiàn)多主體交互控制、主體與場景融合控制,能夠無縫集成人物、道具和場景等元素。
動畫風(fēng)格
Vidu可以生成效果優(yōu)異的動畫視頻
錯峰模式
Vidu支持閑時免費生成視頻。