近日,在2024中关村论坛——未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。
首个国产视频大模型Vidu是怎么诞生的?它是我国完全自主研发的吗?Vidu目前具有哪些能力?对标Sora实力如何?记者采访了Vidu的研发团队和AI领域的专家进行一一探讨。
中国首个国产自研
视频大模型Vidu发布
这就是由Vidu生成的高清视频,在中关村论坛上,清华大学教授、生数科技首席科学家朱军进行了现场展示。他介绍,
Vidu支持一键生成长达16秒、分辨率高达1080P的高清视频内容,不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
清华大学教授、生数科技首席科学家 朱军:比如说我们看这个车开过去的时候它会扬起灰尘,以及像有阳光不同时间段的话,它的光影的效果等等这些,实际上是做到比较逼真的。还有另外一个特点,就是它可以理解这种多镜头的运用的一些语言,比如说远、中、近等等这种不同的镜头,还有包括像聚焦、追光等等这些效果,甚至包括一些虚幻的效果。比如,可以创造出来一个,你在画室里面一艘巨轮乘风破浪,然后驶向镜头,它是完全生成出来的。
此外,Vidu还能理解中国元素并生成视频,例如熊猫、龙等。它与Sora一样,都抓住了视频生成的精髓——对现实世界物理规律的模拟,并且从文本到视频的转换都是直接而连续的。
全自主纯国产
Vidu是否够硬核?
Vidu的快速突破源自团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果,完全由团队自主研发。
朱军告诉记者,今年1月,Vidu团队已实现4秒视频的生成。在Sora发布之前,业内大多专注的是已有视频质量如何再提升,Sora的发布极大地刺激了朱军和他的团队。
在此次中关村论坛上,Vidu对外展示的是16秒的阶段性成果,虽然与Sora对外发布的可一键生成1分钟视频时长有差距,但朱军告诉记者,过去两个月,他们的技术路线已经走通,Vidu正以更快的速度迭代。
目前团队已经正式推出“Vidu大模型合作伙伴计划”,也希望国内有更多拥有高质量数据的合作方加入,共建合作生态链。未来一起为国内用户提供更优质的本土化生成内容。
德国工程院院士、中国工程院外籍院士、德国汉堡大学多模态智能系统技术研究所所长 张建伟:在Sora之后,这支团队在这种关键的时候,在这么短的时间里头就能打造出这么明亮的产品,做出了可以说跟国际上平行的一些结果,非常令人鼓舞。更令人鼓舞的是自己研发的算法,这些人才的积累,这个是最珍贵的财富,而不是这个产品本身。
了解Vidu背后的研发团队
走进生数科技,一个个青春的身影正在忙碌着。首席执行官唐家渝,毕业于清华大学,曾是清华大学计算机系自然语言处理与社会人文计算实验室成员。他告诉记者,这家80多人的企业是清华大学人工智能研究院去年3月才孵化出的创业公司。
这家年轻的公司,从公司名字、会议室命名到企业文化墙,再到首个产品发布,每个细微之处都花了心思。唐家渝说,AI行业竞争激烈,Vidu做出阶段性成果后,更要全力加速跑。
生数科技首席执行官 唐家渝:AI市场上的竞争是非常激烈的。我们最开始的算法底层是走在国际前列的,人家拿出了一个更早的、更好的面向公众的结果。其实对于我们来说,是把压力变成了激励。我们不断往前走,希望做出一个持续领先世界的效果出来。
人工智能距离人类愿景还有多远?
清华大学教授、生数科技首席科学家 朱军:目前来说的话,我们会邀请一部分的机构来去试用,可能会给我们提供很多有价值的反馈,比如像从场景到本身模型的不断提升的闭环,能够去让它去变得更好。当满足一定条件的时候,我们肯定是第一时间会开放给大家用。在这个过程中,比如它的可控、安全、可解释等方面,我们国家其实也是发展与治理并重,我们其实是两手在抓。
德国工程院院士、中国工程院外籍院士、德国汉堡大学多模态智能系统技术研究所所长 张建伟:真正解决我们物理世界的痛点,能够伺候我们的父母,能够在这种脏乱差的环境里头干我们人不愿意干的活,这种多模态的智能就需要进一步研发,所以下一个风口我说叫多模态的具身智能。
版权和免责申明
凡注有"浙江在线"或电头为"浙江在线"的稿件,均为浙江在线独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"浙江在线",并保留"浙江在线"的电头。