买球·(中国)APP官方网站但也不错以此为基础进行视频任务的拓展-买球·(中国)APP官方网站
发布日期:2024-06-08 06:35 点击次数:151
(原标题:中国版Sora来了!清华打造!背后创业公司已融资数亿元)买球·(中国)APP官方网站
时隔两个月,清华团队打造了一个中国版的Sora视频大模子。
4月27日,在中关村论坛将来东谈主工智能时尚论坛上,中国首个永劫长、高一致性、高动态性视频大模子Vidu认真发布。这一模子由清华大学和大模子创业公司生数科技长入发布,不错一键生成长度达16秒、区分率为1080P的高清视频试验。
证券时报记者独家获悉,清华大学东谈主工智能磋磨院副院长、生数科技首席科学家朱军在Vidu发布后发声暗意:“Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚捏,在实验室架构上着花限度。”据先容,这亦然自OpenAI发布Sora以后,众人领先得回要紧轻视的视频大模子。
Sora发布后,行业内一直有团队声称要追逐和复现Sora,而Vidu团队用两个月的时刻领先跑出来。记者梳剃头现,生数科技在多模态大模子范围还是有较深的累积,亦然当今多模态大模子赛谈估值最高的初创公司之一。当今公司已完成三轮融资,融资额达数亿元东谈主民币,投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等一众机构。
对标Sora,生成视频连贯高清
“画室里的一艘船驶向镜头”,只需要输入这么一句浅近的提醒,即不错生成限度传神、镜头连贯的一段视频。在生数科技发布的Vidu模子生成视频样片中,视频的合座质感真实可与Sora相比好意思。
据生数科技先容,Vidu模子经受团队原创的Diffusion与Transformer交融的架构U-ViT,撑捏一键生成长达16秒、区分率高达1080P的高清视频试验。“U-ViT架构早在2022年9月就由团队建议,早于Sora经受的DiT架构,是众人首个Diffusion与Transformer交融的架构。”生数科技暗意。
记者驻扎到,本年3月生数科技完成新一轮融资后,公司就公开暗意,天然Sora的出现标明好意思国在多模态大模子范围具有卓绝性,“但中国也并非透澈从零启动的阶段”。据先容,朱军在2023年1月就建议了基于Transformer的多模态扩散大模子UniDiffuser,经受了U-ViT,该架构与Sora的架构路子透澈一致,区别在于UniDiffuser主要诳骗于图像生成任务,但也不错以此为基础进行视频任务的拓展。
恰是基于在机器学习和多模态大模子的恒久累积,团队身手够在短短的两个月时刻里轻视了长视频暗意与处置的多项舛误本领,班师研发推出Vidu视频大模子。朱军在Vidu模子发布现场暗意,Vidu主要有以下方面的特色与上风:
一是模拟真确物理宇宙,不错生成复杂、细节丰富的场景,光影限度与东谈主物颜料齐粗略合适真确的物理法例。
二是宽裕念念象力,不错造谣场景以及念念象超现实概念的画面。
三是具有多镜头讲话,不再局限于固定镜头,粗略在罢黜主体一致性的情况下终了出路、近景、中景、特写等不同镜头的动态切换,还不错终了长镜头、追焦等限度。
四是有出色的视频时长,能撑捏16秒长度的视频生成,保捏镜头和主体的连贯一致。
五是能会通中国元素,不错更好地会通生成熊猫、龙等宽裕中国文化特色的形象。
Vidu生成的龙、熊猫等中国文化元素视频
背后团队来自清华,已融资数亿元
Vidu的背后,是一家来自清华的明星创业公司生数科技。
公开贵寓表示,生数科技成立于2023年3月,中枢成员来自清华大学东谈主工智能磋磨院,费力于于自主研发宇宙卓绝的可控多模态通用大模子。公司的CEO本硕就读于清华大学盘算机系的唐家渝,首席科学家由清华东谈主工智能磋磨院副院长朱军担任,CTO鲍凡则是清华大学盘算机系博士生、朱军教导的课题构成员,恒久关心扩散模子范围磋磨。
记者驻扎到,本年3月,唐家渝曾在疏导会上向媒体暗意,本年内公司的大模子一定能达到Sora当今版块的限度,“但很难说是三个月如故半年”。有关词,Vidu却提前交出了一份令东谈主惊艳的考卷,这主要成绩于团队是国内最早布局多模态大模子的团队之一,多年以来在这一范围酿成了深厚的累积。
据唐家渝先容,生数科技当今遴选模子层和诳骗层两条路步辇儿的模式。一方面,构建掩饰文本、图像、视频、3D 模子等多模态才略的底层通用大模子,面向B端提供模子处事才略;另一方面,面向图像生成、视频生成等场景打造垂类诳骗,按照订阅等花式收费,诳骗地方主淌若游戏制作、影视后期等试验创作场景。
记者梳剃头现,生数科技自成立以来就备受成本关心。天眼查数据表示,生数科技当今共完成3轮融资。2023年6月,完成近亿元东谈主民币天神轮融资,投资方包括蚂辘集团、BV百度风投、卓源亚洲、卓源成本;2023年8月,完成数千万东谈主民币天神+轮融资,投资方为锦秋基金;2024年3月,完成数亿元东谈主民币A轮融资,投资方除了启明创投、达泰成本、智谱AI等新机构之外,还有BV百度风投、卓源亚洲两个老激动。
在三轮融资臆想数亿元东谈主民币的成本加捏下,生数科技已成为当今国内多模态大模子中估值最高的初创公司之一。生数科技暗意,Vidu的问世不仅是U-ViT交融架构在大范围视觉任务中的又一次班师考据,也代表了生数科技在多模态原生大模子范围的捏续革命才略和卓绝性。
责编:朱雨蒙
校对:冉燕青