主页 > 业界 > 文章正文
业界

人大卢志武:只要拿到更多算力 超过Sora也不是那么难的事

发布时间:2024-05-04 20:47:27
  5月4日,一支人大系大模型团队,前后与OpenAI进行了三次大撞车!

  第一次是与Clip,第二次是与GPT-4V,最新一次撞在了Sora上:

  去年5月,他们联合并联合伯克利、港大等单位于在arXiv上发表了关于VDT的论文。

  那时候,该团队就在在技术架构上提出并采用了Diffusion Transformer。并且,VDT还在模型中引入统一的时空掩码建模。

  这个团队,正由中国人民大学高瓴人工智能学院教授卢志武带队。

  Sora问世已经两个多月,现在这支国产团队在视频生成领域的进度怎么样了?什么时候我们能迎来国产Sora的惊艳时刻?

  在本次中国AIGC产业峰会上,卢志武对上述问题进行了毫无保留的分享。

人大卢志武:只要拿到更多算力 超过Sora也不是那么难的事

  为了完整体现卢志武的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

  中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。

  话题要点

  VDT使用Transformer作为基础模型,能更好地捕捉长期或不规则的时间依赖性;

  Scaling Law是视频生成模型从基于Diffusion model转向基于Transformer的重要原因;

  VDT采用时空分离的注意力机制,而Sora采用时空合一的注意力机制;

  VDT采用token concat方式,实现快速收敛和良好效果;

  消融实验发现,模型效果与训练消耗的计算资源正相关,计算资源越多,效果越好;

  只要拿到更多算力,超过Sora也不是那么难的事。

  ……

  以下为卢志武演讲全文:

  为什么做视频生成突然要转到用Transformer上?

  今天的报告,我将重点介绍我们在视频生成领域的工作,特别是VDT(Video Diffusion Transformer)。

  这项工作已于去年5月发布在arXiv上,并已被机器学习顶级会议ICLR接收。接下来,我将介绍我们在这一领域取得的进展。

  众所周知,Sora非常出色,那么它的优势在哪里呢?之前,所有的工作都是基于Diffusion Model,那为什么我们在视频生成中突然转向使用Transformer呢?

  从Diffusion到Transformer的转变,原因如下:

  与基于U-net的Diffusion模型不同,Transformer具有许多优点,如token化处理和注意力机制,这两个特点使其能够更好地捕捉长期或不规则的时间依赖性。因此,在视频领域,许多工作开始采用Transformer作为基础模型。

  然而,这些都是表面现象,最根本的原因是什么呢?使用Transformer进行视频生成,是因为其背后的scaling law发挥了作用。

  Diffusion Model的模型参数量是有限的,而一旦将Transformer作为基础模型,参数量可以随意增加,只要有足够的计算能力,就可以训练出更好的模型。实验证明,只要增加计算量,效果就会得到提升。

  当然,视频生成涉及各种任务,使用Transformer能够将这些任务统一在一个架构下。

  基于上面三个原因探索用Transformer当视频生成的底座,这是我们当时的考虑。

人大卢志武:只要拿到更多算力 超过Sora也不是那么难的事

我们的创新点有两个:

  一是将Transformer应用于视频生成,并结合了Diffusion的优点;二是在建模过程中,我们考虑了统一的时空掩码建模,将时间和空间置于同等重要的位置。

  无论是VDT还是Sora,第一步都是对视频进行压缩和token化处理。

  这与基于DM的方法最大的区别在于,基于DM的方法只能进行空间压缩,无法进行时间压缩;而现在,我们可以同时考虑时间和空间,实现更高的压缩程度。

  具体来说,我们需要训练一个时空空间中的3D量化重构器,这可以作为tokenizer,得到三维空间中的patches。

  总之,通过这种方式,我们可以得到Transformer的输入,输入实际上是3D的tokens。

  一旦我们将输入的视频进行token化处理,就可以像通常的Transformer一样,使用标准的Transformer架构对3D的token序列进行建模,细节我就不赘述了。

  VDT和Sora有什么差别?

  VDT模型中最重要的部分是时空的Transformer Block。

  我们与Sora有一点不同,当时设计这个Block时,我们将时空的Attention分开了。高校团队没有OpenAI那么多的计算资源,这样分开后,所需的计算资源会少很多——除此之外,其他所有设计都一模一样。

人大卢志武:只要拿到更多算力 超过Sora也不是那么难的事

  现在,让我们来看看我们与Sora的区别。

  刚才我说过,VDT采用了时空分离的注意力机制,空间和时间是分开的,这是在计算资源有限的情况下的折中方案。

  Sora采用的是时空统一的token化,注意力机制也是时空合一的,我们推测Sora强大的物理世界模拟能力主要来自于这个设计。

  至于输入条件不同,这不是VDT与Sora最大的区别,基本上图生视频能做好,文生视频也能做好。

  文生视频的难度较大,但并非无法克服,没有本质上的差别。

  接下来,我将介绍我们当时探索的一些事项。架构设计完成后,我们特别关注输入条件。这里有C代表的Condition Frame,以及F代表的Noisy Frame。

  这两种输入条件应该如何结合,我们探索了三种方式:

  通过Normalization的方式;