主页 > 业界 > 文章正文

业界

人大卢志武：只要拿到更多算力超过Sora也不是那么难的事

发布时间：2024-05-04 20:47:27

　　5月4日，一支人大系大模型团队，前后与OpenAI进行了三次大撞车！

　　第一次是与Clip，第二次是与GPT-4V，最新一次撞在了Sora上：

　　去年5月，他们联合并联合伯克利、港大等单位于在arXiv上发表了关于VDT的论文。

　　那时候，该团队就在在技术架构上提出并采用了Diffusion Transformer。并且，VDT还在模型中引入统一的时空掩码建模。

　　这个团队，正由中国人民大学高瓴人工智能学院教授卢志武带队。

　　Sora问世已经两个多月，现在这支国产团队在视频生成领域的进度怎么样了？什么时候我们能迎来国产Sora的惊艳时刻？

　　在本次中国AIGC产业峰会上，卢志武对上述问题进行了毫无保留的分享。

人大卢志武：只要拿到更多算力超过Sora也不是那么难的事

　　为了完整体现卢志武的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

　　中国AIGC产业峰会是由量子位主办的行业峰会，20位产业代表与会讨论。线下参会观众近千人，线上直播观众300万，获得了主流媒体的广泛关注与报道。

　　话题要点

　　VDT使用Transformer作为基础模型，能更好地捕捉长期或不规则的时间依赖性；

　　Scaling Law是视频生成模型从基于Diffusion model转向基于Transformer的重要原因；

　　VDT采用时空分离的注意力机制，而Sora采用时空合一的注意力机制；

　　VDT采用token concat方式，实现快速收敛和良好效果；

　　消融实验发现，模型效果与训练消耗的计算资源正相关，计算资源越多，效果越好；

　　只要拿到更多算力，超过Sora也不是那么难的事。

　　……

　　以下为卢志武演讲全文：

　　为什么做视频生成突然要转到用Transformer上？

　　今天的报告，我将重点介绍我们在视频生成领域的工作，特别是VDT（Video Diffusion Transformer）。

　　这项工作已于去年5月发布在arXiv上，并已被机器学习顶级会议ICLR接收。接下来，我将介绍我们在这一领域取得的进展。

　　众所周知，Sora非常出色，那么它的优势在哪里呢？之前，所有的工作都是基于Diffusion Model，那为什么我们在视频生成中突然转向使用Transformer呢？

　　从Diffusion到Transformer的转变，原因如下：

　　与基于U-net的Diffusion模型不同，Transformer具有许多优点，如token化处理和注意力机制，这两个特点使其能够更好地捕捉长期或不规则的时间依赖性。因此，在视频领域，许多工作开始采用Transformer作为基础模型。

　　然而，这些都是表面现象，最根本的原因是什么呢？使用Transformer进行视频生成，是因为其背后的scaling law发挥了作用。

　　Diffusion Model的模型参数量是有限的，而一旦将Transformer作为基础模型，参数量可以随意增加，只要有足够的计算能力，就可以训练出更好的模型。实验证明，只要增加计算量，效果就会得到提升。

　　当然，视频生成涉及各种任务，使用Transformer能够将这些任务统一在一个架构下。

　　基于上面三个原因探索用Transformer当视频生成的底座，这是我们当时的考虑。

人大卢志武：只要拿到更多算力超过Sora也不是那么难的事

我们的创新点有两个：

　　一是将Transformer应用于视频生成，并结合了Diffusion的优点；二是在建模过程中，我们考虑了统一的时空掩码建模，将时间和空间置于同等重要的位置。

　　无论是VDT还是Sora，第一步都是对视频进行压缩和token化处理。

　　这与基于DM的方法最大的区别在于，基于DM的方法只能进行空间压缩，无法进行时间压缩；而现在，我们可以同时考虑时间和空间，实现更高的压缩程度。

　　具体来说，我们需要训练一个时空空间中的3D量化重构器，这可以作为tokenizer，得到三维空间中的patches。

　　总之，通过这种方式，我们可以得到Transformer的输入，输入实际上是3D的tokens。

　　一旦我们将输入的视频进行token化处理，就可以像通常的Transformer一样，使用标准的Transformer架构对3D的token序列进行建模，细节我就不赘述了。

　　VDT和Sora有什么差别？

　　VDT模型中最重要的部分是时空的Transformer Block。

　　我们与Sora有一点不同，当时设计这个Block时，我们将时空的Attention分开了。高校团队没有OpenAI那么多的计算资源，这样分开后，所需的计算资源会少很多——除此之外，其他所有设计都一模一样。

人大卢志武：只要拿到更多算力超过Sora也不是那么难的事

　　现在，让我们来看看我们与Sora的区别。

　　刚才我说过，VDT采用了时空分离的注意力机制，空间和时间是分开的，这是在计算资源有限的情况下的折中方案。

　　Sora采用的是时空统一的token化，注意力机制也是时空合一的，我们推测Sora强大的物理世界模拟能力主要来自于这个设计。

　　至于输入条件不同，这不是VDT与Sora最大的区别，基本上图生视频能做好，文生视频也能做好。

　　文生视频的难度较大，但并非无法克服，没有本质上的差别。

　　接下来，我将介绍我们当时探索的一些事项。架构设计完成后，我们特别关注输入条件。这里有C代表的Condition Frame，以及F代表的Noisy Frame。

　　这两种输入条件应该如何结合，我们探索了三种方式：

　　通过Normalization的方式；

上一篇网友晒299元买朱珠价值5千二手包：价格非常美丽

小米首款钛合金旗舰！小米14 Pro钛金属特别版降价：6099元下一篇

最新资讯

人大卢志武：只要拿到更多算力 超过Sora也不是那么难的事

人大卢志武：只要拿到更多算力超过Sora也不是那么难的事