国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

机器之心原创

Sora生成的新视频

根据OpenAI披露的技术报告，Sora的核心技术点之一是将视觉数据转化为patch的统一表示形式，并通过Transformer和扩散模型结合，展现了卓越的scale特性。无独有偶，最近发布的StableDiffusion3也采用了同样的架构。

其实，这两项工作都是基于Sora核心研发成员WilliamPeebles和纽约大学计算机科学助理教授谢赛宁合著的一篇论文《ScalableDiffusionModelswithTransformers》。这篇论文提出了一种基于Transformer架构的新型扩散模型——DiT，用对潜在patch进行操作的Transformer替换常用的U-Net主干网络，把大语言模型的可扩展性、涌现性复制到了视觉任务上。

不过DiT仅在ImageNet上做了实验，U-ViT在小数据集（CIFAR10、CelebA）、ImageNet、图文数据集MSCOCO上均做了实验。此外，相比传统的Transformer，U-ViT提出了一项「长连接」的技术，大大提升了训练收敛速度。这篇论文后被CVPR2023收录。

虽然主攻的任务不同，但U-ViT同样展示了在视觉任务下的优异能力。与当时同阶段的比较，UniDiffuser效果是基本持平的。更重要的是，UniDiffuser扩展性更强，能基于一个底层模型完成图文之间的任意生成。简单来讲，除了单向的文生图，还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。

Unidiffuser开源版效果

Unidiffuser当前效果图

Sora的出现比预期早半年

机器之心：首先想请两位回忆一下，第一次看到Sora的时候是什么感觉？有没有印象比较深刻的demo？

用Transformer替代U-Net是一个自然想法，区别在于谁先做出效果

机器之心：最近关于Sora核心创新点的讨论比较多，而且大家提及最多的是它的架构。朱老师能否通俗地解释一下Sora的DiffusionTransformer架构是怎么一回事，「用Transformer替换常用的U-Net主干网络」有何必要性？

Sora用到的DiT是2022年底发布出来的。其实早在2022年9月份，我们发布了一个叫U-ViT的模型。这个模型的主要思想是用VisionTransformer去替代U-Net，和DiT核心的想法是一样的，就是用Transformer去增强扩散模型。这后来被证明非常有效，特别是在视觉数据的生成上。它一方面保持了扩散模型的优势，另一方面又利用了Transformer的可扩展性以及对不同模态的兼容性。相比于传统的Transformer，我们自己的设计（U-ViT）里面还包括了长连接，它可以让计算效率变得更高，能看到很显著的效果提升。

U-ViT架构

机器之心：我们可以从哪些指标上看到这些效果？

朱军：其实在22年的时候，大家就已经看到了，用VisionTransformer这种架构可以提高生成质量，实现更高的分辨率，也可以更有效地训练更大规模的模型。现在，我们可以看到更多的例子，包括Sora、StableDiffusion3。这些例子一次又一次地证明了，这个架构的潜力是巨大的。

机器之心：在生数的产品里面，这份工作展现出了什么样的效果？

朱军：我们从一开始就坚持用扩散加Transformer的融合架构，也就是多模态原生的架构。之前，很多团队在做多模态的时候，会想说什么模态都对到语言上。但我们认为这种架构不是最优，因为从原理和计算效率上来看，这种方法存在天然的不足，所以从一开始我们就在走扩散加Transformer这种路线。

2022年我们提出U-ViT架构的时候对标的是StableDiffusion，当时StableDiffusion刚开源。所以在U-ViT架构的基础上，我们又在2023年3月份开源了一个叫UniDiffuser的大模型。这个模型也是基于扩散加Transformer的融合架构，可以在文、图两种模态之间进行任意的转换。

机器之心：您的意思是说，这种融合的路线相比那种单纯地用Diffusion或者单纯地用Transformer效果都要好，是吗？

朱军：是的。与单纯地用Diffusion相比，融合架构的主要优势就是Transformer的可扩展性。与单纯地用Transformer相比，融合架构在生成视觉数据的效率，包括模型的表示效率和计算效率等方面有很大的优势。

对于Transformer这个架构来说，你把所有东西都放到里边，好处就是简单直接。但是，就目前对视觉数据的处理和生成效果来看，扩散还是占优势的。在我们看来，融合模型更符合原生多模态的定位。因为不同类型的数据，它的特点是不一样的，所以应该针对不同模态选择最合适的一种处理方式。从实际的视觉生成效果来看，现在主流的方法也是用扩散模型去做生成，因为用Transformer这个架构直接去做生成的话，到目前为止效果还是落后的。

复现Sora，还有很多难题需要解决

当然，可能还有很多我们不知道的因素。Sora的成功不光是一个生成的问题，里面包括语义理解、数据标注、数据清洗、大规模训练以及工程优化等等。这些问题如果没有做过是不知道的，由于OpenAI做过很多成功的案例，所以他们做成一个新项目的成功率会更高。

打造通用多模态，需要通用架构提供支撑

机器之心：Sora的发布让我们看到OpenAI「allinAGI」的野心。他们的技术路线有两个关键点：一是多模态，二是通用化架构。生数科技也是「通用多模态路线」的坚持者，在您看来，通用化架构有何必要性？

朱军：如果想让模型实现更强的通用性，就需要更加通用的模型架构来支撑。以Sora为例，在架构上它肯定要融合文字和视觉数据。换句话说，如果你只做视觉或只做文本的话，你在多模态的任务上就不是最优，或者说有些模态不能处理。这是一个很直接的相互支撑的关系。

机器之心：做这种通用架构的难点体现在哪几个方面？

朱军：难点就在于，不同模态的数据，特点是不一样的，你是不是直接简单粗暴地用一种方式表示所有数据？这种方式目前来看可能并不是最优，所以需要针对不同数据的特点去分析考虑。另外，不同模态的数据，它的数据量是不一样的，或者说不均衡。在训练过程中，这可能会对你的优化过程产生实际的影响。还有不同模态之间的对齐理解也是问题。

机器之心：Sora出现后，有种声音说，国内外的差距进一步拉大了，您怎么看待这个问题？

来自OpenAI的启发：

技术自信和资源都很重要

机器之心：如果从商业和产品的角度来看，您如何看待Sora的成功？

从这个维度来讲，我觉得他们成功因素中很重要的一点已经写在了他们公司的价值观里，也就是所谓的“Scale”，他们整个公司都是相信scaleup的，官网原话是「如果对此产生了怀疑，就进一步scaleitup」。所以我觉得这也是他们对于自己的技术路线的充分自信和坚持，然后衍生出了现在的成功。

机器之心：这对生数科技有什么启发？

唐家渝：首先是观念上的。我觉得我们在设计了Diffusion融合Transformer这样一个好的架构，并且已经看到它有巨大的潜力的情况下，应该要更有技术上的自信。这和OpenAI去相信scaleup是类似的。

机器之心：据您所知，Sora的开发、应用成本有多高？如果要做类似产品，生数要如何应对随之而来的成本问题？

唐家渝：就开发成本来说，业界估计资源比较充分的状态需要达到万卡（英伟达A系列）的水平。由于我们之前在大规模训练上做了很多加速的工作，所以我们的需求实际评估下来会少一些。

要降低应用成本，肯定要在这个过程中做一些模型压缩的工作，包括一些分布式的操作——比如在手机、笔记本端去做一些推理，也会是大家去做的一个衍生方向。另外，架构层面的一些优化肯定也会持续去做。所以应用成本的问题，我们觉得相对来说还是比较乐观的。

什么叫「原生多模态模型」？

机器之心：根据您公司的描述，你们走的是「原生多模态大模型」赛道，能否介绍一下这个赛道和其他赛道的区别，以及该赛道国内外玩家的具体情况。

唐家渝：其实定位原生多模态这个赛道是说，我们从第一天就坚持做一个完整的通用多模态大模型，而不是训练多个模型，对这些模型的能力做排列组合式的使用。我们的做法是从底层的架构出发，天然地去考虑通过一个模型支撑不同数据的输入输出，它的特点是模型学到的知识会更加充分，而且在使用的时候，不用调用不同的模型去做组合应用，因此推理效率会更高。

举个具体的例子，GPT-4支持文本-文本，DALL·E3支持文本-图像，GPT-4V可同时输入文本和图像，但输出仅文本，在应对开放的视觉任务时，是通过调用DALL·E3或者GPT-4V的接口来实现，而原生的技术路线是基于一个底层架构实现「GPT-4V+DALL·E3」的统一，能应对广泛开放域的文本和视觉交互类的复杂场景。

这个领域的国外玩家主要是谷歌（Gemini）和OpenAI（Sora）。国内的话，我们是最早、也可能是唯一坚持做通用性的多模态大模型的公司。

机器之心：从产品的角度，您如何定义「原生」？

Sora所带来的商业机遇

如果它能理解物理世界，那应用范围就不止局限在数字世界了，而是可以和物理世界产生交互。比如，它可以和机器人结合实现具身智能，也可以用于自动驾驶，用于数字孪生。之前一个一个构建小模型的方法可能有很多cornercase照顾不到，如果模型真能了解到物理世界的规则，我们就能使用一个通用模型来处理所有的关于物理世界的认知和仿真任务，这可能会极大地推动社会运行方式的进化。