讽(fěnɡ)稳(wěn)这是个什么梗?-灵宝信息网

　　Sora出世前，他们拿着一篇如今被ICLR 2024接收的论文，十分费劲地为投资人、求知者讲了大半年，却处处碰壁。

　　更何况Sora背后的架构，与这支团队快1年前发表的论文提出的基于Transformer的Video统一生成框架，大、撞、车。

　　撞车到什么程度呢？用团队自身的话来说，“可以说是几乎一模一样，嗯，就还得仔细地找到底哪里不同”。

　　要知道，国内诸多团队都在通往AGI的道路上苦苦耕耘，但很多人至今还是很不看好国内团队的技术创新能力。如果事实真像团队所说，那这就是国内队伍有实力做最前沿创新的实际证明。

　　从目前智子引擎所交出的“作业”来看，最为瞩目当属于2023年3月发布的世界首个公开评测多模态对话应用ChatImg（元乘象），并且已经迭代到了3.5版本。

　　至于刚才提到与Sora“撞车”的论文，正是由这家“人大系”初创领衔，并联合伯克利、港大等单位于2023年5月发表在arXiv上的VDT。

　　而仅从VDT论文的标题中，我们就不难发现，智子引擎在技术架构上早已提出并采用了Diffusion Transformer，而且是首发的那种。

　　但单从Diffusion Transformer还不足以说明“大撞车”，我们还需看一下VDT论文里的个中细节。

　　首先，在时空注意力机制方面，VDT在Transformer中集成了专门设计的时间注意力和空间注意力模块，这样就可以让模型能够更好地捕捉和理解视频数据中的时空关系。

　　举个例子，假设你在看一部电影，导演通过镜头的切换和场景的布局来引导你关注故事的关键部分。时空注意力机制就像这样的导演，它让VDT能够捕捉视频中的关键时刻和动作，使得生成的视频更加生动和连贯。

　　其次，是模块化设计，VDT的Transformer块是模块化的，这意味着它可以根据不同的视频生成任务灵活调整，而不需要对整个模型架构进行大规模修改。

　　模块化设计就好比像乐高积木一样，可以用不同的积木块来构建各种形状和结构，通过组合不同的模块来适应不同的视频生成任务，比如制作动画或者预测未来的视频帧等等。

　　最后，则是VDT提出的一种统一的时空掩模建模机制，可以允许模型在不同的视频生成任务中使用相同的架构，通过调整掩模来适应不同的输入和输出需求。

　　它就宛如一个多功能工具箱，里面的工具可以用来做各种不同的修理工作，不需要额外为每种工作单独购买工具；因此，VDT能够在多种视频生成任务中发挥作用，而不需要每次都重新训练。

　　例如Sora基于Transformer的特性使得它天然具有处理时空数据的能力，因为它可以捕捉视频中的长期依赖关系。

　　Sora使用了一个视频压缩网络来降低视觉数据的维度，这可以看作是一种模块化设计，因为它将视频处理分解为压缩和解码两个独立的步骤。

　　以及Sora能够处理不同时长、分辨率和宽高比的视频和图像，这表明它也有一个类似“多功能工具箱”一样的统一表示方法来处理各种类型的输入数据。

　　例如在时空维度的处理上，VDT是分别进行注意力机制，而Sora则是将时间和空间统一，进行单一的处理；再如Sora还考虑到了将文本条件融合等等。

　　既然技术上如此高度相似，很多人或许也会好奇，为什么Sora能做出来长达1分钟的高质量视频，而VDT却没能出效果呢？

　　我们当时的探索是理论方向上的，虽然没有做过生成60秒这么长时间的视频，但是我们做过一个物理实验，发现VDT是可以支持3D生成的，这也意味着VDT的方法在学习物理规律上具备较强的能力，这一点与OpenAI的思路不谋而合。

　　除此之外，卢志武教授也坦然地承认，要是想要做到Sora的效果，还需要非常庞大的算力支撑，这一点对于高校实验室来说着实是有些困难。

　　总而言之，无论是从发布时间还是技术架构来看，VDT在技术路线上确实是与OpenAI的Sora发生了一次“撞车”事件。

　　不过有趣的一点是，在我们与智子引擎交流过程中还发现了更加戏剧性的事情

　　先简单概括，智子引擎和OpenAI三次撞车，第一次是与Clip，第二次是与GPT-4V，第三次就是与刚刚发布的Sora。

　　乍一听，可能会觉得有点想笑，怎么智子引擎像是大模型届的汪峰（汪峰老师对不起），每次都被OpenAI抢过风头？

　　这支国内团队长久地和OpenAI一路同行，在不知哪条路是通往AGI的情况下，甚至某些OpenAI都没有打样的时刻，居然每一步都走对了。

　　当时智子引擎并没有成立公司，彼时国内外在大模型技术上也还是聚焦于文本，例如OpenAI的GPT-3，以及国内北京智源人工智能研究院悟道项目等等。

　　但卢志武教授和高瓴人工智能学院的团队（即核心团队前身）便已经着手准备自研多模态大模型；方式是参与到由高瓴人工智能学院院长文继荣带队的悟道文澜。

　　到了2020年12月，这支小分队便已经完成了文澜的训练工作并发布了1.0的版本，是国内第一个大规模预训练的多模态模型，并首次运用多模态弱相关概念完成训练。

　　而时隔仅一个月，OpenAI便在多模态大模型领域出手了2021年1月发布CLIP。由此，文澜和CLIP一道，成为了多模态领域的开山之作。

　　值得一提的是，在同年的6月份，文澜还进行了一次迭代，发布2.0版本，参数量为50亿，训练数据量达6.5亿。

　　并且相关论文还在2022年被Nature Communications接收，成为世界首个被Nature子刊接收的多模态领域论文。

　　不难看出，智子引擎前身团队早在数年前便已经和OpenAI在多模态大模型的研究和进展上保持了近乎相同甚至超前的节奏。

　　自身已经有所研究和理解，加之OpenAI也在跟进，因此，这支队伍认为多模态大模型是值得继续做下去的方向。

　　于是正如我们刚才提到的，智子引擎在2021年正式成立，公司的“标签”也是非常明确，就是多模态大模型。

　　2023年3月8日，在潜心“苦修”了长达两年之久过后，正如我们刚才提到的，智子引擎正式发布了自己的第一个多模态产品

　　据了解，ChatImg在技术上是基于多模态融合模块和语言解码器，参数量大约为150亿，主打的就是让AI学会看图说话。

　　在这一节点上，智子引擎再次与OpenAI在多模态大模型上“撞了一次车”，并且是提前发布了整整一周的那种。

　　至于智子引擎为何会选择3月8日，其实也与OpenAI有着千丝万缕的关系，用卢志武教授的话来说就是：

　　自ChatGPT在去年11月30日问世以来，经过多方评估，普遍认为传统的研究模式正遭遇重大考验。以往的自然语言处理研究多聚焦于单一任务，如翻译、命名实体识别、情感分析等，通常需要分别训练不同的小型模型。然而，随着ChatGPT的问世，一个统一的大型模型就能够胜任这些任务，使得针对单一任务的独立研究变得不再那么重要。

　　尽管ChatGPT的发布对多模态研究领域的影响相对较小，因为它主要擅长处理文本信息，但我们也听闻了GPT-4有意涉足多模态领域的传闻，这让我们感到紧迫。因此，我们的团队迅速行动，大约用了几个月的时间来训练ChatImg，并在3月8日成功推出，抢在GPT-4之前。

　　在ChatImg发布2个月之后，智子引擎便将其迭代到了2.0版本，这一次，更是将看视频说话的功能融入了进来。