帮助中心 广告联系

灵宝信息网-灵宝天气预报-灵宝教育网-灵宝租房-灵宝新闻网-灵宝生活网

热门关键词:

讽(fěnɡ)稳(wěn)这是个什么梗?

来源:原创/投稿/转载 发布时间:2024-03-09

  Sora出世前,他们拿着一篇如今被ICLR 2024接收的论文,十分费劲地为投资人、求知者讲了大半年,却处处碰壁。

  更何况Sora背后的架构,与这支团队快1年前发表的论文提出的基于Transformer的Video统一生成框架,大、撞、车。

  撞车到什么程度呢?用团队自身的话来说,“可以说是几乎一模一样,嗯,就还得仔细地找到底哪里不同”。

  要知道,国内诸多团队都在通往AGI的道路上苦苦耕耘,但很多人至今还是很不看好国内团队的技术创新能力。如果事实真像团队所说,那这就是国内队伍有实力做最前沿创新的实际证明。

  从目前智子引擎所交出的“作业”来看,最为瞩目当属于2023年3月发布的世界首个公开评测多模态对话应用ChatImg(元乘象),并且已经迭代到了3.5版本。

  至于刚才提到与Sora“撞车”的论文,正是由这家“人大系”初创领衔,并联合伯克利、港大等单位于2023年5月发表在arXiv上的VDT。

  而仅从VDT论文的标题中,我们就不难发现,智子引擎在技术架构上早已提出并采用了Diffusion Transformer,而且是首发的那种。

  但单从Diffusion Transformer还不足以说明“大撞车”,我们还需看一下VDT论文里的个中细节。

  首先,在时空注意力机制方面,VDT在Transformer中集成了专门设计的时间注意力和空间注意力模块,这样就可以让模型能够更好地捕捉和理解视频数据中的时空关系。

  举个例子,假设你在看一部电影,导演通过镜头的切换和场景的布局来引导你关注故事的关键部分。时空注意力机制就像这样的导演,它让VDT能够捕捉视频中的关键时刻和动作,使得生成的视频更加生动和连贯。

  其次,是模块化设计,VDT的Transformer块是模块化的,这意味着它可以根据不同的视频生成任务灵活调整,而不需要对整个模型架构进行大规模修改。

  模块化设计就好比像乐高积木一样,可以用不同的积木块来构建各种形状和结构,通过组合不同的模块来适应不同的视频生成任务,比如制作动画或者预测未来的视频帧等等。

  最后,则是VDT提出的一种统一的时空掩模建模机制,可以允许模型在不同的视频生成任务中使用相同的架构,通过调整掩模来适应不同的输入和输出需求。

  它就宛如一个多功能工具箱,里面的工具可以用来做各种不同的修理工作,不需要额外为每种工作单独购买工具;因此,VDT能够在多种视频生成任务中发挥作用,而不需要每次都重新训练。

  例如Sora基于Transformer的特性使得它天然具有处理时空数据的能力,因为它可以捕捉视频中的长期依赖关系。

  Sora使用了一个视频压缩网络来降低视觉数据的维度,这可以看作是一种模块化设计,因为它将视频处理分解为压缩和解码两个独立的步骤。

  以及Sora能够处理不同时长、分辨率和宽高比的视频和图像,这表明它也有一个类似“多功能工具箱”一样的统一表示方法来处理各种类型的输入数据。

  例如在时空维度的处理上,VDT是分别进行注意力机制,而Sora则是将时间和空间统一,进行单一的处理;再如Sora还考虑到了将文本条件融合等等。

  既然技术上如此高度相似,很多人或许也会好奇,为什么Sora能做出来长达1分钟的高质量视频,而VDT却没能出效果呢?

  我们当时的探索是理论方向上的,虽然没有做过生成60秒这么长时间的视频,但是我们做过一个物理实验,发现VDT是可以支持3D生成的,这也意味着VDT的方法在学习物理规律上具备较强的能力,这一点与OpenAI的思路不谋而合。

  除此之外,卢志武教授也坦然地承认,要是想要做到Sora的效果,还需要非常庞大的算力支撑,这一点对于高校实验室来说着实是有些困难。

  总而言之,无论是从发布时间还是技术架构来看,VDT在技术路线上确实是与OpenAI的Sora发生了一次“撞车”事件。

  不过有趣的一点是,在我们与智子引擎交流过程中还发现了更加戏剧性的事情

  先简单概括,智子引擎和OpenAI三次撞车,第一次是与Clip,第二次是与GPT-4V,第三次就是与刚刚发布的Sora。

  乍一听,可能会觉得有点想笑,怎么智子引擎像是大模型届的汪峰(汪峰老师对不起),每次都被OpenAI抢过风头?

  这支国内团队长久地和OpenAI一路同行,在不知哪条路是通往AGI的情况下,甚至某些OpenAI都没有打样的时刻,居然每一步都走对了。

  当时智子引擎并没有成立公司,彼时国内外在大模型技术上也还是聚焦于文本,例如OpenAI的GPT-3,以及国内北京智源人工智能研究院悟道项目等等。

  但卢志武教授和高瓴人工智能学院的团队(即核心团队前身)便已经着手准备自研多模态大模型;方式是参与到由高瓴人工智能学院院长文继荣带队的悟道文澜。

  到了2020年12月,这支小分队便已经完成了文澜的训练工作并发布了1.0的版本,是国内第一个大规模预训练的多模态模型,并首次运用多模态弱相关概念完成训练。

  而时隔仅一个月,OpenAI便在多模态大模型领域出手了2021年1月发布CLIP。由此,文澜和CLIP一道,成为了多模态领域的开山之作。

  值得一提的是,在同年的6月份,文澜还进行了一次迭代,发布2.0版本,参数量为50亿,训练数据量达6.5亿。

  并且相关论文还在2022年被Nature Communications接收,成为世界首个被Nature子刊接收的多模态领域论文。

  不难看出,智子引擎前身团队早在数年前便已经和OpenAI在多模态大模型的研究和进展上保持了近乎相同甚至超前的节奏。

  自身已经有所研究和理解,加之OpenAI也在跟进,因此,这支队伍认为多模态大模型是值得继续做下去的方向。

  于是正如我们刚才提到的,智子引擎在2021年正式成立,公司的“标签”也是非常明确,就是多模态大模型。

  2023年3月8日,在潜心“苦修”了长达两年之久过后,正如我们刚才提到的,智子引擎正式发布了自己的第一个多模态产品

  据了解,ChatImg在技术上是基于多模态融合模块和语言解码器,参数量大约为150亿,主打的就是让AI学会看图说话。

  在这一节点上,智子引擎再次与OpenAI在多模态大模型上“撞了一次车”,并且是提前发布了整整一周的那种。

  至于智子引擎为何会选择3月8日,其实也与OpenAI有着千丝万缕的关系,用卢志武教授的话来说就是:

  自ChatGPT在去年11月30日问世以来,经过多方评估,普遍认为传统的研究模式正遭遇重大考验。以往的自然语言处理研究多聚焦于单一任务,如翻译、命名实体识别、情感分析等,通常需要分别训练不同的小型模型。然而,随着ChatGPT的问世,一个统一的大型模型就能够胜任这些任务,使得针对单一任务的独立研究变得不再那么重要。

  尽管ChatGPT的发布对多模态研究领域的影响相对较小,因为它主要擅长处理文本信息,但我们也听闻了GPT-4有意涉足多模态领域的传闻,这让我们感到紧迫。因此,我们的团队迅速行动,大约用了几个月的时间来训练ChatImg,并在3月8日成功推出,抢在GPT-4之前。

  在ChatImg发布2个月之后,智子引擎便将其迭代到了2.0版本,这一次,更是将看视频说话的功能融入了进来。

  而OpenAI在多模态领域后来的大动作,应当属同年9月份所发布的GPT-4V,新增了语言和图像交互功能。

  除了刚才我们提到的与Sora相似架构的VDT研究之外,智子引擎更多的是将精力投入到了如何把ChatImg用起来。

  我们在2023年5月和8月分别拿到了两笔融资之后,实际上花了半年的时间去探索落地,就看我们这个模型到底能干啥。

  通过我们的多模态大模型,可以将图片和视频中的内容转变成文字,在非常复杂的交通、电网、化工等场景中,可以大幅降低高昂的人力成本。

  在智子引擎这里,多模态技术与商业化是并驾齐驱的。团队看来,与AI研发相比,应用场景的拓展和落地同等重要,二者双线程推进,才能形成闭环效应。

  在电网、电力、化工、巡检等多个场景,基于大模型的泛化能力和涌现特性,智子引擎已经利用一个多模态大模型,满足了过去十几乃至几十个小模型才能解决的实际需求。

  “我们对2024年收入实现爆发性增长非常有信心。”商业化进展顺利,研发的资金支持也就有了眉目。

  Sora为AI视频赛道再添一把烈火后,大家都在打问号,和一年前拿着ChatGPT追问如出一辙:

  就拿智子引擎来说吧,和OpenAI技术路线的撞车一次,可能是单纯的巧合,或有许多运气成分在。

  但三个颠覆性节点的三次撞车,似乎已经能够说明,国内确确实实有这么一家大模型公司代表,长年以来所坚持的通往AGI的技术路线,步子其实都踩在后来公认的正确路线上。

  这还只是一家公司。别忘了,智子引擎只是国内大模型初创公司的一个典型代表,是业界学界千千万万AI研究团队的缩影。

  我们近期搜集到不少业内人士讨论及观点尤其是Claude 3问鼎全球大模型王座,在多个角度超越GPT-4后,大伙儿对OpenAI的过分神话更加趋于冷静。

  放眼国内,也有很多成果是世界领先、值得借鉴的。不少还像智子引擎的VDT一样,不仅走在世界前面的,更重要的是,核心技术是国内学者原创提出的。

  当然了,也许你和我们一样有疑问,都说了技术撞车,还发表在前,为什么拿出震惊世界demo的,不是VDT而是Sora?

  “因为计算资源的限制,我们没能做出OpenAI那样长达60s的高质量视频。”但第三次撞车给智子引擎带来的不只是遗憾,也不只是对团队思路的外部肯定。

  现在,因为Sora的举世瞩目,VDT这样曾经给外人讲不透的技术来到聚光灯下,得到了更多的曝光。

本网转载作品的目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题,请联系我们进行修改或删除!

联系我们 -