您当前的位置 :首页 > 产品中心

联系我们Contact Us

杏彩平台官网_杏彩平台登录注册·(xingcai)

电 话:400-8650-222

地 址:呼和浩特市赛罕区亚辰大厦A座7楼701室

杏彩首页·王长虎:PixVerse 效果已超过 Pika抖音

纯羊奶粉
详细介绍:

  今年 4 月宣布创办爱诗科技,加入视频生成赛道后,王长虎就消失在场中了。他在抖音的职业经历,让爱诗科技在视频生成的牌桌上拥有一席重要位置。

  2017 年,王长虎加入字节跳动开始担任 AI Lab 总监,在这个岗位上,他为抖音和 Tiktok 从 0-1 构建了视频AI能力。用王长虎本人的话说,为抖音所做的工作,让他的团队涉猎了几乎所有与视频智能相关的领域,包括且不限于数据处理、内容生成、安全问题处理、视频内容精准理解以及全方位广告场景。

  近期,王长虎接受了机器之心的独家专访。在采访中,王长虎详细介绍了抖音的视频智能化经验是如何被他复用到视频生成领域的,所积累的这些经验为他的新公司构建了数据、算法以及工程上的竞争优势。

  爱诗科技在近期上线的视频生成工具 PixVerse,能够生成免费 4K 分辨率的高清视频,在光影细节和运动准确性等方面取得了进展。王长虎告诉机器之心,PixVerse 的性能在某些方面已经达到了 Pika 的水平,甚至在多项评测中超越了它们。

  自媒体 KOL 歸藏在一次对比评测中,从物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格五种风格对 PixVerse、Pika 以及 Runway 三大模型进行比较,为这三者评分 74.5 分、 73.5 分、 64.5 分,PixVerse 位居第一。

  歸藏认为,“PixVerse 的模型是这三者最为平衡的,可以有比较强的运动幅度,同时可以维持较好的一致性。Pika 在动漫和 2.5D 风格上的优势巨大,但图像质量以及一致性相对差一些。”

  王长虎认为,目前视频生成领域存在的两个最关键的技术问题是准确性和一致性,而在这两个核心维度上,Pika 和 Runway 还有提升空间。“在目前的实测中,PixVerse 欢迎投资人和同行以及用户来进行随机大样本量的对比,对比越多,越能发现我们的优势”。

  王长虎表示,视频生成技术上的累进和商业化的运行已经可以同步开展。爱诗科技内部正在大量孵化基于视频生成技术的轻量应用,这些应用将面向使用抖音、快手等短视频平台的 C 端视频消费者,借助这些应用扩充产品影响力。

  王长虎:我们核心团队成员从 2017 年开始参与抖音从零到一的发展,负责抖音背后的视频人工智能能力构建,在视频 AI 领域积累了很多独特的实战经验。随着 AI 时代的到来,我们认识到 AI 视频生成的巨大潜力,而我们的经验让我们有信心(比别人)做得更快更好。

  2023 年 4 月份,我们获得首轮数千万人民币的融资,6 月份核心团队基本成型。我们只用了 3-4 个月的时间就实现了重大进展,在某些方面超越了全球最大的竞争对手像 Pika 这样的公司。之前在抖音积累的视频处理经验,被成功应用在目前我们的 AI 视频生成项目上。

  第一阶段:TO 创作者,提供更好的视频生成服务,更好地理解创作者动机。同时,也支持直接面向用户,接受用户反馈进行迭代。我们目前已经推出的产品 PixVerse,用户已经可以在网页端和 Discord 社区使用,利用文字或者图片生成 4K 高清视频。

  在第二阶段,我们希望直接面向消费者,不仅仅是提供工具,而是要打通创作和消费的整个流程,直接提供 AI 原生的可消费内容。

  王长虎:目前,我们认为在视频生成领域最关键的两个问题是准确性和一致性。准确性要求每一帧都能精确地反映用户需求,一致性要求在时间轴上,视频中物体的运动符合客观规律。

  只有在这两方面上实现进步,让 AI 生成的视频准确反映用户需求,并且保证动态内容符合规律,运动具有连贯性,这样的视频才能应用于实际场景。就目前而言,我们发现在这两个核心维度上,Pika 和 Runway 各有明显的不足。

  目前,在这两方面,我们已经取得了重大进展。我们已经可以生成 4K 高清的动态视频,并且在可用性上实现了提升。

  举个例子,这是我们海外的一些创作者所实现的效果,一位创作者利用 PixVerse 制作的宣传片,其中每个素材都运用了我们的技术。

  此外,我们还能制作一些基于电影、游戏素材的创新场景,比如钢铁侠在黄浦江游泳、让《原神》角色在其他游戏场景里跳舞等等。

  机器之心:你提到说在效果上已经 “超过了 Pika 和 Runway”,这个标准是什么?我们可以怎么感受到?

  在 Pika 1.0 的表现里,柯基主体非常精确且吸引人,但是它只进行了微小幅度的运动。观察它的画面,虽然每一帧单独看起来都不错,但当它们连在一起时,就不再呈现出视频的信息量。而Runway在柯基的表现上很好,但是基本没有跳舞的动作。

  这本质上,是刚才我提到的 “运动一致性” 的问题,因为现在对于要让一个物体在时间轴上去做运动,本身是一个非常难的技术。

  总之,整个行业在模型视频生成方面面临的最基础问题,就是准确率和运动一致性。如果我们制作的视频素材既不准确又缺乏一致性,就无法在任何场景中有效使用。因此,我认为这是全球这个行业首要解决的问题。在这方面,我们技术上可能走在了前列。

  我们欢迎对我们的模型进行实时测试,事实上,测试的案例越多,我们的优势就越明显。现在视频生成领域还没有形成统一的竞争格局,我们认为在这个方向上,我们有机会在全球范围内取得领先地位。

  王长虎:目前我们内部已有一个评估标准,可以用于评估视频生成产品准确性和一致性。目前整个行业缺乏一个明确的判断标准,所以我们也在不断完善过程中,未来可能会发布出来。

  我们将评估标准分为三个部分:主体动作风格、一致性(包括主体和背景),以及主体运动的合理性。我们还考虑了运镜技巧、创新瓶颈,以及丰富性,后者主要涉及画质和帧率。这些都是比较客观的维度。我们还评估信息量,即单位时间内的信息量。很多同行在研发时缺乏这样的逻辑。我们有一套体系来支持我们的迭代进程。

  在效果评定上,除了主观与客观的标准,我们还采用盲测的方法做测试。向多个模型输入随机 Prompt,抹去水印,让足够样本的人做效果排序,来判断谁更优秀。

  王长虎:是的,这种方法相对客观。虽然图片生成和视频生成的效果判断比较主观,但我们之所以能在市场上迅速崛起,是因为我们使用的模型和整个系统支持我们从数据角度快速作出评估。

  王长虎:根据我们最近的评估结果,我们的性能在某些方面已经达到了 Pika 平台的水平,甚至在多项评测中超越了它们。我们的产品在视觉效果、分辨率、画质上明显优于竞品。此外,在模型准确性、一致性和丰富性方面,我们的表现也更好。

  通常情况下,如果有投资人或同行要进行测试,我们会建议他们出至少 20 个问题,以确保样本量足够大。我们会根据他们认为重要的方面来进行测试。在所有这些测试中,我们通常可以明显地看出我们的产品比竞品更优秀,这是肉眼可见的。

  但最终判断哪个产品更好,很多时候并不仅仅是基于技术性的因素,而是主观上的偏好。如果大家普遍认为某个产品好,那么这个产品就被视为更优秀。

  机器之心:再聊聊 “准确性” 以及 “一致性” 的问题,和其他公司比,你们是怎么做到这两方面表现得更好?

  王长虎:影响视频生成最后结果的因素有很多,但最重要的是:数据、算法和工程能力,而我们在过往经验中,这几方面都有自己的优势。

  我们从 0 到 1 建立过抖音背后的视频平台能力,这里面包括了数据处理、内容生成、安全问题处理、对视频内容的精准理解甚至全方位的广告场景,几乎所有与视频相关领域我们都有所涉猎。

  数据层面,我们的关键能力是,能够从海量数据中筛选出一小部分高质量数据来训练更优秀的模型,并且在安全问题上足够有经验。在抖音和 TikTok,每天都有海量视频上传,我们需要利用 AI 技术有效地整合和剔除低质量和重复性内容,并且防止用户生成不适当内容。处理这些问题的经验,让我们能够用更少的整体数据量训练模型,同时降低模型大小和 GPU 资源。

  算法层面,我们在多模态对齐、视频特征表示、时空建模以及主体控制上都有自己的创新。在多模态建模上,我们进行了大量自监督学习,更充分利用动作型数据,特别是在处理未标注的视频数据方面,我们尝试了多种方法来建模那些标注噪声较大的数据集,这些尝试直接帮助我们解决动态建模的问题。

  特征表示上,我们在文字和视频内容的向量化做了很多尝试。时空建模方面,我们努力在训练过程中生成局部内容,同时让模型能够把握整体视野。生成中间某一帧时,模型应能够记住之前和之后的内容。在最优关键帧选择和动作建模质量上取得平衡。主体控制上,我们在关键帧生成、视频内容分割等方进行优化,帮助我们对视频性能控制更精准。

  工程方面,我们参考了之前在抖音操盘上万块 GPU 的经验,帮助在大规模集群训练和推理时的稳定性提升,并且复用了自动化的能力去应对数据分布变化问题。

  机器之心:基于 “数据、算法和工程” 这三个要素,你认为你们实现了 “用更少资源取得了更优效果” 的成就,有没有具体数字可以说明这一点?

  王长虎:我们的研发效率极高、迭代速度极快,Runway 成立了 5 年多时间,融资几亿美金,Pika 成立了近一年,融资大几千万美金。我们正式训练模型是在 2023 年下半年,花了 3 个月左右的时间就做到了全球第一梯队的水。

  400-8650-222                       1375563891@qq.com

  www.tjwddxh.com                  赛罕区亚辰大厦A座7楼701室

          

杏彩平台官网_杏彩平台登录注册·(xingcai)司  备案号:蒙ICP备2021002174号-1
网站建设推广: 云搜网络

 

  • 杏彩首页
  • 咨询电话
  • 返回顶部