对话 PixVerse 王长虎：AI 视频生成可能通向新平台，Sora 只领先几个月_老虎社区_美港股上老虎

对话 PixVerse 王长虎：AI 视频生成可能通向新平台，Sora 只领先几个月

“抖音就是从 15 秒的视频做起来的。”

文丨王与桐

编辑丨程曼褀

今年 2 月 OpenAI 发布了由视频模型 Sora 生成的视频，时长可达 60 秒并且视频内容丝滑、连贯、逼真。

一张梗图在 Sora 发布后流传于社交媒体：Sora 是坐在宝座上的巨大神像，下面跪着一众渺小的膜拜者，包括 Runway、Pika、SVD、PixVerse 等十多个视频生成模型或产品。

Sora 出现后，这张梗图开始流传。

“能被放在第一排，我们很高兴。” 推出 PixVerse 的爱诗科技创始人兼 CEO 王长虎说。

PixVerse 是 “膜拜者” 中唯一一个由中国公司开发的产品，网页端产品在今年 1 月上线，根据第三方监测平台 SimilarWeb 数据，PixVerse 3 个月内达到了超过 140 万的月访问量，去年 11 月上线的 Pika 现在是超 200 万的月访问量。

做出 PixVerse 的爱诗科技由王长虎在 2023 年 4 月创立。2017 年初，王长虎加入字节跳动，担任 AI Lab 视觉技术负责人。作为在微软亚洲研究院学习和工作十余年的计算机视觉专家，王长虎带领技术团队，研发了抖音、TikTok 相关的视频理解和多模态技术。

去年刚创业时，王长虎感到市场 “冷”；这周，爱诗科技刚拿到了蚂蚁集团上亿元人民币的新投资。

初出茅庐的创业公司，身处一个巨头都在加码的市场，为数不多的武器就是 think different。王长虎有一些不同于他人的观点：

- 他认为 Sora 目前还是卖家秀，处于 GPT-2 到 GPT-3 之间。视频生成真正的 ChatGPT 时刻是普通人都能用起来，技术上是能实时、几秒内生成高质量视频内容。

- Sora 那样生成单镜头 60 秒的视频并不是真实的用户需求。抖音是从 15 秒视频做起来的，绝大部分影视作品中单镜头长度也小于 15 秒。

- GPT-4 的成功和 Sora 之间目前没有强相关性，语言模型是在模拟人脑，视觉模型是模拟外在世界。

- 一些人相信如果内容形式不变，平台机会仍在抖音、快手，不在新产品。王长虎说，实际上一些平台现在对数字人主播就比较谨慎，因为 AIGC 内容对用户留存和广告收入可能都有负面影响，这是大平台的包袱，是创业公司的机会。

AIGC 被普遍认为是一次重要的技术进步，但它接下来该如何发展、能带来怎样的用户价值、构建怎样的商业循环，都没有定论。新老公司以各自的姿态跳入竞争，试图在资本市场的耐心耗尽前找到可行的路径。

我们会持续与这个领域的创业者、大公司管理者、投资人、科学家对话，呈现参与者的不同思考。

以下是《晚点 LatePost》与爱诗科技创始人王长虎的对话：

“几秒内生成高质量内容，才是视频生成的 ChatGPT 时刻”

《晚点》：现在创作者分享视频生成产品的使用体验时，最常提及的就是 Runway （去年 3 月发布了 Gen-2 模型）、Pika（去年 11 月发布）和 PixVerse（今年 1 月发布）。PixVerse 目前的用户、增长情况和市场位置是怎样的？

王长虎：除了访问量，我们的访问时长、频次和留存都比 Pika 好，平均停留时长是 Pika 的两倍多。月访问量也是一个数量级的，Pika 超过 200 多万，我们是 140 多万，Runway 会更大一点。（注：Runway 的网页端月访问量目前超过 600 万，同时有 App 产品。）

国内所有公司的产品加起来的访问量可能是 PixVerse 的三分之一，我们应该是全球 top 3 的视频生成平台了，而且还在保持快速增长。

《晚点》：OpenAI 今年 2 月发布 Sora 后，有人说创业公司间的竞争没那么重要了，因为你们都被 Sora 碾压了。

王长虎：Sora 是用比我们多数十倍的资源做出来的，我们有信心在未来几个月内实现赶超。

我们在一年前创业 All in 视频生成时，市场还很冷，当时很多人都不认为 AI 视频生成在几年内能做成，更多资源还是给了大语言模型，剩下的不多资源是在做文生图。

Sora 的出现其实让大家达成了共识，这对我们反而是利好：第一，这证明之前市场冷时我们就有超前认知，验证了我们的技术路线正确；第二，Sora 的 DiT（2022 年底发表的新型扩散模型架构 Diffusion Transformer，它被认为是 Sora 背后的架构）路线，我们在一年前就已在规划、布局；第三，Sora 的出现也会减少我们的试错成本。

《晚点》：怎么评估 Sora 现在和你们的差距？

王长虎：Sora 展现了更长的视频生成能力和对世界更好的建模，但我和我接触的所有人都还没用过 Sora。它本质还是一个卖家秀，开放的账号非常有限，是个位数，甚至好莱坞的导演都没有。

当然我们相信 OpenAI，Sora 比过去已有的视频生成模型肯定有了大幅提升，但还不清楚 Sora 展示的内容是如何生成出来的，比如有没有抽卡？就是多生成几次内容，只放效果最好的出来。

《晚点》：你之前说过你认为 Sora 还没到视频生成的 ChatGPT 时刻，那怎样才算是呢？

王长虎：我觉得 Sora 依然处在 GPT-2 到 GPT-3 之间。现在的视频生成，更多还是专业创作者和发烧友在用，他们已经能创作出好看、好玩的大片，甚至去商业化和获利了。

比如前段时间我们去某省级电视台交流，在场一半编导是我们的用户，他们用 PixVerse 做的宣传片已经在电视台播放了。但普通 C 端用户还是很难用起来。

当普通用户也能用起来时，才是 ChatGPT 时刻。从技术上来看，就是能做到实时、几秒内生成高质量视频内容。

《晚点》：如果你觉得视频生成还没到爆发的临界点，为什么去年 4 月创业选了这个方向？当时主流还是语言大模型、文生图。

王长虎：源于我们对视频的信仰。我认为视频内容是最接近用户的，过去几年的国民级产品里，跟语言相关的有哪些？跟图片相关的有哪些？

跟视频相关的一定是最大的：抖音、快手、TikTok、Youtube。我们团队过去几年就是在做抖音、Tiktok 背后的视频 AI，也积累了大量解决视频领域难题的能力。

《晚点》：在字节积累的哪些能力是现在做视频生成模型可以复用的？

王长虎：AI 生成不是新概念。字节的用户每天上传数亿视频，我们需要帮用户更简单、方便地创作出好玩、可用、能带来流量的视频。平台上还有海量广告，帮助中小广告主自动创作广告视频，也是生成的一部分。

除了生成，还有理解视频的能力，比如做自动化内容审核需要甄别内容等。生成和理解背后的技术有时空建模、多模态对齐、长时记忆等能力，这都是 AI 视频生成的基础。

事实证明，经过几个月的发展，我们相比当时最好的创业公司，包括 Pika、Runway，用更少的资源、更少的人、更少的钱，更快做出了同一水平的产品。

《晚点》：Pika 的人不是更少吗？他们发布产品时只有 4 个全职员工。

王长虎：它比我们做得更早，融的钱也更多。而且他们有一部分工作，比如数据标注是外包的。

《晚点》：怎么判断你们和 Pika、Runway 到了同一水平？Runway 已可以生成 18 秒的视频，PixVerse 目前能生成 4 秒的视频。

王长虎：Runway 并没有直接提供 18 秒的视频生成，而是通过几个 4 秒片段拼接而成。

现在大语言模型出现了很多评测，也有很多行业领袖也在喷评测。测评结果不重要，最重要的是用户用脚投票，用户数。我们产品上线更晚，我们其实吸引了一些用过 Pika 的人。

我们也会做评估，比如让用户盲测不同产品，随机生成视频看效果。能力评价维度还有视频时长、物理运动的丝滑程度、分辨率高不高、是不是符合用户意图等等。

“做好语言模型才能做好视频模型，这不成立”

《晚点》：也在做视频生成的昆仑万维 CEO 方汉对我们说，如果没有 GPT-4V 就做不好 Sora，没有 GPT-4 又没有 GPT-4V。不少人与他观点相似，认为只做视频生成模型，不做基础语言模型的公司会处于劣势。你怎么看？

王长虎：这不成立。OpenAI 做 Sora 的团队也都是视觉背景的。之所以现在大家会把语言模型和视频模型放在一起讨论，是因为语言模型先做出来了，然后扩展到了多模态。

但在我看来，语言和视频是不同的内容：语言是经过了人类高度抽象的内容，它更容易被建模，而视觉内容在人类出现之前就存在，山就在那、水就在那；语言建模是在模拟人脑，视觉是建立世界模型，构建外在于人的世界空间，二者有很大差别。

你说语言模型会不会帮助视频生成？我觉得一定是有益的，包括 Sora 用到了很多语言模型标注的数据，但并非没有语言模型，Sora 就做不起来。

《晚点》：现在视频生成模型普遍能做到的生成时长是 4 到 7 秒，但 Sora 能到 60 秒，而且连贯性很好。

王长虎：如果能把 15 秒的视频做得非常丝滑，相当于找到一个可扩展的时空建模能力，能够在长时间之内保证主体、背景的一致性，之后再扩大就可以。

而且不同的生成方式都能支撑视频时长从 15 秒到 60 秒，一镜到底只是其中一种。用 15 秒最后的几秒再生成后面 15 秒，这也是方法之一。15 秒的视频和 60 视频之间的 gap 没那么大。

单镜头 60 秒也不是真实的用户需求，电影、广告、短视频都很少是一镜到底的，大部分镜头长度小于 15 秒。

抖音就是从 15 秒视频做起来的，15 秒就能呈现一套完整动作，传达一段有意义的内容，能让用户去消费和传播了。现在网上流传的 Sora 视频，更多的不是 60 秒，而是 20 秒。

《晚点》：另一家中国创业公司生数科技也推出了 Vidu 模型，它能生成 15 秒的视频，到了你说的 15 秒节点。

王长虎：我们内部早就具备生成 15 秒或更长视频 demo 的能力，但我们的目标是提供让每个人都能使用的产品。

《晚点》：在生成人的手指等画面细节时，PixVerse、Pika 和 Runway 的视频都有一些问题，比如猫会出现好几根尾巴、人只有 4 根手指，这怎么优化？

王长虎：人有五根手指，猫有一条尾巴，都属于物理规律。目前的视频大模型，都是直接从视频数据里学习物理知识，但真实视频中往往包含很多信息，很难分别把每个物理规律精确地学习好。

但如果我们给模型输入视觉画面的同时，再单独加入人手、动物尾巴的 3D 建模信息作为约束，就可以辅助大模型学习，这能优化效果。

另外现在有些用法也能部分解决问题。比如大家还需要 “抽卡”，很可能一次生成不好，要生成几次，拿其中比较好的来用；也有很多专业用户会先用 Midjouney 生成一张图，再用 PixVerse 让图片动起来，这样生成质量也会更高、可控性更强。

《晚点》：之前很多人不认为视频能快速出成果，是因为视频数据相比语言更少或更难获得，你们怎么解决？

王长虎：公开数据是无限的，问题不是数据量，而是如何从海量的视频数据中，自动化地、高效地筛出有效数据。

比如世界上最多的视频类别是监控视频，但不能拿来做视频模型的训练。能够做训练的视频数据，要能呈现物体的运动、场景的运动，并且内容丰富。不同团队筛选、清洗数据的能力，也是能否提升模型性能的重要因素。

《晚点》：你认为专门做视频生成模型的公司要跑出来，至少得融多少钱，获得多少资源？

王长虎：账户上有上亿资金，能做千卡级训练。

过去我们做 PixVerse 只有百卡级别，现在新融资可以支撑我们到千卡级别。Sora 出来之后，一些没有及时拿到更多融资，做不到千卡级别的公司，未必有机会继续留在牌桌做视频大模型了。

“AI 视频生成，可能催生新内容平台”

《晚点》：Google 和字节等大公司今年都调高了视频生成模型的优先级，巨头开始快速跟进，对你们的压力是什么？

王长虎：2017 年我加入字节时，字节也还是创业公司，创业公司的优势是决策链条更短，可以没有业务包袱地 all in 一件事。所以即使那时 BAT 有人才有资金，也没有抖音做得快。

现在字节是大公司，我们是创业公司，我们也有自己的优势，比如认知更领先、做得也更早。

《晚点》：科技巨头现在都很重视 AIGC，它们与创业公司间的行动时间差缩小了。

王长虎：大家会觉得大公司在每个时间点都会通透地看清所有事，事实上这不成立。以 AI 视频生成为例，过去一年很多大公司也看走眼了。去年大厂在聚焦什么？

我们有一个错觉，所有人对未来的判断会很一致，其实未必如此。技术如何演进？做产品时如何平衡和已有业务的关系？往后每一步都要做选择，这些对大公司都是不确定的，所以这是创业公司的机会。

《晚点》：同样是创业公司，头部大模型创业公司比你们融资多十倍，现在也在做视频生成模型。

王长虎：第一，聚焦还是都做，每个大模型公司的判断不一样。比如王小川说过，百川的很多人在 Sora 出来后想做视频，但他还是决定聚焦做大语言模型。

第二，大模型公司拿到了更多钱，但不会都拿来做视频生成，视频生成只是大语言模型之外的一个业务而已。

《晚点》：还有更轻、更专注的做法，比如去年走红的 Heygen，就不自己做模型，组合了 GPT 等模型，让赵本山流利地说英文。而你们是既做模型，也做直接面向用户的产品。

王长虎：我们的目标一直是做全球最领先的视频生成大模型和应用。现在技术发展非常快，只做应用层很容易被快速发展的技术颠覆。

我们也不会只做模型层，视频产品是最接近用户的，只做模型不去变现，这也不是我们的目标。

《晚点》：你们可以提供 API 给别的产品和应用公司用，这样也能变现。

王长虎：早期一些移动 App 也用过一些计算机视觉公司的 API，但这些 App 做得更大后，就开始用自建的。基因影响团队认知，我们想直接服务海量 C 端用户。

《晚点》：to C 又有两种做法：可以做类似剪映那样的生产工具，也可以做 AIGC 内容平台。你们的目标是什么？

王长虎：最终我们还是希望服务广大普通用户，具体产品形态需要去试，平台是一种可能性。

现在的视频生成能力还不能直接满足普通用户的需求，所以先服务专业创作者，基于新的内容生成范式去做下一代的工具：比如把拍摄时的演员、场景、摄像机取代了，这意味着生产要素被技术给囊括了。

随着视频生成技术的发展，用户的圈层会逐渐扩大，就会产生巨大的机会，比如当年的 B 站、小红书。

《晚点》：为什么你认为这个机会属于新平台？抖音已经有这么大流量，在已有信息流里加 AI 生成内容，不是比另起炉灶更容易吗？

王长虎：抖音为什么要在信息流里加 AI，这会带来哪些影响？

数字人也是 AI，但短视频平台对数字人现在比较谨慎。因为当主播都变成数字人时，对用户留存，广告收入可能都是负向影响。加 AI 要面临非常多类似的问题。

包括短视频最初兴起时，为什么长视频公司不加短视频？如何加？加了之后哪个更重要？资源怎么分配？预测未来时是没办法判断的。现在也是这样，未来依然不确定。

《晚点》：就现有内容形式看，大量 UGC 视频是记录生活的实拍内容，好像也不需要生成技术。

王长虎：我们看到新技术诞生后，总想把它套在熟悉的产品里。就像短视频早期，很多人认为短视频会是土豆、腾讯视频等的形态，这样思考的人没有抓住短视频的机会。

AI 视频生成也是这样。如果单独做 AI 的内容平台，它就不会是现有平台的样子，而会形成新的生态。

PixVerse 的用户场景并非是记录生活，而是实现普通摄像头难以拍摄的效果，有的用户用它创作香水广告、啤酒广告等广告视频，有的用户用它创作科幻大片。

《晚点》：这听起来还在满足专业人士的需求？

王长虎：主流短视频平台里创作视频的用户比例也只有个位数。因为虽然拍摄门槛虽然降低了，但创意、制作和质量依旧是门槛。

AI 生成视频能极大降低用户的创意和制作门槛，当长辈、孩子都可以用语言的方式直接生成高质量内容时，就会有大量现在想象不到的内容出现，也需要有很多不同的平台和 App 去承接这类内容。

“AI 时代就应该做全球产品”

《晚点》：你们现在是国内和海外市场一起做，但很多人认为只选一边更合理。

王长虎：做 AI 时代的产品就应该做全球产品。现在我们国内的产品和海外的产品是两个产品，每个产品的形态要符合当地的法律法规。我在字节的经历让我在跨国经营方面也有很多经验。

《晚点》：为什么爱诗不像 Heygen 那样整个团队出海？

王长虎：现在最重要的短视频产品很多发源于中国，这也为中国培养了最好的视频 AI 人才。所以我们选择 base 在国内，服务全球市场。

《晚点》：你们现在的海外用户更多，如何避免在部分海外市场，如美国市场可能遇到的风险？

王长虎：我们目前还没有到被关注的体量。

《晚点》：什么时候会加大投放力度？

王长虎：如果商业化能赚钱，我们算得过来 ROI，会加大投放。

用户规模意味着成本，所以我们并没有努力去做用户增长。短期我们也不会去设用户目标，还是希望能够把视频生成能力做到让越来越多的用户满意。

《晚点》：国内大语言模型的用户投放竞争现在更激进，是因为大语言模型的技术和商业化进展都更快吗？

王长虎：他们去年也不急，今年是因为有人卷起来了。大语言模型产品其实也没找到 PMF（ Product Market Fit，产品与需求的契合点），比如 ChatGPT 是没有长期留存的，从 Data.ai 的数据看，ChatGPT 30 日留存不到 5%。

《晚点》：你们现在的人员规模还很小，其中多少做模型，多少做产品？

王长虎：研发占比超过 70%。我们团队非常精简，未来我们也会长时间控制规模，一方面这样管理成本比较低，另一方面我在字节时经历了快速发展期，用几十人的规模做出了 Google 上百人才能做出来的事，所以我觉得人数本身不重要。关键是找到有创业意愿的、高潜力的人才。

《晚点》：今年 AI 视频生成变热后，怎么继续留住优秀的人才？

王长虎：现在很多优秀的 AI 人才都是离开成熟大公司加入新公司。如果不是想创业，他们也不会加入早期公司。

《晚点》：有看过爱诗但没投的投资人告诉我们：王长虎不够年轻，不相信他能做好 to C 产品。

王长虎：首先我没看到这种倾向，其次创业就是要胆大、创新、寻求突破，所以创业者的心态都是年轻的。

现在大家分类创始人时，更多会讨论这是学术界出来的，还是工业界出来的，我两个基因都有。在微软亚研院的经历让我可以从海量科研论文里精准识别极少的、对我们有帮助的信息；在工业界我打过硬仗，参与过国民级视频产品的建设、有使用万卡 GPU 的经验，这些对创业也至关重要。

《晚点》：你会怎么形容这一年？

王长虎：我觉得现在的状态就很像去年在西北戈壁徒步，走到中途，前后都看不到人。

Sora 的出现意味着走着走着发现前面还有一个人，我的开心大过紧张，因为这个方向是对的，我没有走偏，并且还有机会超过它。

题图来源：PixVerse 生成

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

对话 PixVerse 王长虎：AI 视频生成可能通向新平台，Sora 只领先几个月

评论

热议股票