对话 PixVerse 王长虎:AI 视频生成可能通向新平台,Sora 只领先几个月

“抖音就是从 15 秒的视频做起来的。”

文丨王与桐

编辑丨程曼褀

今年 2 月 OpenAI 发布了由视频模型 Sora 生成的视频,时长可达 60 秒并且视频内容丝滑、连贯、逼真。

一张梗图在 Sora 发布后流传于社交媒体:Sora 是坐在宝座上的巨大神像,下面跪着一众渺小的膜拜者,包括 Runway、Pika、SVD、PixVerse 等十多个视频生成模型或产品。

Sora 出现后,这张梗图开始流传。

“能被放在第一排,我们很高兴。” 推出 PixVerse 的爱诗科技创始人兼 CEO 王长虎说。

PixVerse 是 “膜拜者” 中唯一一个由中国公司开发的产品,网页端产品在今年 1 月上线,根据第三方监测平台 SimilarWeb 数据,PixVerse 3 个月内达到了超过 140 万的月访问量,去年 11 月上线的 Pika 现在是超 200 万的月访问量。

做出 PixVerse 的爱诗科技由王长虎在 2023 年 4 月创立。2017 年初 ,王长虎加入字节跳动,担任 AI Lab 视觉技术负责人。作为在微软亚洲研究院学习和工作十余年的计算机视觉专家,王长虎带领技术团队,研发了抖音、TikTok 相关的视频理解和多模态技术。

去年刚创业时,王长虎感到市场 “冷”;这周,爱诗科技刚拿到了蚂蚁集团上亿元人民币的新投资。

初出茅庐的创业公司,身处一个巨头都在加码的市场,为数不多的武器就是 think different。王长虎有一些不同于他人的观点:

- 他认为 Sora 目前还是卖家秀,处于 GPT-2 到 GPT-3 之间。视频生成真正的 ChatGPT 时刻是普通人都能用起来,技术上是能实时、几秒内生成高质量视频内容。

- Sora 那样生成单镜头 60 秒的视频并不是真实的用户需求。抖音是从 15 秒视频做起来的,绝大部分影视作品中单镜头长度也小于 15 秒。

- GPT-4 的成功和 Sora 之间目前没有强相关性,语言模型是在模拟人脑,视觉模型是模拟外在世界。

- 一些人相信如果内容形式不变,平台机会仍在抖音、快手,不在新产品。王长虎说,实际上一些平台现在对数字人主播就比较谨慎,因为 AIGC 内容对用户留存和广告收入可能都有负面影响,这是大平台的包袱,是创业公司的机会。

AIGC 被普遍认为是一次重要的技术进步,但它接下来该如何发展、能带来怎样的用户价值、构建怎样的商业循环,都没有定论。新老公司以各自的姿态跳入竞争,试图在资本市场的耐心耗尽前找到可行的路径。

我们会持续与这个领域的创业者、大公司管理者、投资人、科学家对话,呈现参与者的不同思考。

以下是《晚点 LatePost》与爱诗科技创始人王长虎的对话:

“几秒内生成高质量内容,才是视频生成的 ChatGPT 时刻”

《晚点》:现在创作者分享视频生成产品的使用体验时,最常提及的就是 Runway (去年 3 月发布了 Gen-2 模型)、Pika(去年 11 月发布)和 PixVerse(今年 1 月发布) 。PixVerse 目前的用户、增长情况和市场位置是怎样的?

王长虎:除了访问量,我们的访问时长、频次和留存都比 Pika 好,平均停留时长是 Pika 的两倍多。月访问量也是一个数量级的,Pika 超过 200 多万,我们是 140 多万,Runway 会更大一点。(注:Runway 的网页端月访问量目前超过 600 万,同时有 App 产品。)

国内所有公司的产品加起来的访问量可能是 PixVerse 的三分之一,我们应该是全球 top 3 的视频生成平台了,而且还在保持快速增长。

《晚点》:OpenAI 今年 2 月发布 Sora 后,有人说创业公司间的竞争没那么重要了,因为你们都被 Sora 碾压了。

王长虎:Sora 是用比我们多数十倍的资源做出来的,我们有信心在未来几个月内实现赶超。

我们在一年前创业 All in 视频生成时,市场还很冷,当时很多人都不认为 AI 视频生成在几年内能做成,更多资源还是给了大语言模型,剩下的不多资源是在做文生图。

Sora 的出现其实让大家达成了共识,这对我们反而是利好:第一,这证明之前市场冷时我们就有超前认知,验证了我们的技术路线正确;第二,Sora 的 DiT(2022 年底发表的新型扩散模型架构 Diffusion Transformer,它被认为是 Sora 背后的架构)路线,我们在一年前就已在规划、布局;第三,Sora 的出现也会减少我们的试错成本。

《晚点》:怎么评估 Sora 现在和你们的差距?

王长虎:Sora 展现了更长的视频生成能力和对世界更好的建模,但我和我接触的所有人都还没用过 Sora。它本质还是一个卖家秀,开放的账号非常有限,是个位数,甚至好莱坞的导演都没有。

当然我们相信 OpenAI,Sora 比过去已有的视频生成模型肯定有了大幅提升,但还不清楚 Sora 展示的内容是如何生成出来的,比如有没有抽卡?就是多生成几次内容,只放效果最好的出来。

《晚点》:你之前说过你认为 Sora 还没到视频生成的 ChatGPT 时刻,那怎样才算是呢?

王长虎:我觉得 Sora 依然处在 GPT-2 到 GPT-3 之间。现在的视频生成,更多还是专业创作者和发烧友在用,他们已经能创作出好看、好玩的大片,甚至去商业化和获利了。

比如前段时间我们去某省级电视台交流,在场一半编导是我们的用户,他们用 PixVerse 做的宣传片已经在电视台播放了。但普通 C 端用户还是很难用起来。

当普通用户也能用起来时,才是 ChatGPT 时刻。从技术上来看,就是能做到实时、几秒内生成高质量视频内容。

《晚点》:如果你觉得视频生成还没到爆发的临界点,为什么去年 4 月创业选了这个方向?当时主流还是语言大模型、文生图。

王长虎:源于我们对视频的信仰。我认为视频内容是最接近用户的,过去几年的国民级产品里,跟语言相关的有哪些?跟图片相关的有哪些?

跟视频相关的一定是最大的:抖音、快手、TikTok、Youtube。我们团队过去几年就是在做抖音、Tiktok 背后的视频 AI,也积累了大量解决视频领域难题的能力。

《晚点》:在字节积累的哪些能力是现在做视频生成模型可以复用的?

王长虎:AI 生成不是新概念。字节的用户每天上传数亿视频,我们需要帮用户更简单、方便地创作出好玩、可用、能带来流量的视频。平台上还有海量广告,帮助中小广告主自动创作广告视频,也是生成的一部分。

除了生成,还有理解视频的能力,比如做自动化内容审核需要甄别内容等。生成和理解背后的技术有时空建模、多模态对齐、长时记忆等能力,这都是 AI 视频生成的基础。

事实证明,经过几个月的发展,我们相比当时最好的创业公司,包括 Pika、Runway,用更少的资源、更少的人、更少的钱,更快做出了同一水平的产品。

《晚点》:Pika 的人不是更少吗?他们发布产品时只有 4 个全职员工。

王长虎:它比我们做得更早,融的钱也更多。而且他们有一部分工作,比如数据标注是外包的。

《晚点》:怎么判断你们和 Pika、Runway 到了同一水平?Runway 已可以生成 18 秒的视频,PixVerse 目前能生成 4 秒的视频。

王长虎:Runway 并没有直接提供 18 秒的视频生成,而是通过几个 4 秒片段拼接而成。

现在大语言模型出现了很多评测,也有很多行业领袖也在喷评测。测评结果不重要,最重要的是用户用脚投票,用户数。我们产品上线更晚,我们其实吸引了一些用过 Pika 的人。

我们也会做评估,比如让用户盲测不同产品,随机生成视频看效果。能力评价维度还有视频时长、物理运动的丝滑程度、分辨率高不高、是不是符合用户意图等等。

“做好语言模型才能做好视频模型,这不成立”

《晚点》:也在做视频生成的昆仑万维 CEO 方汉对我们说,如果没有 GPT-4V 就做不好 Sora,没有 GPT-4 又没有 GPT-4V。不少人与他观点相似,认为只做视频生成模型,不做基础语言模型的公司会处于劣势。你怎么看?

王长虎:这不成立。OpenAI 做 Sora 的团队也都是视觉背景的。之所以现在大家会把语言模型和视频模型放在一起讨论,是因为语言模型先做出来了,然后扩展到了多模态。

但在我看来,语言和视频是不同的内容:语言是经过了人类高度抽象的内容,它更容易被建模,而视觉内容在人类出现之前就存在,山就在那、水就在那;语言建模是在模拟人脑,视觉是建立世界模型,构建外在于人的世界空间,二者有很大差别。

你说语言模型会不会帮助视频生成?我觉得一定是有益的,包括 Sora 用到了很多语言模型标注的数据,但并非没有语言模型,Sora 就做不起来。

《晚点》:现在视频生成模型普遍能做到的生成时长是 4 到 7 秒,但 Sora 能到 60 秒,而且连贯性很好。

王长虎:如果能把 15 秒的视频做得非常丝滑,相当于找到一个可扩展的时空建模能力,能够在长时间之内保证主体、背景的一致性,之后再扩大就可以。

而且不同的生成方式都能支撑视频时长从 15 秒到 60 秒,一镜到底只是其中一种。用 15 秒最后的几秒再生成后面 15 秒,这也是方法之一。15 秒的视频和 60 视频之间的 gap 没那么大。

单镜头 60 秒也不是真实的用户需求,电影、广告、短视频都很少是一镜到底的,大部分镜头长度小于 15 秒。

抖音就是从 15 秒视频做起来的,15 秒就能呈现一套完整动作,传达一段有意义的内容,能让用户去消费和传播了。现在网上流传的 Sora 视频,更多的不是 60 秒,而是 20 秒。

《晚点》:另一家中国创业公司生数科技也推出了 Vidu 模型,它能生成 15 秒的视频,到了你说的 15 秒节点。

王长虎:我们内部早就具备生成 15 秒或更长视频 demo 的能力,但我们的目标是提供让每个人都能使用的产品。

《晚点》:在生成人的手指等画面细节时,PixVerse、Pika 和 Runway 的视频都有一些问题,比如猫会出现好几根尾巴、人只有 4 根手指,这怎么优化?

王长虎:人有五根手指,猫有一条尾巴,都属于物理规律。目前的视频大模型,都是直接从视频数据里学习物理知识,但真实视频中往往包含很多信息,很难分别把每个物理规律精确地学习好。

但如果我们给模型输入视觉画面的同时,再单独加入人手、动物尾巴的 3D 建模信息作为约束,就可以辅助大模型学习,这能优化效果。

另外现在有些用法也能部分解决问题。比如大家还需要 “抽卡”,很可能一次生成不好,要生成几次,拿其中比较好的来用;也有很多专业用户会先用 Midjouney 生成一张图,再用 PixVerse 让图片动起来,这样生成质量也会更高、可控性更强。

《晚点》:之前很多人不认为视频能快速出成果,是因为视频数据相比语言更少或更难获得,你们怎么解决?

王长虎:公开数据是无限的,问题不是数据量,而是如何从海量的视频数据中,自动化地、高效地筛出有效数据。

比如世界上最多的视频类别是监控视频,但不能拿来做视频模型的训练。能够做训练的视频数据,要能呈现物体的运动、场景的运动,并且内容丰富。不同团队筛选、清洗数据的能力,也是能否提升模型性能的重要因素。

《晚点》:你认为专门做视频生成模型的公司要跑出来,至少得融多少钱,获得多少资源?

王长虎:账户上有上亿资金,能做千卡级训练。

过去我们做 PixVerse 只有百卡级别,现在新融资可以支撑我们到千卡级别。Sora 出来之后,一些没有及时拿到更多融资,做不到千卡级别的公司,未必有机会继续留在牌桌做视频大模型了。

“AI 视频生成,可能催生新内容平台”

《晚点》:Google 和字节等大公司今年都调高了视频生成模型的优先级,巨头开始快速跟进,对你们的压力是什么?

王长虎:2017 年我加入字节时,字节也还是创业公司,创业公司的优势是决策链条更短,可以没有业务包袱地 all in 一件事。所以即使那时 BAT 有人才有资金,也没有抖音做得快。

现在字节是大公司,我们是创业公司,我们也有自己的优势,比如认知更领先、做得也更早。

《晚点》:科技巨头现在都很重视 AIGC,它们与创业公司间的行动时间差缩小了。

王长虎:大家会觉得大公司在每个时间点都会通透地看清所有事,事实上这不成立。以 AI 视频生成为例,过去一年很多大公司也看走眼了。去年大厂在聚焦什么?

我们有一个错觉,所有人对未来的判断会很一致,其实未必如此。技术如何演进?做产品时如何平衡和已有业务的关系?往后每一步都要做选择,这些对大公司都是不确定的,所以这是创业公司的机会。

《晚点》:同样是创业公司,头部大模型创业公司比你们融资多十倍,现在也在做视频生成模型。

王长虎:第一,聚焦还是都做,每个大模型公司的判断不一样。比如王小川说过,百川的很多人在 Sora 出来后想做视频,但他还是决定聚焦做大语言模型。

第二,大模型公司拿到了更多钱,但不会都拿来做视频生成,视频生成只是大语言模型之外的一个业务而已。

《晚点》:还有更轻、更专注的做法,比如去年走红的 Heygen,就不自己做模型,组合了 GPT 等模型,让赵本山流利地说英文。而你们是既做模型,也做直接面向用户的产品。

王长虎:我们的目标一直是做全球最领先的视频生成大模型和应用。现在技术发展非常快,只做应用层很容易被快速发展的技术颠覆。

我们也不会只做模型层,视频产品是最接近用户的,只做模型不去变现,这也不是我们的目标。

《晚点》:你们可以提供 API 给别的产品和应用公司用,这样也能变现。

王长虎:早期一些移动 App 也用过一些计算机视觉公司的 API,但这些 App 做得更大后,就开始用自建的。基因影响团队认知,我们想直接服务海量 C 端用户。

《晚点》:to C 又有两种做法:可以做类似剪映那样的生产工具,也可以做 AIGC 内容平台。你们的目标是什么?

王长虎:最终我们还是希望服务广大普通用户,具体产品形态需要去试,平台是一种可能性。

现在的视频生成能力还不能直接满足普通用户的需求,所以先服务专业创作者,基于新的内容生成范式去做下一代的工具:比如把拍摄时的演员、场景、摄像机取代了,这意味着生产要素被技术给囊括了。

随着视频生成技术的发展,用户的圈层会逐渐扩大,就会产生巨大的机会,比如当年的 B 站、小红书。

《晚点》:为什么你认为这个机会属于新平台?抖音已经有这么大流量,在已有信息流里加 AI 生成内容,不是比另起炉灶更容易吗?

王长虎:抖音为什么要在信息流里加 AI,这会带来哪些影响?

数字人也是 AI,但短视频平台对数字人现在比较谨慎。因为当主播都变成数字人时,对用户留存,广告收入可能都是负向影响。加 AI 要面临非常多类似的问题。

包括短视频最初兴起时,为什么长视频公司不加短视频?如何加?加了之后哪个更重要?资源怎么分配?预测未来时是没办法判断的。现在也是这样,未来依然不确定。

《晚点》:就现有内容形式看,大量 UGC 视频是记录生活的实拍内容,好像也不需要生成技术。

王长虎:我们看到新技术诞生后,总想把它套在熟悉的产品里。就像短视频早期,很多人认为短视频会是土豆、腾讯视频等的形态,这样思考的人没有抓住短视频的机会。

AI 视频生成也是这样。如果单独做 AI 的内容平台,它就不会是现有平台的样子,而会形成新的生态。

PixVerse 的用户场景并非是记录生活,而是实现普通摄像头难以拍摄的效果,有的用户用它创作香水广告、啤酒广告等广告视频,有的用户用它创作科幻大片。

《晚点》:这听起来还在满足专业人士的需求?

王长虎:主流短视频平台里创作视频的用户比例也只有个位数。因为虽然拍摄门槛虽然降低了,但创意、制作和质量依旧是门槛。

AI 生成视频能极大降低用户的创意和制作门槛,当长辈、孩子都可以用语言的方式直接生成高质量内容时,就会有大量现在想象不到的内容出现,也需要有很多不同的平台和 App 去承接这类内容。

“AI 时代就应该做全球产品”

《晚点》:你们现在是国内和海外市场一起做,但很多人认为只选一边更合理。

王长虎:做 AI 时代的产品就应该做全球产品。现在我们国内的产品和海外的产品是两个产品,每个产品的形态要符合当地的法律法规。我在字节的经历让我在跨国经营方面也有很多经验。

《晚点》:为什么爱诗不像 Heygen 那样整个团队出海?

王长虎:现在最重要的短视频产品很多发源于中国,这也为中国培养了最好的视频 AI 人才。所以我们选择 base 在国内,服务全球市场。

《晚点》:你们现在的海外用户更多,如何避免在部分海外市场,如美国市场可能遇到的风险?

王长虎:我们目前还没有到被关注的体量。

《晚点》:什么时候会加大投放力度?

王长虎:如果商业化能赚钱,我们算得过来 ROI,会加大投放。

用户规模意味着成本,所以我们并没有努力去做用户增长。短期我们也不会去设用户目标,还是希望能够把视频生成能力做到让越来越多的用户满意。

《晚点》:国内大语言模型的用户投放竞争现在更激进,是因为大语言模型的技术和商业化进展都更快吗?

王长虎:他们去年也不急,今年是因为有人卷起来了。大语言模型产品其实也没找到 PMF( Product Market Fit,产品与需求的契合点),比如 ChatGPT 是没有长期留存的,从 Data.ai 的数据看,ChatGPT 30 日留存不到 5%。

《晚点》:你们现在的人员规模还很小,其中多少做模型,多少做产品?

王长虎:研发占比超过 70%。我们团队非常精简,未来我们也会长时间控制规模,一方面这样管理成本比较低,另一方面我在字节时经历了快速发展期,用几十人的规模做出了 Google 上百人才能做出来的事,所以我觉得人数本身不重要。关键是找到有创业意愿的、高潜力的人才。

《晚点》:今年 AI 视频生成变热后,怎么继续留住优秀的人才?

王长虎:现在很多优秀的 AI 人才都是离开成熟大公司加入新公司。如果不是想创业,他们也不会加入早期公司。

《晚点》:有看过爱诗但没投的投资人告诉我们:王长虎不够年轻,不相信他能做好 to C 产品。

王长虎:首先我没看到这种倾向,其次创业就是要胆大、创新、寻求突破,所以创业者的心态都是年轻的。

现在大家分类创始人时,更多会讨论这是学术界出来的,还是工业界出来的,我两个基因都有。在微软亚研院的经历让我可以从海量科研论文里精准识别极少的、对我们有帮助的信息;在工业界我打过硬仗,参与过国民级视频产品的建设、有使用万卡 GPU 的经验,这些对创业也至关重要。

《晚点》:你会怎么形容这一年?

王长虎:我觉得现在的状态就很像去年在西北戈壁徒步,走到中途,前后都看不到人。

Sora 的出现意味着走着走着发现前面还有一个人,我的开心大过紧张,因为这个方向是对的,我没有走偏,并且还有机会超过它。

题图来源:PixVerse 生成

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论