这是自我实现的过程,这是 “无限游戏”。
访谈丨程曼祺
文丨实习生付自文
“从定量来看,搜索量直接翻了 3 倍。” 上周( 3 月 4 日),阿里通义千问团队人事震动后,在 AI 人才发现与分析平台 DINQ 上,有许多 HR 和猎头群体甚至 Meta 的人都在在搜索千问候选人的信息。
DINQ 的创始人高岱恒在 AI 技术圈和开源社区非常活跃。他曾是双非土木老哥,后来因为对 AI 开源项目的贡献进入了阿里达摩院。
2017 年,高岱恒还在读土木工程的硕士,但他觉得自己 “可能未来连个工作都找不到了。” 这时候他接触到了吴恩达的 AI 公开课。“他说你只要按部就班地学完了我的这个公开课,你会超过硅谷 95% 的工程师。我估计很多人是不信这个东西的,但是我那时候真信了。”
毕业后,高岱恒进入了一家公司,开始做视觉图像的检测。后来由于工作上的契机,高岱恒开始频繁地接触一些 AI 研究员,他们那些非典型的、充满反差的经历尤其吸引他。
高岱恒自比文艺复兴时期写了 《艺苑名人传》的 Vasari,挖掘研究员的故事,甚至到 OpenAI 总部蹲点。他把写 AI 人物英雄传当做自己的消遣和享受。
在他眼里,这些研究者就像文艺复兴时期的艺术家,他们有各自的性格、执念和技术浪漫。他们追求完整地做出一件作品的自我实现过程。
但这对大型商业组织来说是陌生的,是需要理解和适应的。阿里 Qwen 团队技术负责人林俊旸的离职就引发了人们的热议和思考:一个研究员和团队的目标该如何与商业公司的战略目标相对齐?
这是一个难以回答的问题,当然不同立场的人会有不同的观点。在高岱恒看来, AI 是一场 “无限游戏”,这些顶尖人才的流动将映射出 AI 时代生产关系的一次剧烈重构。
千问人事变动后,猎头搜索量翻了 3 倍
晚点:在上周阿里千问人事变动发生之后,Dinq 平台上看到的相关搜索量有什么变化吗?有哪些机构去找千问团队的候选人吗?
高岱恒:从定量来看,搜索量直接翻了 3 倍。大约有 2000 到 3000 条 query (查询)在搜 Qwen 相关的人,或者在查 Qwen 过去发表的论文里的作者信息。主要的搜索方向集中在大语言模型、强化学习和 Agent 这些目前最热门的方向。
搜索方主要还是 HR 和猎头群体。而且我们还看到,像 Meta 的 Executive Search (高管搜寻)负责人 George Lindner 这样的人也在搜千问的候选人。
晚点:你一直活跃在开源社区,认识很多机构和研究者。对于这次离职事件,开源社区大概是一个什么样的反应?
高岱恒:大家觉得挺奇怪的。因为从现实的影响力角度来看, Qwen 在开源领域绝对是第一梯队。在国外,跟他比较类似的是一个法国公司 Mistral ,它是世界上第一个主流开源模型 Llama 背后的很多核心成员做的。
Qwen 在本身没有先发优势的情况下,它现在的模型下载量在两个世界级的开源模型托管平台, Hugging Face 和阿里发起的 ModelScope (魔搭社区)上,都远超 Mistral 的开源模型。它事实上已经成为了开源模型领域的霸主,拥有非常丰富的模型系列,包括各种尺寸的小模型,还有图像、视频相关、推理相关的模型以及 Embedding 模型(嵌入模型,将语义信息转化为数值向量的表示学习模型)。
很多学术界的同学,无论国内外,其实都没有什么计算资源。而 AI 领域评估一个研究员能力的重要指标,就是看你是否能在顶尖学术会议上发表论文,比如 NeurIPS (神经信息处理系统大会)或 CVPR (计算机视觉与模式识别会议)。在这些会议上,你会看到越来越多的论文在引用千问的技术报告,把 Qwen 模型作为 Agent 的大脑或者其他链路里的重要环节。
所以从这个角度看,通义千问推动了整个 AI 学术界和工业界的重大发展。它的价值意义是非常大的。
晚点:你刚才对比它在开源社区的影响力时,提到了 Llama 和 Mistral 。国内关注者可能更熟悉 DeepSeek ,以及 Kimi 、 MiniMax 。千问在开源领域的影响力,和中国其他这些开源模型相比是什么情况?
高岱恒:现实来看, Qwen 模型的总下载量,在刚才提到的两个托管平台上,比后面这几家加起来的总和还要多。
晚点:主要原因是它的尺寸选择非常多,对吧?
高岱恒:对,它有 0.6B 、 1B 之类的尺寸,家族生态特别完善。而且从 2023 年下半年开始,学术界很多团队在论文里把 Qwen 模型作为了标准实践。这种行业心智非常重要,如果你没有这个心智,营销和宣传的成本会非常高。
晚点:具身智能行业用千问也比较多,因为机器人对端侧延时和算力消耗有要求。然后你刚才提到的魔搭社区,作为阿里发起的一个生态,它的成长速度很快。你当时应该还在达摩院,这是不是也跟阿里的开源策略以及 Qwen 的完善生态有关?
高岱恒:那个时候魔搭其实还不是特别流行,我们内部的同学最开始还被要求在里面贡献一些模型和数据集。后来没想到访问量和模型下载量越来越多了,这也证明华人 AI 从业者、开发者确实越来越多了。
晚点:像魔搭社区这样的平台,长期来说对阿里会有比较大的商业价值吗?
高岱恒: Hugging Face 或魔搭社区本质上类似 AI 时代的 GitHub 。它的价值在于你需要一个 Hub 去承载多种多样的模型、数据集和应用。这些东西越多,大家就越会来到你的平台,留下很多 “学习信号” 来反向指导公司的行为。
如果说平台直接挣钱,也有很多方式。比如像 Hugging Face 这种,可以把模型部署在平台上提供推理服务。包括存储,如果你有几 B 大小的数据集,托管在平台上也需要存储费。这其实是一种云服务的思路。但我觉得对阿里来讲, ModelScope 的战略意义应该远大于那点收入。
晚点:作为一个前阿里员工和开源社区的贡献者,你怎么看这次人事变化对接下来一段时间的影响?
高岱恒:我能预见的是这些人肯定会被 Meta 、 OpenAI 这些公司疯抢。尤其是在 xAI ,马斯克对这群人才如饥似渴。正好今年 SpaceX 跟 xAI 合并,可能会在 2026 年进行一次很大规模的 IPO ,这种极强的财富效应对于研究员有很强的吸引力。
对于市场来讲,会进入到一个 “收敛状态”。当大家发现大语言模型只要继续 Scaling (扩大规模)就能压榨出新智能,就会不停加注。公司可能在开源方面的投入会慢慢减少,更多点在于提升模型表现和 Agent 领域的 Tool Use (工具调用)能力。大家会招更多在国外公司有 Post-training (后训练)和 RL (强化学习)经验的人,让模型有更强的实战表现。
今天在各种 Benchmark 上刷榜,绝大多数人可能已经没那么 Care 了。这种情况下会诞生新的细分行业。比如大家会对强化学习环境更重视。或者以前大家喜欢在体内(公司内部)做,2026 年会看到更多第三方的数据提供商或强化学习提供商,为前沿实验室提供数据和服务。
晚点:这次事件也引发了讨论:前沿核心研发团队的目标与公司大目标之间怎么对齐?你是很了解这群人的,你觉得他们和大型商业组织长期会是什么关系?
高岱恒:近期来看,我觉得会很像文艺复兴时期的 Workshop (工作室)和金主的关系。现在的逻辑是,大家去一个 Workshop 当学徒,目标是做出自己的作品。他们很像艺术家,不是靠在某个公司工作几年去立足,而是靠自己的作品。
文艺复兴之前,做艺术跟木工、瓦工没区别。但文艺复兴后,巨大的投入和需求提升了这群人的社会地位。最典型的就是美第奇家族让达芬奇、米开朗基罗可以和贵族一起吃饭。映射到这两年,你会发现扎克伯格挖明星研究员开出的待遇,竟然比 NBA 或英超球星的工资还要高。这个趋势一旦形成就很难逆转。谁能把算力发挥出最好的性能,谁的溢价就极高。如果把项目交给一个小白,给再少的钱,干砸了金主也接受不了。
整个过程开始是大家在 “体内” 建立组织;但到了今年或明年,会看到很多 “体外” 组织。这些组织在大模型产业链里帮你做某一环,比如代工 Agent RL 的训练。这会让智能更快在各行业生根。最后可能会有完全偏独立的模型公司,目前在国外比较多,像 Cohere (一家自然语言处理领域的独角兽公司)就是典型的企业级 AI 公司,帮你做服务。随着工具链成熟和 Agent 调度能力增强,这类公司架构里的人也不会特别多,他们是整个生态里的毛细血管。
晚点:你说这种公司,比如 Mira (前 OpenAI CTO) 做的那个 Thinking Machines Lab ,他们推出了 Tinker 专门帮企业做强化学习训练。这些公司能找到的 “金主”,我理解还是一些自己不掌握核心 AI 技术的公司。最大的科技巨头比如阿里、字节、Meta、Google 应该还是倾向于在体内做。
高岱恒:整体来看,现实情况是全球 AI 领域的 PhD 和教授大部分现在都是华人。如果你要招一个 AP(助理教授),在 MIT 的超级天才和来自国内大学的学生之间,你肯定招后者,因为更好沟通、更勤奋。
在这种环境下,人才供给只会越来越多。这群人进入这个环境都把自己当 “演艺圈” 的人,目标是有自己的代表作,不像是传统的工程,老师傅带着你一步一步成长。无论是创业还是做工作室,大家的目标不只是进入 Qwen 或者 Kimi ,那只是中间过渡,最终是用顶会论文建立自己的门槛。
我完整经历过从传统计算机视觉 Deep Learning 到大模型、 Stable Diffusion(稳定扩散模型)的演进。如果你在 2020 年、 2021 年只会做 GAN(生成对抗网络)或 VAE( 变分自编码器),到了 2023 年不拥抱扩散模型,你就被干掉了。在大厂呆几年的经验没有任何优势。
今天许多大模型公司和团队,核心工作都是实习生在做的,这种规则跟其他行业完全不一样。
晚点:如果把他们类比成艺术家,追求代表作,那最终的长远目标是什么?如果是为了钱,人的需求肯定会再上一层,那个东西是什么?
高岱恒:长远目标是自我发展,而自我发展需要作品。我觉得做一个模型或开源项目,很多人点 Star 、提反馈,这就是自我实现的过程。这是一个 “无限游戏”。
晚点:也许有的人是为了在科学史上留下贡献,或者有使命感去实现更强的智能状态。
高岱恒:那属于潜意识。算法时代奖励的是产出,而不是不成型的东西。如果你在千问的 Technical Report(技术报告)上有一个名字,或者在小龙虾项目的 Contributors(贡献者)列表里排在前列,这能让你越来越有自信。这种正反馈会让你有更大的动力去胜任未来的工作、创业或任何事。
AI 研究员,这个时代的文艺复兴艺术家
晚点:DINQ 最开始是从一个好玩的小功能 “ AI 辣评” 开始的,为什么当时想到做这个?看到了什么有趣的用法?
高岱恒:这个小功能很简单,就是 25 年 3 月我有这个想法,4 月就开发出来了。用户可以输入自己的 Google Scholar(谷歌学术)、GitHub 或其它社交账号,模型就能分析他的经历并生成 “辣评”。当时市场情绪很高,研究员们也很好奇自己的身价,这就成了一个很多人会玩一玩的小产品。
最开始,我们对薪资档位的想象力还比较有限,最高只定到 1000 万美元。但 7 月 Meta 开始天价挖人,直接开到 1 亿美元。现在这种高薪已成常态,而且据我了解,这些公司是按月支付期权对价的。有些人年薪底薪可能只有 50 万美元,但有分四年给完的 2000 万美元期权,每个月兑现的期权价值比工资还多。
后面来玩的一些用户都超出我的想象了,像谢赛宁、斯坦福的杨迪一老师、做 MoE 的 Albert Jiang、月之暗面的联创周昕宇等等,都用过。我们还做了一个 PK 功能,比引用量等客观指标。我那会儿做过林俊旸和周畅的 PK ,当时是势均力敌。
所以我发现大家还挺喜欢这种小工具,就从这一点出发,想能不能做更严肃一点的、满足这群人需求的东西,所以有了 DINQ 这个创业想法。
晚点:你怎么定义这群人,他们的核心特质是什么?
高岱恒:就是对 AGI 的逼近,有创造、有贡献的人。
他们能完成一套完整流程:发现一个问题,提出一个方案,做很多实验,最后交付一个结果。这种人很容易让人联想到文艺复兴时期的艺术家。他们完整地在做一个作品,其实就是论文,比如一些具体算法和基础设施成果。
今天的前沿 AI 机构都在根据这些作品找人。他们的定价很多时候也是根据作品来的。而学历和工作经历,也重要,但现在的贬值速度非常快。
晚点:英雄不问出处。
高岱恒:是的。很多关键的研究员甚至都没上过大学。比如 Eric Luhman 和 Troy Luhman 兄弟,从 20 年左右就开始用扩散模型做一些科研任务。但他们当时没有投稿到学术期刊和会议,而是发在康奈尔大学做的 arxiv 预印本平台。后来他们被 OpenAI 招走了。
晚点:这样的趋势在中国、美国都明显吗?
高岱恒:都明显,中国公司现在招人也是这样,他们会在 GitHub 或者顶会论文上面寻找千里马。
我认为这是一个必然的现象。现在回看 2020 年其实已经暗暗埋下了很多伏笔。比如扩散模型的基础技术,UC Berkeley 的 Jonathan Ho 提出了 DDPM (去噪扩散概率模型)技术,斯坦福大学的宋飏也提出了相关的扩散模型技术。当时包括 Transformer 相关的一系列后验技术,以及跨文本的图像模态的 T5-xxL(文本到文本转移互感器模型 )等都已经趋于成熟。
这种技术储备在随后几年直接引发了学术界和工程界的产出激增。 以 ICLR(国际学习表征)会议为例, 2020 年的投稿量大概只有 2000 篇左右,到今年已经超过了 30000 篇。 这种爆发不仅限于论文,更多也是通过 GitHub 或 Hugging Face 这样的平台释放。今天我们看到 Hugging Face 上的中国模型数量在 2025 年下半年已经超过了美国,这个其实就代表着中国 AI 的力量已经非常的强大了。
还一个非常核心的观察是,这一波 AI 浪潮的核心推动者大多是 30 岁以下的年轻人。比如文生图领域重要的对齐模型 CLIP ,它的作者 Alec Radford 在 OpenAI 做出这项工作时不到 30 岁;如果没有这个模型,现在的 Dalle-E(OpenAI 的绘图模型)或者 Stable Diffusion 都不可能诞生。
也有中国人做的重要技术,比如旋转位置编码 ,是苏剑林在 2020 年左右提出的, 当时他也没到 30 岁。还有混合专家模型 MoE 的 Mistral 团队的 Albert Jiang 、 Stable Diffusion 的作者,来自德国慕尼黑大学的 Robin ,发布这些成果时都是 30 岁以下的年龄。
因为 2022 年其实正好我也 30 岁了,之前是因为做开源项目进入到达摩院工作的。从数学期望的角度来说,我可能很难通过在公司工作做出什么有重大影响力的事情了,所以那个时候我就在想,也许我后面应该做点别的事情。最近有一个很火的词叫斩杀线,对吧?就是可能你过了一定的年龄,这个好作品就和你无缘了。
晚点:所以转而想到去做社区或平台,让优秀的年轻人脱颖而出,并帮助企业连接这些人才。
高岱恒:是的。目前机构和公司最核心的诉求就是找到那些能产出重要技术的人。根据我的分析,无论是 2024 年开始很火的 GRPO(组相对策略优化)技术,还是现在的 GSPO(组稀疏策略优化),基本都是二十多岁的年轻人做出来的。
这就引出了一个关键点:公司该去哪里找他们?什么样的特质代表了这种潜力?我理解 AI 是一场 “无限游戏”,如果你想在智力赛道上始终占据领先位置,就必须持续吸引最优秀、最有想法的年轻人。
晚点:对这些年轻人来说,Github 、X 、领英这些已经存在的平台不够吗?
高岱恒:够的。但是问题就在于很难把这里面的有效信息进行筛选和整理,因为它的渠道太多元了。今天对于一个做 AI 研究的人来讲,他可能有十个社交媒体账号,些渠道可能都在产出信息。你怎么有效地把它聚合,我认为是更关键的。因为它其实要解决的不是内容的丰富度问题,而是信息的分发问题。
其实过去的分发模式没有问题,但今天的 AI 其实有非常多的新的细分方向:AI for Science、基础设施,各种语音模型、双工模型(Full-Duplex Models )等等。这些都需要人来做,也需要卡,那怎么能够找到那个适合去调配这几百甚至几千张卡的人,我们叫做造 F1 赛车的人,就变得非常重要。
同时你会发现,不但这些造 F1 赛车的人值钱,那些 F1 的车手——能做出有创造力作品的人,比如最近爆火的小龙虾机器人,还有 2025 年的这个 Claude Code 的作者 Boris Cherny,像这样的人也开始值钱。他们对大众的影响力是比研究院要高的。其实无数的时代看下来,都是 F1 车手比造 F1 的工程师的影响力更大。
从土木老哥到阿里达摩院
晚点:我们可以从头聊聊你的经历,你本科是学土木工程的,怎么变成 AI 研究员的?
高岱恒:我的这个路线确实不是规划出来的。因为在 2017 年的时候,我只是单纯觉得我再继续学那个方向,可能未来连个工作都找不到了。那一年阿尔法狗带来一波 AI 热潮,正好就碰到市场上有宣传 AI 的一些课程,其中最有代表性的就是吴恩达老师的 AI 课程。当时上完他的课程,我记得具体的技术我都已经忘完了,但是有一句话我印象非常深,就是他说你只要按部就班地学完了我的这个公开课,你会超过硅谷 95% 的工程师。我估计很多人是不信这个东西的,但是我那时候真信了。
后面我毕业之后也进了一家公司。那个时候主要都是在做视觉图像的检测,我发现其实大部分的工作内容没有那么难。然后我就在考虑我能做点什么,能让我自己的这个经历有一些增值。我就接触到了一个东西叫做 PyTorch ,就是 Meta 的深度学习框架。我能明显感觉到它的潜力是比当时谷歌的 Tensorflow 要强很多的。所以我就想,能不能在这个里面贡献点代码,我就开始密集地跟这些当时 PyTorch 的一些核心人员有一些邮件来往。
晚点:当时大家交流是一个什么氛围?
高岱恒:当时主要就是给大家发邮件,说我对这个方向比较感兴趣,你觉得我这么改是不是对的?然后那个时候相比谷歌的 Tensorflow 的话, PyTorch 贡献者也非常少。
那时候其实本质上我对开发的底层代码一窍不通,根本看不懂。那我怎么贡献呢?我用了一种比较抽象的方法,就是进每一个代码文件里面去看,我就在想他里面总会有语法错误,就比如说一个词可能拼错了。因为那个时候也没有所谓 AI 辅助编程的工具。我确实找到了几个,就改了,然后他们很快给我合并到代码仓库。虽然这样的东西没有任何技术含量,但是在当时给我了一个非常强的正反馈。所以我后面就一直在做开源,很自然地就进入了下一个阶段,开始做图像视频处理的一些开源技术。
晚点:那你能进入达摩院是因为那个时候达摩院就是按照作品去找人的吗?你自己是通过什么项目进去的?
高岱恒:我觉得不是,包括到现在为止,很多地方还是按学历去 “卡” 人的。因为这样做的核心逻辑是,大部分人并没有所谓的代表作,Signature Paper。
我自己是通过一个换脸项目,叫做 DeepFaceLab ,就是让一个不懂技术的人,可以在电脑上通过点击一些脚本,能够合成影视级的换脸效果。
做完那个东西之后,其实我印象比较深的一个机会是在 ICCV ,计算机视觉的一个顶级的会议,当时 2019 年在韩国首尔举办,然后他们就看到说我好像在这个项目里面贡献的挺多,就有一些人会主动来联系我说,你完全可以去什么字节跳动这种公司。
被拒的 GPT-1 一作、旅居越南的 RAG 发明者,创新来自边缘地带
晚点:你二三年底开始写 AI 人物英雄传,那个时候大家没有那么关注 AI 的一些研究员。你自己对这群人的兴趣是怎么来的?
高岱恒:我最开始对这群人产生兴趣,其实有一个特别具体的点。我在 2019 年的时候做换脸的项目,其实一直在关注最先进的生成技术。有一个叫风格式对抗生成网络 StyleGAN ,是英伟达做的,但在当时只有 TensorFlow 这个深度学习框架上有,我想把它迁移到 PyTorch 上面,然后在做的这个过程中,我就被他的这个代码质量深深地折服了。我很好奇到底是什么样的人能写出这种代码,就开始去挖掘它背后的作者。他是来自英伟达赫尔辛基实验室(芬兰)的一个研究员,叫 Tero Karras,而且这个人竟然连大学文凭都没有。我当时就觉得,这简直太牛了。
后来随着我对 PyTorch 社区了解的深入,我发现当时贡献最多的人,竟然还在波兰的华沙大学读大三,叫 Adam Paszke。他现在应该在谷歌开发另一个深度学习框架,叫 JAX。我觉得这帮哥们儿都挺 “神” 的,就想去挖掘他们更多的故事,然后有什么信息都想去挖一挖。
这些东西对于我来讲是工作之余的一个消遣。
晚点:你跟他们的一些人是建立了直接联系吗?有没有发生过什么比较有意思的事?
高岱恒:是的。我印象中比较有意思的一件事,是我当时联系 OpenAI 的前创始成员 Durk Kingma,他现在也在 Anthropic 。我那时候跟他建联的一个契机,是他获得了一个学术会议的 “时间检验奖”,然后我就给他发邮件去祝贺他。因为他是荷兰人,所以我们画了一张他的大头照,配上荷兰风车的背景发给他,表达了想认识他的意愿。当时他非常感兴趣,他说你这个太好玩了,然后我们就开始有一些邮件上的联系。
在 2024 年 7、8 月份的时候,我给他发了一封邮件,想听听他对未来的建议。因为那时候我也出来了,在思考未来该做点什么。他当时给出的建议非常明确,他说你一定要关注 AI Agent 这个方向。在那个时间点提出这个,其实算非常早的。然后我就去研究这个方向了。
他的逻辑很直接:如果你现在去做底层大模型,核心其实不在于技术,而在于基础设施,也就是算力和卡的问题,这就需要依托大公司。但做 AI Agent 更多是靠个人的创造力和能力,没有什么硬性门槛能拦住你。我非常认同这一点。
晚点:我发现你比较感兴趣的人物都是他的背景和成长路径跟最典型的不太一样的那些人。你是会被这种反差和戏剧性所吸引吗?
高岱恒:我觉得这种故事能给人留下深刻的记忆。如果你看到一个人的成长路径是一帆风顺的——从小就是 “学霸”,一路拿各种计算机或数学竞赛的金牌,大家会觉得这样的人很牛,但跟我没有什么关系。
我其实觉得每个人在某种程度上都会被这种反差感吸引。比较有代表性的就是 GPT 之父 Alec Radford。发布 GPT 时,他其实只是从波士顿的欧林工程学院毕业的一名本科生。
他进入 OpenAI 的时间非常早。当年实验室的主流方向是强化学习,因为那个方向的正反馈非常强,无论是让机器人拧魔方,还是打 Dota 比赛,都取得了很好的的成果。但当时只有他一个人在做这个下一个词预测。而且那个过程其实还做得磕磕绊绊,经历过论文被拒稿,也经历过实验效果跑得很拉的阶段。我就在想,在一个大家都取得成果的研究型实验室里,Alec Radford 当时内心一定承受了巨大的压力。
晚点:他是 GPT-1 的一作对吧?
高岱恒:GPT-1 和 GPT-2 。我印象很深,当时他把这个 GPT 的论文投稿到学术会议,叫 ICLR(国际学习表征),结果被拒稿了。所以你可以看到,后来的 GPT-2 其实是以 OpenAI 博客的形式发布的。他可能就不想让自己太难受了,因为投稿会被拒。直到第三代,他才正式在计算机顶级会议 NeurIPS 上发表并获得了认可。
题图来源:《奥本海默》
精彩评论