因一篇14页论文被谷歌“赶走”,超4000人为其声援!6年后再看:当年她几乎预言了整个AI时代

AI科技大本营06-08 18:32

出品 | CSDN(ID:CSDNnews)

如果把时间拨回 2020 年,大多数 AI 从业者讨论的还是 GPT-3 到底有多强。

彼时,生成式 AI 尚未成为全球焦点,ChatGPT 还要两年后才会问世,大模型更没有掀起如今席卷全球的投资狂潮就在那一年,一位谷歌顶级 AI 研究员却因为一篇尚未发表的论文,与公司爆发激烈冲突,并最终失去了工作。

当时很多人以为,这不过是硅谷又一次关于职场管理、学术发表和企业文化的争议;可如今再回头看,人们才发现,那篇论文中的警告,几乎全部在现实世界中应验了。

而被解雇的研究员,正是 AI 伦理研究领域最具影响力的人物之一——Timnit Gebru。

一场震动 AI 圈的“解雇事件”

2020 年 12 月,Timnit Gebru 社交平台发布消息称,自己已被谷歌解雇。

消息迅速引爆整个 AI 研究圈因为当时的 Gebru 并非一名普通研究员是谷歌伦理 AI 团队(Ethical AI Team)联合负责人,也是全球 AI 公平性与算法偏见研究领域知名学者之一。

出生于埃塞俄比亚的 Gebru 长期关注 AI 中的种族偏见、性别歧视以及社会公平问题。在加入谷歌之前,她曾在斯坦福大学从事研究。2018 年,她参与发表的一篇关于算法偏见的研究,被许多人视为 AI 公平性研究的重要转折点。同年,谷歌将她招入麾下,并高调展示公司对“负责任 AI(Responsible AI)”的重视。

然而仅仅两年后,双方便走向决裂。

当时谷歌对外给出的说法是 Gebru 主动辞职但 Gebru 本人则给出了完全不同的版本她表示,自己是在休假期间收到公司邮件,被告知离职立即生效,所有内部系统权限和邮箱访问权限同时被关闭。

在她看来,这是一场毫无疑问的解雇。

随后,超 4000 名谷歌员工和业内人士签署公开信,对公司的处理方式提出质疑,要求给 Gebru 复职——而这一切的导火索,是一篇仅有 14 页的学术论文。

https://s.csdn.cn/4nPsOp

一篇 14 页的论文引发争议

这篇论文名为《On the Dangers of Stochastic Parrots》(《随机鹦鹉的危险》)作者包括 Timnit Gebru、华盛顿大学语言学教授 Emily Bender,以及另外两位研究人员被引用次数目前已超 1.4 万次

后来“随机鹦鹉”这个名称广为流传(论文地址:https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

论文指出,大型语言模型本质上是在统计规律基础上复现语言模式它们能够生成流畅、自然甚至富有逻辑的文本,却并不真正理解语言的含义——就像一只学会模仿人类说话的鹦鹉看似聪明,实则这种模仿只是建立在海量互联网文本之上。而互联网本身充满了偏见、歧视和仇恨内容。因此,大模型极有可能将这些问题一并学习进去,并在生成内容时继续放大

要知道,是 2020 ,当时 GPT-3 刚发布ChatGPT 未诞生、大模型热潮也远未到来,这篇论文已经提前预言了今天整个行业最头疼的问题之一

论文提交顶级 AI 伦理会议后,谷歌管理层提出要求:撤回论文,或者移除谷歌研究人员的署名而 Gebru 拒绝,她要求公司说明具体原因,希望双方展开进一步讨论。

与此同时,她还向谷歌内部员工群组发了一封措辞激烈的邮件

在邮件中,Gebru 批评谷歌在推动少数族裔招聘和解决内部不平等问题上缺乏实际行动。她写道:“当你开始为弱势群体发声时,你的处境就会越来越糟。你会让其他领导层感到不舒服。”她还表示:如果公司始终无法解释为何要撤回论文,她将在适当的时候选择离职。

事情的发展远超她的预料。Gebru 表示,谷歌随后回复称不会满足她提出的要求,并直接接受了她的“辞职”立即取消了她的所有访问权限

当时,事件迅速演变成全球 AI 领域最具争议的话题之一。

当年看似激进的观点如今已成现实

真正让这起事件持续被讨论至今的,并不是解雇本身而是那篇论文里的内容——因为今天回头再看,其中提出的几乎每一个担忧,都已经变成AI行业正在面对的现实问题。

(1)第一项预警:模型会“胡说八道”

2020 年时,GPT-3 刚刚发布。当时人们惊叹于模型生成文本的能力,却很少有人认真讨论其可靠性。

Gebru 和 Bender 则指出:随着模型规模不断扩大,人们会越来越容易把流畅表达误认为真正理解。模型看起来像是在思考实际上只是在预测下一个最可能出现的词因此,它们迟早会生成看似合理却完全错误的信息。

今天,这个问题有了一个所有人都熟悉的名字:AI幻觉(Hallucination)。无论是 ChatGPT、Gemini、Claude 还是其他先进模型,幻觉问题至今仍未被彻底解决。

某种意义上来说论文在“幻觉”成为行业热词之前,就已经准确预见了它。

(2第二项预警:偏见不会消失,而会被放大

论文指出,互联网本身并不是中立的数据来源训练数据天然包含各种种族、性别、文化和地域偏见。模型不仅会学习这些偏见,还可能因为优化机制进一步强化它们。

后来各种现实问题验证了这一担忧

  • 亚马逊曾尝试利用AI筛选求职简历,结果系统会自动降低包含“women(女性)”等关键词简历的评分。

  • 美国多家大型医院使用的医疗风险评估系统被发现长期低估黑人患者的医疗需求。

  • 苹果信用卡 Apple Card 也曾因女性获得的信用额度远低于男性而引发监管关注。

这些案例都说明,算法并没有自动实现公平相反可能将现实世界中的不平等以更加隐蔽的方式固化下来。

3)第三项预警:AI 的能源消耗将成为新问题

在 2020 年,算力成本远没有今天这样受到关注,但那篇论文已经开始讨论训练超大模型带来的环境影响。据研究人员测算,训练一个大型语言模型所产生的碳排放量,相当于五辆汽车整个生命周期的排放总和——当时,这一说法被不少人认为过于悲观。

然而,随着 AI 基础设施建设进入军备竞赛阶段,问题迅速显现:根据谷歌公开披露的数据,2024 年公司温室气体排放量相比 2019 年增长 48%;微软同期也增长约 29%。这两家公司都明确表示,AI 数据中心和算力基础设施是重要原因之一。

有些讽刺的是,这些科技巨头几年前还在高调宣传碳中和目标。

(4)第四项预警:没人真正知道训练数据里有什么

在很多人眼中,训练数据似乎只是一个工程问题。但 Gebru 认为,随着数据规模越来越大,完整审计训练数据将变得几乎不可能。

她的观点再次应验:2023 年,研究人员发现广泛用于训练图像生成模型的数据集 LAION-5B 中,存在大量儿童虐待图片,包括 Stable Diffusion 在内的多个主流模型都曾使用这一数据集。

意料之中,许多开发者此前并不知道这些内容的存在。也就是说,即便是模型开发者自己,也未必真正了解模型“吃进去”的是什么——而这恰恰是论文最早提出的问题之一。

5)第五项预警:互联网将逐渐被 AI 内容占据

在谷歌看来,这可能才是整篇论文最敏感的部分。Gebru 和 Bender 认为,大模型的发展最终会把语言和文化的话语权集中到极少数科技巨头手中。原因很简单:训练超大模型需要海量资金、算力和数据资源真正有能力参与竞争的公司屈指可数。

久而久之,互联网中的主流声音将逐渐演变成:由少数公司训练出的统计平均值然后再以“中立助手”的身份向全世界传播。与此同时,那些在训练数据中占比较低的语言和文化则会被进一步边缘化。

严重的是,当 AI 生成内容再次进入互联网,并成为下一轮训练数据时,问题还会不断自我强化——这正是如今研究人员所说的:“模型崩溃(Model Collapse)”。

2024 年的一项研究发现,英文互联网新增内容中,约 57% 已经是 AI 生成或 AI 辅助生成而针对低资源语言的研究则发现,由于训练数据越来越多地来自 AI 生成内容,部分语言的翻译质量已经出现明显退化。

换句话说,这篇论文不仅预测模型崩溃现象,甚至在这个概念正式出现之前,就已经指出了其形成机制。

离开谷歌后,她选择继续研究

当年事件发生后,很多人后来将 Gebru 描述成“反 AI 人士”。其实并不是的,她从未主张停止发展 AI。从始至终,她质疑的是另一件事:

到底是谁在决定 AI 的发展方向?

在她看来,推动大模型发展的研究人员和管理层往往拥有相似背景,服务于相似商业目标,并受到相同的竞争压力驱动。在这样的激励机制下更快发布产品更快扩大用户规模更快赢得市场竞争往往比安全、公平和伦理问题拥有更高优先级。

所有试图减缓这一进程的人,都可能被视为阻碍者。讽刺的是,Gebru 正是在谷歌内部提出这一观点谷歌通过解雇她,让这一观点获得了最具戏剧性的现实注脚。

更令人唏嘘的是,事件发生后不久,另一位伦理AI团队联合负责人 Margaret Mitchell 也被解雇——短短 90 天内,谷歌曾经那个引以为傲的伦理 AI 团队基本被瓦解。

离开谷歌后,2021 年 Gebru 创立了分布式 AI 研究所(DAIR,Distributed AI Research Institute)。与大型科技公司不同,这家机构希望在商业利益之外开展 AI 研究,其目标很直接:研究那些科技巨头未必愿意面对的问题。过去几年里,DAIR 持续关注数据来源、算法公平性、语言多样性以及 AI 产业权力集中等议题。

而随着生成式 AI 爆发式发展,越来越多研究者也开始重新关注那篇《随机鹦鹉的危险》:因为他们发现,当年论文中被视为过度担忧的问题,如今已成为行业每天都在讨论的现实

或许,她只是比其他人更早看到了问题

六年过去,关于 Timnit Gebru 与谷歌之间的是非争议,外界或许永远无法获得一个所有人都认同的答案。

谷歌认为,那是一场正常的学术审查与离职事件;Gebru则认为,自己因为坚持发表研究成果而遭到打压。但有一点已经越来越难以否认:

那篇导致她离开谷歌的论文,并没有随着争议结束而失去意义。

恰恰相反,它讨论的幻觉、偏见、数据污染、环境成本、模型崩溃和权力集中等问题,如今已经成为整个 AI 产业无法回避的话题。

有时历史会以一种出人意料的方式给出评价。

  • 2020 年,很多人觉得 Timnit Gebru 太悲观了

  • 2026 年,人们开始意识到,她或许只是比其他人更早看到了问题。

参考链接:https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

🎁 开发者“神装”补给站|CSDN 6 月宠粉福利

不论你是想跑通最新的本地 LLM,还是想实测一套 Agent 自动化工作流,算力与补给,我们都为你备齐了!

立领三重进阶大礼:

200 小时云端算力券免费领(只限 6 月领取)

瑞幸咖啡/肯德基早餐/下午茶任选其一

海量资讯、精准解读,尽在新浪财经APP
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法