百度为其 AI 研发能力辩护_老虎社区_美港股上老虎

百度为其 AI 研发能力辩护

借由上周发布会，百度文心一言成为中国用户最容易接触到，也相对易用的以文生图应用之一，短时间内获得大量传播和使用反馈。但最近，它被发现当输入的中文提示翻译成英文有多义时，输出的图像很奇怪：

-输入 “起重机” —— 画出 “鹤”（Crane）；

-输入 “总线” —— 画出 “公共汽车”（BUS）；

-输入 “中国纸” —— 画出 “中国山水画”（Chinese Paper）；

3 月23 日，百度用 177 字声明为其人工智能研发能力辩护，称文心一言是用 “符合行业惯例” 的全球互联网公开数据训练的自研模型 —— 但这是大多数人无法辨别真伪的评论。

百度用的是一种基于 “扩散模型” 的技术作图，这项技术的大致工作原理和用到的组件包括：

-（前期准备工作）它有一个很大的图片库，里面有很多不同的图片，比如动物、风景、人物等等。这些图片都是它学习的素材。

-然后，它有一个很聪明的模型，可以把图片变成一些数字和符号，可以表示图片的内容和风格。

-（现在开始识别文字并作图）它需要一个很厉害的编码器，可以把输入文字也变成一些数字和符号，这些代码可以用来表示用户想要生成的图片的意思。

-最后，它通过 “扩散” —— 就是把一张全是彩色噪点的图片，慢慢地变得清晰和漂亮，变成根据输入的文字生成的图片了。

百度用的是声明里提到的 ERNIE-ViLG 模型，它用了一些新技术来提高扩散效率和准确率。模型最新公开的版本是 2.0，相关论文发布于去年 10 月。

不过，画图画出 Bug，最大 “问题” 不在于模型，而在于模型的图片库和模型对这些图片库的理解。

在 ERNIE-ViLG 2.0 的论文中，百度提到其训练数据集一共有 1.7 亿个图文对。其中一部分是百度自己的中文数据集，还有一部分是公开的英文数据集，百度通过自家百度翻译英译中，让模型去学习。

机器翻译不是百分百准确，比如 Musk 有时候不是马斯克，而是麝香。比如 mouse 可以是鼠标，也可以是老鼠。这也就意味着，一个英文指向老鼠的图片，在中文语境中对应的也可能是鼠标。

这也就是为什么会出现开头那一组奇怪的结果。至少解决或者减少这类错误的办法是清楚的：让模型学习更准确的图文对。这需要时间和钱。（龚方毅）

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

社区