百度为其 AI 研发能力辩护

借由上周发布会,百度文心一言成为中国用户最容易接触到,也相对易用的以文生图应用之一,短时间内获得大量传播和使用反馈。但最近,它被发现当输入的中文提示翻译成英文有多义时,输出的图像很奇怪:

-输入 “起重机” —— 画出 “鹤”(Crane);

-输入 “总线” —— 画出 “公共汽车”(BUS);

-输入 “中国纸” —— 画出 “中国山水画”(Chinese Paper);

3 月23 日,百度用 177 字声明为其人工智能研发能力辩护,称文心一言是用 “符合行业惯例” 的全球互联网公开数据训练的自研模型 —— 但这是大多数人无法辨别真伪的评论。

百度用的是一种基于 “扩散模型” 的技术作图,这项技术的大致工作原理和用到的组件包括:

-(前期准备工作)它有一个很大的图片库,里面有很多不同的图片,比如动物、风景、人物等等。这些图片都是它学习的素材。

-然后,它有一个很聪明的模型,可以把图片变成一些数字和符号,可以表示图片的内容和风格。

-(现在开始识别文字并作图)它需要一个很厉害的编码器,可以把输入文字也变成一些数字和符号,这些代码可以用来表示用户想要生成的图片的意思。

-最后,它通过 “扩散” —— 就是把一张全是彩色噪点的图片,慢慢地变得清晰和漂亮,变成根据输入的文字生成的图片了。

百度用的是声明里提到的 ERNIE-ViLG 模型,它用了一些新技术来提高扩散效率和准确率。模型最新公开的版本是 2.0,相关论文发布于去年 10 月。

不过,画图画出 Bug,最大 “问题” 不在于模型,而在于模型的图片库和模型对这些图片库的理解。

在 ERNIE-ViLG 2.0 的论文中,百度提到其训练数据集一共有 1.7 亿个图文对。其中一部分是百度自己的中文数据集,还有一部分是公开的英文数据集,百度通过自家百度翻译英译中,让模型去学习。

机器翻译不是百分百准确,比如 Musk 有时候不是马斯克,而是麝香。比如 mouse 可以是鼠标,也可以是老鼠。这也就意味着,一个英文指向老鼠的图片,在中文语境中对应的也可能是鼠标。

这也就是为什么会出现开头那一组奇怪的结果。至少解决或者减少这类错误的办法是清楚的:让模型学习更准确的图文对。这需要时间和钱。(龚方毅)

# 我对这事儿有想法

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论9

  • 推荐
  • 最新
  • 生生世世爱
    ·2023-03-24
    百度的AI不是那么完善,还有上升空间。
    回复
    举报
    收起
  • 我也不着急
    ·2023-03-24
    机器翻译一词多意真的很有意思。
    回复
    举报
  • 魚于郁
    ·2023-03-24
    这篇文章不错,转发给大家看看
    回复
    举报
  • 美股突击對
    ·2023-03-24
    这篇文章不错,转发给大家看看
    回复
    举报
  • Emma0002
    ·2023-03-24
    翻译不准确出来的图就不对
    回复
    举报
  • 老地方等你
    ·2023-03-24
    机器翻译也不是那么的准确。
    回复
    举报
  • JAJA幕幕
    ·2023-03-25
    1
    回复
    举报
  • 思冬
    ·2023-03-24
    |
    回复
    举报