这篇文章不错,转发给大家看看

百度为其 AI 研发能力辩护

@晚点LatePost
借由上周发布会,百度文心一言成为中国用户最容易接触到,也相对易用的以文生图应用之一,短时间内获得大量传播和使用反馈。但最近,它被发现当输入的中文提示翻译成英文有多义时,输出的图像很奇怪: -输入 “起重机” —— 画出 “鹤”(Crane); -输入 “总线” —— 画出 “公共汽车”(BUS); -输入 “中国纸” —— 画出 “中国山水画”(Chinese Paper); 3 月23 日,百度用 177 字声明为其人工智能研发能力辩护,称文心一言是用 “符合行业惯例” 的全球互联网公开数据训练的自研模型 —— 但这是大多数人无法辨别真伪的评论。 百度用的是一种基于 “扩散模型” 的技术作图,这项技术的大致工作原理和用到的组件包括: -(前期准备工作)它有一个很大的图片库,里面有很多不同的图片,比如动物、风景、人物等等。这些图片都是它学习的素材。 -然后,它有一个很聪明的模型,可以把图片变成一些数字和符号,可以表示图片的内容和风格。 -(现在开始识别文字并作图)它需要一个很厉害的编码器,可以把输入文字也变成一些数字和符号,这些代码可以用来表示用户想要生成的图片的意思。 -最后,它通过 “扩散” —— 就是把一张全是彩色噪点的图片,慢慢地变得清晰和漂亮,变成根据输入的文字生成的图片了。 百度用的是声明里提到的 ERNIE-ViLG 模型,它用了一些新技术来提高扩散效率和准确率。模型最新公开的版本是 2.0,相关论文发布于去年 10 月。 不过,画图画出 Bug,最大 “问题” 不在于模型,而在于模型的图片库和模型对这些图片库的理解。 在 ERNIE-ViLG 2.0 的论文中,百度提到其训练数据集一共有 1.7 亿个图文对。其中一部分是百度自己的中文数据集,还有一部分是公开的英文数据集,百度通过自家百度翻译英译中,让模型去学习。 机器翻译不是百分百准确,比如 Musk 有时候不是马斯克,而是麝香。比如 mouse 可以是鼠标,也可以是老鼠。这也就意味着,一个英文指向老鼠的图片,在中文语境中对应的也可能是鼠标。 这也就是为什么会出现开头那一组奇怪的结果。至少解决或者减少这类错误的办法是清楚的:让模型学习更准确的图文对。这需要时间和钱。(龚方毅)
百度为其 AI 研发能力辩护

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论