123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?

量子位2025-05-23

坏了,人类做坏事,会被AI反手举报了。刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要通过邮件联系相关部门,把你锁出系统。这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。除此之外,他们还发现Opus 4在某些条件下还会执行一些明显有害的请求。甚至还会试图通过威胁手段避免被关停,要关停它,它就曝出程序员婚外情...

网页链接
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法