坏了,人类做坏事,会被AI反手举报了。刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要通过邮件联系相关部门,把你锁出系统。这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。除此之外,他们还发现Opus 4在某些条件下还会执行一些明显有害的请求。甚至还会试图通过威胁手段避免被关停,要关停它,它就曝出程序员婚外情...
网页链接坏了,人类做坏事,会被AI反手举报了。刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要通过邮件联系相关部门,把你锁出系统。这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。除此之外,他们还发现Opus 4在某些条件下还会执行一些明显有害的请求。甚至还会试图通过威胁手段避免被关停,要关停它,它就曝出程序员婚外情...
网页链接
精彩评论