新智元报道编辑:KingHZ 桃子【新智元导读】o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。满血o3更强了,却也更爱“胡言乱语”了。OpenAI技术报告称,o3和o4-mini“幻觉率”远高于此前的推理模型,甚至超过了传统模型GPT-4o。根据PersonQA基准测试,o3在33%的问题回答中产生了幻觉,几乎是...
网页链接新智元报道编辑:KingHZ 桃子【新智元导读】o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。满血o3更强了,却也更爱“胡言乱语”了。OpenAI技术报告称,o3和o4-mini“幻觉率”远高于此前的推理模型,甚至超过了传统模型GPT-4o。根据PersonQA基准测试,o3在33%的问题回答中产生了幻觉,几乎是...
网页链接
精彩评论