突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

市场资讯2025-06-27

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。研究兴趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现...

网页链接
免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法