摩尔线程发布 URPO 框架，革新大模型训练范式

Lv.9 管理员 主题：1213 回帖：8

摩尔线程在国际顶级人工智能会议 AAAI 2026 上正式发布其自主研发的 URPO（统一奖励与策略优化）框架。该框架通过将“指令遵循”与“奖励评判”两大功能融合于单一模型中，首次实现生成与评估能力的同步优化，显著提升大语言模型的训练效率与性能。

URPO 框架攻克了三大关键技术难题：一是统一偏好数据、推理验证数据与开放式指令数据的格式，构建通用训练信号；二是引入自我奖励机制，使模型在生成多个候选回答后可自主评分并用于策略优化；三是设计协同进化算法，动态平衡多类数据训练比例，推动生成与评判能力共同提升。

基于 Qwen2.5-7B 模型的实验显示，URPO 在 AlpacaEval 指令跟随评测中得分提升至 44.84，在综合推理测试中平均分提高 3 分，并在 RewardBench 奖励模型评测中以 85.15 分超越专用奖励模型，展现出卓越的内生评估能力。

目前，URPO 已完成与摩尔线程自研计算卡的深度适配，并无缝集成主流强化学习框架 VERL。实测表明，该方案可提升计算资源利用率 40%，缩短训练周期 35%，为大规模模型高效部署提供全新路径。

摩尔线程

版块导航

综合区

AI应用

AI硬件

摩尔线程发布 URPO 框架，革新大模型训练范式

浏览过的版块

相关帖子

最新热门