发布日期: 2025-06-19
IT之家 6 月 5 日音问,科技媒体 marktechpost 昨日(6 月 4 日)揭橥博文,报道称英伟达推出 ProRL 加强进修手段,并斥地出环球最佳的 1.5B 参数推理模子
推理模子是一种特意的人工智能体例,通过精细的长链推理(Chain of Thought,CoT)流程天生最终谜底。
然而,切磋者仍正在商量加强进修是否真正擢升大型措辞模子(LLM)的推理才略。现少有据讲明,RLVR 正在 pass@k 目标上未能明显优于根本模子,显示推理才略扩展受限。
其它,眼前切磋众鸠合于数学等特定例模,模子常被过分练习,范围了寻找潜力;同时,练习步数平时仅数百步,未能让模子充裕发达新才略。
英伟达切磋团队为治理上述题目,推出 ProRL 手段,耽误加强进修练习时代至跨越 2000 步,并将练习数据扩展至数学、编程、STEM、逻辑谜题和指令坚守等众个规模,涵盖 13.6 万个样本。
测试结果显示,该模子正在数学规模均匀擢升 15.7%,编程劳动 pass@1 无误率擢升 14.4%,STEM 推理和指令坚守划分擢升 25.9% 和 22.0%,逻辑谜题夸奖值擢升 54.8%,显现出健壮的泛化才略。