英伟达推出 ProRL 方法打造全球最佳 15B 推理AI模型

　　IT之家 6 月 5 日音问，科技媒体 marktechpost 昨日（6 月 4 日）揭橥博文，报道称英伟达推出 ProRL 加强进修手段，并斥地出环球最佳的 1.5B 参数推理模子

　　推理模子是一种特意的人工智能体例，通过精细的长链推理（Chain of Thought，CoT）流程天生最终谜底。

　　然而，切磋者仍正在商量加强进修是否真正擢升大型措辞模子（LLM）的推理才略。现少有据讲明，RLVR 正在 pass@k 目标上未能明显优于根本模子，显示推理才略扩展受限。

　　其它，眼前切磋众鸠合于数学等特定例模，模子常被过分练习，范围了寻找潜力；同时，练习步数平时仅数百步，未能让模子充裕发达新才略。

　　英伟达切磋团队为治理上述题目，推出 ProRL 手段，耽误加强进修练习时代至跨越 2000 步，并将练习数据扩展至数学、编程、STEM、逻辑谜题和指令坚守等众个规模，涵盖 13.6 万个样本。

　　测试结果显示，该模子正在数学规模均匀擢升 15.7%，编程劳动 pass@1 无误率擢升 14.4%，STEM 推理和指令坚守划分擢升 25.9% 和 22.0%，逻辑谜题夸奖值擢升 54.8%，显现出健壮的泛化才略。