DeepSeek V31 终极版拆解：“人类最后测试”表现提升365%或为 V4

　　据官方先容，此次更新是基于原有模子材干，着重鼎新了说话类似性题目，并进一步优化了Code Agent与Search Agent的显示。

　　值得一提的是，间隔前次DeepSeek-V3.1模子更新仅过了一个月，新模子DeepSeek-V3.1-Terminus正在众个专业基准测试中的显示均有擢升。

　　正在非Agent（Thinking）形式下， DeepSeek-V3.1-Terminus正在MMLU-Pro（通俗学科学问）、GPQA-Diamond（顶尖专业科学困难）等方面显示较旧版本更优。个中正在Humanity‘s Last Exam（人类结果测试）中显示擢升高达36.5%，目前已超越Gemini 2.5 Pro模子来到环球排行榜第三位，该测试闭键侦查模子正在众种非常贫乏职责上的完全显示。

　　而正在Agent测评中，DeepSeek-V3.1-Terminus的网页浏览、编程材干和问答显示均取得小幅擢升。

　　本年8月，正在DeepSeek-V3.1颁发后，有不少用户反应新模子有两个主要Bug值得闭怀。其一是模子会崭露说话不类似题目，输出的解答每每中、英、法等说话混用，令用户糊涂。另一方面正在于用API挪用模子时，会不受控地随机输出“极”、“extreme”字样，影响代码平常运转。

　　针对第一个题目，有网友正在让DeepSeek-V3.1协助领悟红楼梦的文学代价时，输出的谜底会蓦地插一句“这个metaphor利用得极其精妙”，让用户哭乐不得。

　　搜狐科技正在新模子DeepSeek-V3.1-Terminus测试创造，说话殽杂的题目取得了缓解，而且语意外述较之前更为顺畅。

　　另有网友提到，此前翻译小语种时DeepSeek-V3.1崭露众邦说话殽杂题目尤其主要。搜狐科技也对此举行了测试，把一长段西班牙语喂给DeepSeek-V3.1-Terminus，并恳求用7邦说话举行转译，未创造说话殽杂题目崭露。

　　之前会正在输出代码中崭露“time.Se极”等特地字符，加倍是正在用Go和Python说话编写时崭露概率很高。但正在新模子上经众次测试，均未再崭露相像特地。

　　自V3.1版本模子颁发今后，DeepSeek官方将其称为“迈向 Agent 时间的第一步”，并连续长远正在 AI Agent 界限的结构。当前夸大DeepSeek-V3.1-Terminus正在Agent材干上的优化，进一步外明了这一政策重心。

　　据众方音讯爆料，DeepSeek 目前正紧锣密胀开辟具备更壮健 AI Agent 材干的全新模子，规划于 2025 年第四时度重磅推出。

　　此次对待“Terminus（尽头）”的模子定名，一度激发网友料到。有业内人士外现，“固然DeepSeek并未官宣这是V3系列的结果一次更新，但其名称确实证据确这一点。估计下一版本的颁发会是一个全新的架构，并会正在Agent方面出现更众惊喜。”

　　另有开辟者也外达了肖似意见，“这极有能够代外V3.1的时间架构，到这里一经打磨的差不众了，DeepSeek-V3.1-Terminus便是这个系列的收官之作，刚巧也是下一代模子的开始。”

　　海外里社交平台一经频现网友催更：DeepSeek-V4/DeepSeek-R2，是不是就要来了？

相关文章