重新定义“小版本”!全面实测新版DeepSeek R1我们挖出了这些隐藏亮点

发布日期: 2025-05-31

  「DeepSeek R1 模子已杀青小版本试升级,接待赶赴官方网页、APP、小次第测试(翻开深度推敲),API 接口和运用方法依旧稳固。」

  环球最大 AI 开源社区 Hugging Face 仍旧开源了这个新版本,名字也很实正在:DeepSeek-R1-0528。只是截至目前,模子卡还没同步更新。

  依照编码基准测试 LiveCodeBench 的最新结果,这一版 R1 的外示仍旧和 OpenAI o3 High 仍旧五五开了,况且,它的进取也远不止于代码才具。

  比喻说,咱们参考网友@ ty_1215 的提示词,让新版 R1 计划一个扫雷逛戏,结果不光逻辑无缺,天生代码组织精巧,直接就能拿来跑。

  再让它仿效 QQ 音乐播放器的 UI 计划,给它指个对象,它咔咔即是一通输出,不只有播放器主体,还带歌词、播放按钮、封面图、进度条。

  阐明劳动只是根基操作,但拆解指示计划出适当审美且功用无缺的界面就难上加难了,最终交出的劳绩也给我一种它能做得更好的既视感。

  再放飞一点,让它模仿一个太阳系,包罗太阳、八大行星和月球,能涌现公转轨道、自转动画,还条件布景得带上动态的星星。

  天生的恶果固然颜色配得土了点,但搭配漫天的星星,全体空间气氛感直接拉满,特别是阿谁可缩放可挽回的视角,所有可能行为中小学科普动画的原型演示。

  春节光阴,咱们让 DeepSeek R1 以《百年独立》的作风写春节面临七大姑八大姨的故事,当时就发掘,旧版 R1 文笔最大的瑕玷太爱堆砌意象,拽大词,读着有点油。

  这回用 R1 v2 复刻统一个题目,作风显然收敛不少,发言更自然,意象不突兀,有文学感但不矫情,读起来更自然了。

  比来看到一句文言文版的「懂的都懂」,我心念,新版 R1 逗留正在字面有趣就仍旧实属不易了,结果出乎意念,它不只供给字面有趣,还深挖了个深层寄义,以及以至从形而上学角度动手推敲。

  相似的,咱们 3 月份的时分让 Deepseek R1 对《红楼梦》脂批中的「情榜」举行解读,发掘它的深度推敲历程逻辑性较弱,零碎地整合了分歧网页的观念。

  这回拿同样的题目问 R1 v2,侦查它的深度推敲历程,发掘推敲历程的逻辑性更真切无缺,不再是对网页音信的零碎整合,且相合注到「用户或许没认识到但值得深挖的点」。

  DeepSeek 这回的升级,并不仅是「答对题」这么容易。更紧要的是,它正在推理旅途上的少许细节改变,动手外现出新的才具组织。

  鸡兔同笼好坏常经典的「必考题」,没有模子能遁得过。新 R1 的外示闪现出很好的稳当性:一动手用设元 + 解方程,再现出组织化筑模才具。后面补了一种逻辑回推法——一种规范的奥数思想熬炼套途。

  两种形式互补,验算结果,担保确切。正在全体思想链张开中,每一个变量意旨、每一步算计、每一个代入都移交得明通达白。特别是中心历程的白话化外达,分外适合给不那么擅长数学的读者阅读。

  最先有了然的组织认识,先讲「轮廓形式」,用根基角度算计;再引入「常用公式」举行验证;末了还能举行反向校正,验证。

  「时针角度」的算计好坏常理念的模子测试题,由于除了要算计数值,也要有容易的几何观念。新 R1 不只能杀青算计,还再现根基的几何空间感。

  全体历程中,众次显露了「我再确认一下」「有时分会有人算错」「我或许漏掉了什么」这些自查,解说模子现正在并不仅是一股脑的列数据,而是有「我正正在推敲」的式样——固然只是式样,但这不即是 CoT 的重点吗?

  这看似一个脑筋急转弯,但实质上,所谓的「实话谎言」之间彼此嵌套,正在推理上要真正阐明「起码」和「最众」的语义。

  这也就意味着不行果断地分词,务必研商每一种景况。是以这道题的思想链息争答都是最长的——胜过了四千字。

  语义阐明没有翻车,这点很不错。从两个互斥的假设起程,来一点点杀青推理,研商了尽或许众种场景和或许性。

  正在「老是撒谎」这个前提外明上,新 R1 没有过众外明。实质上,中文里它是会激励歧义的,「老是」二字会误导模子认为是「过去不绝都撒谎」而非「当下撒谎」。它这回没踩坑,或许有必然概率是靠「幻觉」躲过去了。

  只是,这一题是真正暴呈现了题目:无论是思想链,仍是末了的解答,陈述方法都是规范的「发言模子思想链+流水账排查」,写得跟个五年级数学功课雷同,洋洋洒洒也啰烦琐嗦……

  总体讲,新 R1「脑子」比以前真切了,推理自始自终的靠谱。正在代数推导、假设消释等枢纽外示巩固。推理旅途合座连贯,根基能切确阐明语义圈套类标题中的逻辑合连。

  思想链的外示来看,比拟于之前的略显酷寒的「理工脑袋」陈述方法,这一次的 CoT 有点像是把模子的「脑内小剧场」摆了出来。但要更靠拢「人类思想作风」的外达,还需正在精辟、机合与核心识别上接续优化。

  以经典的小球测试为例,从网友 @flavioAd 发的测试结果来看,新旧模子差异相当显然:旧版 R1 的球行动生疏、弹跳粘线,像是被钉死正在轨道上;新版 R1 的球运动更自然、重力感更强。

  同样的提示词,Claude 输出了 542 行代码,DeepSeek 直接来 728 行,功用更全、细节更细,特别是节制面板的配色、反射、FPS 外示……有点工业计划功课的即视感。

  模子的根基常识才具正在此次更新中有所升级。网友 @Yuchenj_UW 提到, DeepSeek-R1-0528 是目前唯逐一个能巩固确切解答 「9.9 - 9.11 等于众少?」的模子。

  网友的梗也没落下。有人揶揄 DeepSeek 写代码像 freestyle:假使数学禀赋陶哲轩 DeepSeek 强强结合,说大概真能出个「专辑」。当然,他所说的专辑不是音乐,而是一份能治理现代数学困难的论文。

  着名 X 博主 @slow_developer 也参与了实测阵营,讴歌「DeepSeek 真是王者回来……」他为 R1 v2 计划了一道中等庞杂度的劳动:修筑一个单词评分体系。

  DeepSeek R1 容易推敲了一下,一次性天生两个文献,一个是主次第,一个是测试剧本,代码组织了然,逻辑闭环,初次运转就胜利通过,没有报错。

  目前据他测试,惟有 OpenAI 的 o3 模子一经能做到这种巩固输出,DeepSeek R1 v2 是第二个。

  从解析用户妄念、触发全部函数,到末了组合成解答的无缺流程,DeepSeek 全程洁净干净,外示出极强的指令阐明 + 实践才具。

  坏音信是,新版 R1 的颁布意味着 R2 或者还得再等等,好音信是,新版 R1 轮廓看着是个「小版本」,实则是一次能打的真升级,不管是可用性、巩固性,仍是庞杂劳动的杀青度,全都肉眼可主张往上抬了一档。

  假使你还正在苦等 R2,能够先认线。用过一次,就真的回不去了。只是 DeepSeek 啊,咱即是说...那「办事器忙碌」的提示,能少点不?