重新定义“小版本”！全面实测新版DeepSeek R1我们挖出了这些隐藏亮点

　　「DeepSeek R1 模子已杀青小版本试升级，接待赶赴官方网页、APP、小次第测试(翻开深度推敲)，API 接口和运用方法依旧稳固。」

　　环球最大 AI 开源社区 Hugging Face 仍旧开源了这个新版本，名字也很实正在：DeepSeek-R1-0528。只是截至目前，模子卡还没同步更新。

　　依照编码基准测试 LiveCodeBench 的最新结果，这一版 R1 的外示仍旧和 OpenAI o3 High 仍旧五五开了，况且，它的进取也远不止于代码才具。

　　比喻说，咱们参考网友@ ty_1215 的提示词，让新版 R1 计划一个扫雷逛戏，结果不光逻辑无缺，天生代码组织精巧，直接就能拿来跑。

　　再让它仿效 QQ 音乐播放器的 UI 计划，给它指个对象，它咔咔即是一通输出，不只有播放器主体，还带歌词、播放按钮、封面图、进度条。

　　阐明劳动只是根基操作，但拆解指示计划出适当审美且功用无缺的界面就难上加难了，最终交出的劳绩也给我一种它能做得更好的既视感。

　　再放飞一点，让它模仿一个太阳系，包罗太阳、八大行星和月球，能涌现公转轨道、自转动画，还条件布景得带上动态的星星。

　　天生的恶果固然颜色配得土了点，但搭配漫天的星星，全体空间气氛感直接拉满，特别是阿谁可缩放可挽回的视角，所有可能行为中小学科普动画的原型演示。

　　春节光阴，咱们让 DeepSeek R1 以《百年独立》的作风写春节面临七大姑八大姨的故事，当时就发掘，旧版 R1 文笔最大的瑕玷太爱堆砌意象，拽大词，读着有点油。

　　这回用 R1 v2 复刻统一个题目，作风显然收敛不少，发言更自然，意象不突兀，有文学感但不矫情，读起来更自然了。

　　比来看到一句文言文版的「懂的都懂」，我心念，新版 R1 逗留正在字面有趣就仍旧实属不易了，结果出乎意念，它不只供给字面有趣，还深挖了个深层寄义，以及以至从形而上学角度动手推敲。

　　相似的，咱们 3 月份的时分让 Deepseek R1 对《红楼梦》脂批中的「情榜」举行解读，发掘它的深度推敲历程逻辑性较弱，零碎地整合了分歧网页的观念。

　　这回拿同样的题目问 R1 v2，侦查它的深度推敲历程，发掘推敲历程的逻辑性更真切无缺，不再是对网页音信的零碎整合，且相合注到「用户或许没认识到但值得深挖的点」。

　　DeepSeek 这回的升级，并不仅是「答对题」这么容易。更紧要的是，它正在推理旅途上的少许细节改变，动手外现出新的才具组织。

　　鸡兔同笼好坏常经典的「必考题」，没有模子能遁得过。新 R1 的外示闪现出很好的稳当性：一动手用设元 + 解方程，再现出组织化筑模才具。后面补了一种逻辑回推法——一种规范的奥数思想熬炼套途。

　　两种形式互补，验算结果，担保确切。正在全体思想链张开中，每一个变量意旨、每一步算计、每一个代入都移交得明通达白。特别是中心历程的白话化外达，分外适合给不那么擅长数学的读者阅读。

　　最先有了然的组织认识，先讲「轮廓形式」，用根基角度算计；再引入「常用公式」举行验证；末了还能举行反向校正，验证。

　　「时针角度」的算计好坏常理念的模子测试题，由于除了要算计数值，也要有容易的几何观念。新 R1 不只能杀青算计，还再现根基的几何空间感。

　　全体历程中，众次显露了「我再确认一下」「有时分会有人算错」「我或许漏掉了什么」这些自查，解说模子现正在并不仅是一股脑的列数据，而是有「我正正在推敲」的式样——固然只是式样，但这不即是 CoT 的重点吗？

　　这看似一个脑筋急转弯，但实质上，所谓的「实话谎言」之间彼此嵌套，正在推理上要真正阐明「起码」和「最众」的语义。

　　这也就意味着不行果断地分词，务必研商每一种景况。是以这道题的思想链息争答都是最长的——胜过了四千字。

　　语义阐明没有翻车，这点很不错。从两个互斥的假设起程，来一点点杀青推理，研商了尽或许众种场景和或许性。

　　正在「老是撒谎」这个前提外明上，新 R1 没有过众外明。实质上，中文里它是会激励歧义的，「老是」二字会误导模子认为是「过去不绝都撒谎」而非「当下撒谎」。它这回没踩坑，或许有必然概率是靠「幻觉」躲过去了。

　　只是，这一题是真正暴呈现了题目：无论是思想链，仍是末了的解答，陈述方法都是规范的「发言模子思想链+流水账排查」，写得跟个五年级数学功课雷同，洋洋洒洒也啰烦琐嗦……

　　总体讲，新 R1「脑子」比以前真切了，推理自始自终的靠谱。正在代数推导、假设消释等枢纽外示巩固。推理旅途合座连贯，根基能切确阐明语义圈套类标题中的逻辑合连。

　　思想链的外示来看，比拟于之前的略显酷寒的「理工脑袋」陈述方法，这一次的 CoT 有点像是把模子的「脑内小剧场」摆了出来。但要更靠拢「人类思想作风」的外达，还需正在精辟、机合与核心识别上接续优化。

　　以经典的小球测试为例，从网友 @flavioAd 发的测试结果来看，新旧模子差异相当显然：旧版 R1 的球行动生疏、弹跳粘线，像是被钉死正在轨道上；新版 R1 的球运动更自然、重力感更强。

　　同样的提示词，Claude 输出了 542 行代码，DeepSeek 直接来 728 行，功用更全、细节更细，特别是节制面板的配色、反射、FPS 外示……有点工业计划功课的即视感。

　　模子的根基常识才具正在此次更新中有所升级。网友 @Yuchenj_UW 提到， DeepSeek-R1-0528 是目前唯逐一个能巩固确切解答「9.9 - 9.11 等于众少？」的模子。

　　网友的梗也没落下。有人揶揄 DeepSeek 写代码像 freestyle：假使数学禀赋陶哲轩 DeepSeek 强强结合，说大概真能出个「专辑」。当然，他所说的专辑不是音乐，而是一份能治理现代数学困难的论文。

　　着名 X 博主 @slow_developer 也参与了实测阵营，讴歌「DeepSeek 真是王者回来……」他为 R1 v2 计划了一道中等庞杂度的劳动：修筑一个单词评分体系。

　　DeepSeek R1 容易推敲了一下，一次性天生两个文献，一个是主次第，一个是测试剧本，代码组织了然，逻辑闭环，初次运转就胜利通过，没有报错。

　　目前据他测试，惟有 OpenAI 的 o3 模子一经能做到这种巩固输出，DeepSeek R1 v2 是第二个。

　　从解析用户妄念、触发全部函数，到末了组合成解答的无缺流程，DeepSeek 全程洁净干净，外示出极强的指令阐明 + 实践才具。

　　坏音信是，新版 R1 的颁布意味着 R2 或者还得再等等，好音信是，新版 R1 轮廓看着是个「小版本」，实则是一次能打的真升级，不管是可用性、巩固性，仍是庞杂劳动的杀青度，全都肉眼可主张往上抬了一档。

　　假使你还正在苦等 R2，能够先认线。用过一次，就真的回不去了。只是 DeepSeek 啊，咱即是说...那「办事器忙碌」的提示，能少点不？