在開源平臺HuggingFace上發布R1模型的更新后,5月29日晚,DeepSeek終于發布了官方公告介紹這次版本的具體能力迭代細節,其中包括深度思考能力強化、幻覺改善和創意寫作更好等。
在測評數據上,官方表示,更新后的R1模型在數學、編程與通用邏輯等多個基準測評中取得了當前國內所有模型中首屈一指的成績,并且在整體表現上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。
值得一提的是,DeepSeek提到,新版DeepSeek R1 針對“幻覺”問題進行了優化。與舊版相比,更新后的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低了 45%-50% 左右,能夠提供更為準確可靠的結果。
所謂幻覺即大模型的“胡說八道”,此前DeepSeek的幻覺率并不低,也被不少用戶和開發者所討論。5月15日,SuperCLUE曾發布最新一輪中文大模型忠實性幻覺測評結果,顯示此前的DeepSeek-R1模型幻覺率在21%左右,在測評的國內模型中排名第五。
據SuperCLUE,推理模型的幻覺比非推理模型更顯著,在他們的測評中推理模型的平均幻覺率為22.95%,非推理模型的平均幻覺率為13.52%。
除了幻覺方面的改善,官方介紹,新R1模型在復雜推理任務中的表現有了顯著提升。例如在 AIME 2025 測試(一個數學基準測試,用于模型在數學推理方面的能力)中,新版模型準確率由舊版的70%提升至87.5%。
此外,更新后的 R1 模型針對議論文、小說、散文等文體進行了進一步優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。
在官方發文之前,眾多測試表明R1新模型的代碼能力有顯著提升,在代碼測試平臺Live CodeBench中,其性能幾乎媲美OpenAI重量級的o3-high模型。官方此次公告也提到,在前端代碼生成、角色扮演等領域,模型的能力確實均有更新和提升。
在迭代路徑上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所發布的DeepSeek V3 Base模型作為基座,但在后訓練過程中投入了更多算力,顯著提升了模型的思維深度與推理能力。
本次R1新模型參數為 685B,開源版本上下文長度為 128K(網頁端、App 和 API 提供 64K 上下文)。同時,與舊版本的R1保持一致,此次開源模型權重仍然統一采用 MIT License,允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。
有趣的是,在X平臺DeepSeek的官方評論區中,討論的話題全都關于R2模型,“We want R2(我們想要R2模型)”,有用戶評論稱。業界對DeepSeek下一代的模型期待已久。
基于DeepSeek剛剛發布了更新,有用戶猜測,“是否意味著我們暫時不會聽到有關R2的消息?”也有用戶調侃稱,這一模型或許在開發中應該是R2,但是當他們發現在基準測試中沒有超越OpenAI的o3 時,DeepSeek將其重新命名為R1的更新。
一向低調的DeepSeek并未對外界的猜測進行任何回應,基于R1是在V3模型的基礎上訓練的,或許我們會先等到V4模型的更新。無論如何,海內外大模型領域的基座模型大戰還在繼續,DeepSeek之后,誰會是下一家?
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。