5月28日晚,第一財經記者獲悉,DeepSeek小助手在官方交流群中通知,DeepSeek R1模型已完成小版本試升級,緊接著就在29日凌晨,官方在開源平臺HuggingFace上發布了DeepSeek-R1-0528。
目前官方還未更新模型卡以及公告介紹,但不少開發者已經第一時間進行了測試,發現這個“小版本升級”并不小,海外開發者感慨“一如既往的DeepSeek低調風格”。
眾多測試發現,DeepSeek-R1-0528目前提升最為明顯的是代碼能力,在代碼測試平臺Live CodeBench中,其性能幾乎媲美OpenAI重量級的o3-high模型。
有開發者表示,這是“開源的巨大勝利”。
不過,或許受限于測試的速率限制,目前開發者群體中公認編程能力最強的Claude-4系列模型并不在測試榜單中。
AI博主同時也是KCORES開源硬件項目聯合創始人@karminski-牙醫進行了個人的測試,基于最新的DeepSeek-R1模型和Claude-4-Sonnet進行測試,測試內容是用一個橙色小球撞擊物體,從效果顯示,平面的橙色漫反射、 撞擊效果方面是R1模型更好。
但有開發者對第一財經表示,這類能力看個例是不準的,或許要等評測榜單和一個月后的口碑見分曉。
除了代碼能力,有開發者總結了DeepSeek這次更新其他亮點,包括改進了寫作任務,更自然、格式更好。也有用戶反映,用最新模型寫作正常很多,沒有強烈的“量子力學元素”了。
@karminski-牙醫同時對最新模型進行了文本召回測試,發現在上下文32K以內比之前的R1模型要好不少,但是在60K的上下文中效果下降了不少。這意味著在32K以內針對給定的材料使用新R1模型提問,回答的準確度會更好。
在RI這次“小版本試升級”后,有海外網友表示,如果這是R1,那么R2會有多好?DeepSeek官方針對此前的V3模型和R1模型都做了一次迭代,但仍未放出大家期待的R2模型的消息。
此前3月,DeepSeek也是在hugging face默默上新DeepSeek-V3-0324迭代版本模型,DeepSeek介紹,新版V3模型借鑒R1模型訓練過程中所使用的強化學習技術,大幅提高了在推理類任務上的表現水平,此外在前端開發、中文寫作等方面進行了能力優化。
有業內人士猜測,是否模型架構不更新,只是增加或調整了訓練數據,DeepSeek就不將更新定義為大版本升級,而業內其他模型給出明顯的版本號迭代則是一種品牌營銷需求。目前DeepSeek并未對此進行任何解釋。
除了上述模型能力,開發者也希望未來DeepSeek R2若進行升級能大幅提升上下文長度,以及增加多模態的能力,畢竟這兩個方面的能力對于生產使用很重要。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。