亚洲福利网站,free性欧美,狠狠色综合色综合网络,蜜桃麻豆www久久国产精品

幣圈網

DeepSeek小版本大升級,新R1模型代碼能力媲美OpenAI o3

5月28日晚,第一財經記者獲悉,DeepSeek小助手在官方交流群中通知,DeepSeek R1模型已完成小版本試升級,緊接著就在29日凌晨,官方在開源平臺HuggingFace上發布了DeepSeek-R1-0528。

目前官方還未更新模型卡以及公告介紹,但不少開發者已經第一時間進行了測試,發現這個“小版本升級”并不小,海外開發者感慨“一如既往的DeepSeek低調風格”。

眾多測試發現,DeepSeek-R1-0528目前提升最為明顯的是代碼能力,在代碼測試平臺Live CodeBench中,其性能幾乎媲美OpenAI重量級的o3-high模型。

有開發者表示,這是“開源的巨大勝利”。

不過,或許受限于測試的速率限制,目前開發者群體中公認編程能力最強的Claude-4系列模型并不在測試榜單中。

AI博主同時也是KCORES開源硬件項目聯合創始人@karminski-牙醫進行了個人的測試,基于最新的DeepSeek-R1模型和Claude-4-Sonnet進行測試,測試內容是用一個橙色小球撞擊物體,從效果顯示,平面的橙色漫反射、 撞擊效果方面是R1模型更好。

但有開發者對第一財經表示,這類能力看個例是不準的,或許要等評測榜單和一個月后的口碑見分曉。

除了代碼能力,有開發者總結了DeepSeek這次更新其他亮點,包括改進了寫作任務,更自然、格式更好。也有用戶反映,用最新模型寫作正常很多,沒有強烈的“量子力學元素”了。

@karminski-牙醫同時對最新模型進行了文本召回測試,發現在上下文32K以內比之前的R1模型要好不少,但是在60K的上下文中效果下降了不少。這意味著在32K以內針對給定的材料使用新R1模型提問,回答的準確度會更好。

在RI這次“小版本試升級”后,有海外網友表示,如果這是R1,那么R2會有多好?DeepSeek官方針對此前的V3模型和R1模型都做了一次迭代,但仍未放出大家期待的R2模型的消息。

此前3月,DeepSeek也是在hugging face默默上新DeepSeek-V3-0324迭代版本模型,DeepSeek介紹,新版V3模型借鑒R1模型訓練過程中所使用的強化學習技術,大幅提高了在推理類任務上的表現水平,此外在前端開發、中文寫作等方面進行了能力優化。

有業內人士猜測,是否模型架構不更新,只是增加或調整了訓練數據,DeepSeek就不將更新定義為大版本升級,而業內其他模型給出明顯的版本號迭代則是一種品牌營銷需求。目前DeepSeek并未對此進行任何解釋。

除了上述模型能力,開發者也希望未來DeepSeek R2若進行升級能大幅提升上下文長度,以及增加多模態的能力,畢竟這兩個方面的能力對于生產使用很重要。


幫企客致力于為您提供最新最全的財經資訊,想了解更多行業動態,歡迎關注本站。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

主站蜘蛛池模板: 榕江县| 大宁县| 万盛区| 墨竹工卡县| 丹阳市| 天台县| 锡林浩特市| 土默特右旗| 冕宁县| 天柱县| 东丰县| 岐山县| 台安县| 正宁县| 金寨县| 舞阳县| 常山县| 郁南县| 广南县| 商都县| 临沧市| 印江| 凯里市| 揭东县| 崇文区| 甘南县| 岗巴县| 应城市| 桂东县| 莱阳市| 东乌珠穆沁旗| 安阳县| 顺昌县| 濮阳市| 汉川市| 黄浦区| 任丘市| 南澳县| 唐河县| 临湘市| 四平市|