当前位置:首页 > 元宇宙 > AI

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

来源: 责编: 时间:2025-01-21 12:16:57 218观看
导读 DeepSeek 版 o1,有消息了。还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当。注意了,这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview(轻量预览版

DeepSeek 版 o1,有消息了。KtF28资讯网——每日最新资讯28at.com

还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当。KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

注意了,这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview(轻量预览版)。KtF28资讯网——每日最新资讯28at.com

而是摘掉了轻量版的帽子,称为 DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型。KtF28资讯网——每日最新资讯28at.com

LiveCodeBench 团队透露,他们正在与 DeepSeek 合作评估新模型的能力,在合作过程中,DeepSeek 团队还帮他们找出并解决了评分系统的一些 bug。KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

与此同时,他们还晒出了目前仅有的一张 DeepSeek-R1-Preview 的思考过程。KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

鉴于 DeepSeek 此前已宣布 R1 模型将开源,有网友表示,与 OpenAI o1 编程能力相当的开源模型即将发布,2025 年的编程就只剩下按 Tab 键了。KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

DeepSeek 推理大模型满血版

两个月前,DeepSeek 在官网上线 DeepSeek-R1-Lite-Preview 时曾透露:KtF28资讯网——每日最新资讯28at.com

DeepSeek-R1-Lite-Preview 使用强化学习训练,推理含大量反思和验证,遵循新的 Scaling Laws——推理越长,表现越强。KtF28资讯网——每日最新资讯28at.com

在 AIME 测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview 表现出稳定的得分提升。KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

DeepSeek-R1-Lite 推理的特点在网友们的后续测试中也得到了验证:KtF28资讯网——每日最新资讯28at.com

在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构和技术报告 / 论文的细节,很难确认这一点。KtF28资讯网——每日最新资讯28at.com

期待未来的开源模型和 API!KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

摘掉 Lite 的帽子,变成 DeepSeek-R1-Preview,意味着换了更大的基础模型。KtF28资讯网——每日最新资讯28at.com

之前 Lite 版就在难度较高数学和代码任务上超越 o1-preview,大幅领先 GPT-4o。KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

这次在 LiveCodeBench 上,这次的 DeepSeek-R1-Preview 的表现又与 OpenAI o1-Medium 相当,网友们更加期待开源模型和 API 了。KtF28资讯网——每日最新资讯28at.com

LiveCodeBench 由 UC 伯克利、MIT 和康奈尔大学团队推出,旨在对大模型的代码能力进行全面且无污染的评估。KtF28资讯网——每日最新资讯28at.com

具体避免测试数据泄露的方法,是随着时间的推移不断从人类的编程竞赛平台收集新的题目。KtF28资讯网——每日最新资讯28at.com

除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力。这样实时更新、确保公平性和可靠性的测试方法,获得了开发者社区的认可。KtF28资讯网——每日最新资讯28at.com

还有程序猿喊话 Cursor 直接把 R1-Preview 集成到 Agent mode 里:KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

One More Thing

赶在春节前,许多还在做训练的国产大模型团队,都把自家模型更新了一遍。OpenAI 似乎要趁这边放假开始搞事情了(狗头),阿尔特曼发帖透露:KtF28资讯网——每日最新资讯28at.com

o3-mini 完成外部合作测试,已确定最终版,将在几周内推出,会同时上线 API 和 ChatGPT。KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

在后续对话中,阿尔特曼还确认了未来模型更多基本情况:KtF28资讯网——每日最新资讯28at.com

o3-mini 的速度会非常快KtF28资讯网——每日最新资讯28at.com

o3-mini 大多数情况下不如 o1-proKtF28资讯网——每日最新资讯28at.com

o3 pro 收费从 $200 / 月起步KtF28资讯网——每日最新资讯28at.com

OpenAI 正在关注如何让 AI 一次性输出更多内容KtF28资讯网——每日最新资讯28at.com

2025 年计划把 GPT 系列和 o 系列合并KtF28资讯网——每日最新资讯28at.com

KtF28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨、西风,原标题《DeepSeek 新模型霸榜,代码能力与 OpenAI o1 相当且确认开源,网友:今年编程只剩 Tab 键》KtF28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9490-0.htmlDeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 特斯拉人形机器人背后有“人”?远程操控真相待解

下一篇: 我国将建立基于大数据和 AI 支持的教育评价和科学决策制度,建立全国学生心理健康监测预警系统

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • FMIFAwards奖项即将揭晓!

    来源:X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 新款英特尔芯片将使NFT铸造变得更加方便

    科技巨头和微处理器制造商英特尔(Intel)正在发布一款适用于 NFT 铸造和挖矿的新芯片。新产品专注于效率、易操作性和可持续性,该公司的战略是从加密兴起与 NFT爆
  • NFT艺术家Hayley Rincon 专访:我的迷幻数字艺术之路

    Hayley Rincon是一位令人印象深刻才华横溢的创作者,她的作品呈现出迷幻的气息。今天就来聊聊她的艺术作品,和她自己的数字艺术之路。Hayley是加利福尼亚湾区的有
  • 又一家数字营销公司入局元宇宙,国内首个艺术元宇宙社区“Meta彼岸”上线

    作者:董宇佳2月28日,智度股份在北京举办产品发布会,宣布其与国光电器联手打造的国内首个艺术元宇宙社区——“Meta彼岸”在VR端和移动端正式公测。从科技巨头布局
  • 知名艺术家打造去中心化“好莱坞”:一部电影一个DAO

    根据市场追踪网站 DappRadar 的数据,随着 NFT 的“出圈”与加密货币的普及,NFT 市场在 2021 年的销售额达到约 250 亿美元,而 2020 年仅为 9490 万美元,同比增超 2
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top