当前位置：首页 > 科技 > 网络

R2来之前 DeepSeek又放了个烟雾弹

来源：责编：时间：2025-05-16 09:03:48 221观看

导读 5月前后，DeepSeek的动作倒是频繁，却都不是大家期待的R2。不过，一系列前菜已经给R2做足了铺垫。5月14日，一篇DeepSeek V3论文，揭示了梁文峰是如何做到“极致降本”的。这篇论文也让业界得以一窥这家以

5月前后，DeepSeek的动作倒是频繁，却都不是大家期待的R2。不过，一系列前菜已经给R2做足了铺垫。

5月14日，一篇DeepSeek V3论文，揭示了梁文峰是如何做到“极致降本”的。这篇论文也让业界得以一窥这家以技术立身的公司，其“内功”究竟修炼到了何种火候。

与此前发布的V3技术报告不同，这篇论文详细阐述了DeepSeek如何做到在硬件资源的的“紧箍咒”下，通过精妙的“软硬一体”协同设计，将成本效益这笔账算到极致。（虎嗅注：DeepSeek-V3仅使用了2048块英伟达H800 GPU）

在AI大模型这条烧钱的赛道上，算力即权力，但也可能是压垮骆驼的后一根稻草。DeepSeek V3论文的核心，恰恰点出了一个行业痛点：如何让大模型不再是少数巨头的专属游戏？

论文中，DeepSeek毫不吝啬地分享了其“降本增效”的几大秘籍，这些技术细节，字里行间都透露出对现有硬件潜能的极致压榨，也预示着未来DeepSeek系列模型在性能与效率上的野心：

其一，是给模型的“记忆系统”瘦身。AI处理长文本、多轮对话时，需要记住海量的上下文信息，这部分“记忆”（即KV Cache）对显存的消耗极为惊人。DeepSeek V3祭出了“多头隐注意力机制”（MLA），好比给模型的记忆装上了一个高效压缩软件，能将冗长的信息浓缩成精华，大幅降低显存占用。这意味着，即便是处理越来越长的上下文，模型也能更加从容不迫，这对于解锁更多复杂应用场景至关重要。

其二，是打造“专家各司其职”的团队。面对大模型天文数字般的参数量，传统的“一人生万物”模式难免力不从心。DeepSeek V3沿用并优化了“混合专家模型”（MoE）架构。想象一下，一个庞大的项目被分解给一群各有所长的专家，遇到具体问题时，系统会自动“摇人”，只激活相关的几位专家协同作战。这样一来，不仅运算效率提升，模型的“有效规模”也能在控制之下，避免了不必要的资源浪费。DeepSeek的优化，让这些“专家”间的沟通更顺畅，协作成本更低。

其三，是大胆拥抱“差不多就行”的数字精度。在AI训练中，数字的精确度并非越高越好。FP8，一种低精度数字格式，就像我们日常生活中算账，有时精确到“角”甚至“元”就已足够，不必非要到“分”。DeepSeek V3在训练中引入FP8混合精度，在对精度不那么敏感的环节“粗略”计算，直接效果就是计算量和内存占用大幅下降，训练速度更快、更省电。关键在于，论文证明了这种“偷懒”并不会明显牺牲模型的终性能。

其四，是铺设更畅通的“信息高速公路”。大规模训练离不开GPU集群的协同作战，GPU之间的数据交换效率，直接决定了训练的整体速度。DeepSeek V3采用了“多平面网络拓扑结构”，优化了集群内部的数据传输路径，减少了拥堵和瓶颈，确保信息流转如丝般顺滑。

可以说，DeepSeek V3的新论文，更像是一次技术自信的展示。它传递出一个清晰的信号：即便没有顶级的硬件配置，通过极致的工程优化和算法创新，依然可以打造出具备行业领先潜力的大模型。这无疑为那些在算力焦虑中挣扎的追赶者们，提供了一条更具可行性的攀登路径。

实际上，4月30日，DeepSeek还上了另一道“前菜”。

当时，DeepSeek Prover V2以671B的参数重磅亮相，要知道，DeepSeek上一次发布V2模型的时候仅有7B。对于DeepSeek Prover V2，行业观察者们普遍认为，这是AI在辅助科学发现，特别是挑战人类智力极限的数学领域迈出的重要一步。

而DeepSeek近期的系列动作，放置于当前AI大模型产业的宏观背景下，更耐人寻味。

一方面，我们看到的是头部厂商在模型参数、多模态能力、应用生态上的全方位“内卷”，技术迭代的速度令人目不暇接，资本的热情也持续高涨。但另一方面，算力成本的持续攀升、商业化路径的尚不清晰、以及“智能涌现”之后如何实现真正的价值创造，这些都是悬在所有从业者头顶的达摩克利斯之剑。

在这样的背景下，DeepSeek V3论文所强调的“成本效益”和“软硬件协同”，以及Prover V2所代表的在特定高壁垒领域的深耕，似乎在传递一种不同的信号：在追求更大、更强的同时，对效率的极致追求和对特定价值场景的深度挖掘，可能成为AI下半场竞争的关键变量。

当“大力出奇迹”的边际效应开始递减，当市场开始从对技术本身的狂热转向对实际应用价值的考量，那些能够更聪明地利用现有资源、更精准地切入真实需求、更深入地理解并解决复杂问题的玩家，或许才能在喧嚣过后，笑到后。

DeepSeek的这些“前菜”，无疑吊足了市场的胃口。人们期待的，不仅仅是一个性能更强的R2模型，更是一个能够为行业带来新思路、新变量的DeepSeek。在AI的牌桌上，这家以技术为底色的公司，显然还想打出更多意想不到的牌。

R2来之前 DeepSeek又放了个烟雾弹

文章出处：虎嗅网

本文链接：http://www.28at.com/showinfo-17-150075-0.htmlR2来之前 DeepSeek又放了个烟雾弹

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： “狗啃的” 楼梯网上酷炫的宇树现实里是这个样的

下一篇：凭啥“韩国的泡菜缸”能卖几千万啊

标签：

热门焦点

直屏旗舰来了 iQOO 12和K70 Pro同台竞技

旗舰机基本上使用的都是双曲面屏幕，这就让很多喜欢直屏的爱好者在苦等一款直屏旗舰，这次，你们等到了。据博主数码闲聊站带来的最新爆料称，Redmi下代旗舰K70 Pro和iQOO 12两款手
vivo TWS Air开箱体验：真轻臻好听

在vivo S15系列新机的发布会上，vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布，本次就这款耳机新品给大家带来一个简单的分享。外包装盒上，vivo TWS Air保持了vivo自家产
2023年Q2用户偏好榜：12+256G版本成新主流

3月份的性能榜、性价比榜和好评榜之后，就要轮到2023年的第二季度偏好榜了，上半年的新机潮已经过去，最明显的肯定就是大内存和存储的机型了，另外部分中端机也取消了屏幕塑料支架
一文搞定Java NIO，以及各种奇葩流

大家好，我是哪吒。很多朋友问我，如何才能学好IO流，对各种流的概念，云里雾里的，不求甚解。用到的时候，现百度，功能虽然实现了，但是为什么用这个？不知道。更别说效率问题了~下次再遇到，
本地生活这块肥肉，拼多多也想吃一口

出品/壹览商业作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期，拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现，该界面目前主要
三星显示已开始为AR设备研发硅基LED微显示屏

7月18日消息，据外媒报道，随着苹果首款头显产品Vision Pro在6月份正式推出，AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域，对显示屏这一关
iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

去年底，iQOO推出了“电竞旗舰”iQOO 11系列，作为一款性能强机，iQOO 11不仅全球首发2K 144Hz E6全感屏，搭载了第二代骁龙8平台及144Hz电竞屏，同时在快充
荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

荣耀 Magicbook V 14 2021 曙光蓝版本正式开售，搭载 i7-11390H 处理器与 MX450 显卡，配备 16GB 内存与 512GB SSD，重 1.48kg，厚 14.5mm，具有 1.5mm 键盘键程、
英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

据10 月 30 日外媒 TheVerge 消息报道，英特尔 Xe HPG Arc Alchemist 的正面实被曝光，不仅拥有 512 EU 版显卡，还拥有 128EU 的单风扇版本。另外，这款显卡 PCB

R2来之前 DeepSeek又放了个烟雾弹

直屏旗舰来了 iQOO 12和K70 Pro同台竞技

vivo TWS Air开箱体验：真轻臻好听

2023年Q2用户偏好榜：12+256G版本成新主流

一文搞定Java NIO，以及各种奇葩流

本地生活这块肥肉，拼多多也想吃一口

三星显示已开始为AR设备研发硅基LED微显示屏

iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

最新推荐

猜你喜欢

热门推荐

相关资讯