当前位置:首页 > 科技  > 软件

浪潮信息元脑 R1 服务器适配最新开源框架, 单机 DeepSeek 671B 并发过千

来源: 责编: 时间:2025-02-27 08:16:59 222观看
导读 浪潮信息元脑 R1 推理服务器已完成对开源框架 SGLang 最新版本的深度适配, 成功实现在单机高性能运行 DeepSeek R1 671B 模型时可最大支持超过 1000 路的用户并发访问。DeepSeek R1 参数量达到 6710 亿, 采用

浪潮信息元脑 R1 推理服务器已完成对开源框架 SGLang 最新版本的深度适配, 成功实现在单机高性能运行 DeepSeek R1 671B 模型时可最大支持超过 1000 路的用户并发访问。ChT28资讯网——每日最新资讯28at.com

ChT28资讯网——每日最新资讯28at.com

DeepSeek R1 参数量达到 6710 亿, 采用了 MLA 注意力机制和共享专家、路由专家共同组成的混合专家 (MoE) 架构, 其创新的模型架构也带来了在推理服务上的性能挑战。浪潮信息团队从 AI 服务器和推理框架入手开展了协同优化工作。ChT28资讯网——每日最新资讯28at.com

元脑 R1 推理服务器 NF5688G7 原生搭载 FP8 计算引擎, 针对 DeepSeek R1 671B 模型部署速度快且无精度损失,1128GB HBM3e 高速显存满足 671B 模型 FP8 精度下不低于 800GB 显存容量的需求, 单机支持全量模型推理情况下, 仍保留充足的 KV 缓存空间。显存带宽高达 4.8TB/s, 完美契合 DeepSeek R1 模型 "短输入长输出、显存带宽敏感" 的技术特征, 在推理解码阶段可实现极致加速。在通信方面,GPU P2P 带宽达 900GB/s, 保障单机部署张量并行最佳通讯性能。ChT28资讯网——每日最新资讯28at.com

SGLang 是新兴的开源推理框架项目, 其得到活跃的社区支持, 并在工业界获得了广泛应用。SGlang 的核心特性包括: 快速的后端运行时、灵活的前端语言、广泛的模型支持等。尤其值得关注的是,SGLang 针对 MLA 注意力机制开展了针对性的工程优化, 并在框架上对 MoE 架构的推理做了优化设计。SGLang 也是最早适配 DeepSeek v3 和 R1 的优选推理框架之一。ChT28资讯网——每日最新资讯28at.com

目前, 元脑 R1 推理服务器 NF5688G7 已完成 SGLang 最新版本 0.4.3 的适配优化工作。通过硬件调优、算子优化、混合并行、多 token 预测等多方面的工程实践, 在元脑 R1 推理服务器 NF5688G7 上运行 DeepSeek 671B R1 模型, 成功实现了单用户解码最高 33 tokens / s 及最大用户并发超 1000 的优异性能表现。ChT28资讯网——每日最新资讯28at.com

ChT28资讯网——每日最新资讯28at.com

单路并发性能测试日志, 根据 TPOT 换算用户解码性能为 33.3 tokens / sChT28资讯网——每日最新资讯28at.com

DeepSeek R1 671B 是一个稀疏度较高的 MoE 架构模型, 具有模型参数量大、计算量小的特点。和 Dense 模型相比, 在满足 KV cache 的显存占用的前提下, 可以支持更高的并发访问需求。实测数据表明, 基于单台 NF5688G7, 在使用 DeepSeek R1 进行带思维链深度思考的短输入长输出的问答场景下, 使用 100/1000 作为输入输出长度, 实测在单个用户并发时的解码性能为 33.3tokens / s; 在 16 个用户并发时, 每个用户有约 20 tokens / s 的解码性能; 在 64 个用户并发时, 每个用户有约 10.4 tokens / s 的解码性能。而在使用 1024 个用户并发访问的极限测试时, 单台 NF5688G7 实现了 3975.76 tokens / s 的吞吐性能, 可以满足超高并发场景下多用户使用需求。ChT28资讯网——每日最新资讯28at.com

ChT28资讯网——每日最新资讯28at.com

1024 路并发性能测试日志, 测试使用了 1000/1000 的输入输出长度, 实现了 3975.76 tokens / s 的总设备吞吐ChT28资讯网——每日最新资讯28at.com

浪潮信息团队正与业内团队密切合作, 在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力, 旨在为用户带来高性能、高效稳定、性价比高的 DeepSeek 大模型部署服务方案, 助力大模型快速落地应用。ChT28资讯网——每日最新资讯28at.com

浪潮信息是全球领先的 IT 基础设施产品、方案和服务提供商, 通过发展新一代以系统为核心的计算架构, 打造开放、多元、绿色的元脑智算产品和方案。浪潮信息致力于 AI 计算平台、资源平台和算法平台的研发创新, 并通过元脑生态携手领先伙伴, 加速人工智能的创新和应用落地。ChT28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-133897-0.html浪潮信息元脑 R1 服务器适配最新开源框架, 单机 DeepSeek 671B 并发过千

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Check Point 软件技术公司通过创新技术和安全防护平台守护 AI 时代超级互联世界的安全

下一篇: 央视曝光电诈新招,“手机口”充当诈骗分子“隐形传话筒”

标签:
  • 热门焦点
  • 6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    2023年上半年已经正式过去了,我们也迎来了安兔兔V10版本,在新的骁龙8Gen3和天玑9300发布之前,性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主,至于那颗3.36GHz的骁龙8Gen2领先
  • 三言两语说透设计模式的艺术-简单工厂模式

    一、写在前面工厂模式是最常见的一种创建型设计模式,通常说的工厂模式指的是工厂方法模式,是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式,不属于GoF 23种设计
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 一文看懂为苹果Vision Pro开发应用程序

    译者 | 布加迪审校 | 重楼苹果的Vision Pro是一款混合现实(MR)头戴设备。Vision Pro结合了虚拟现实(VR)和增强现实(AR)的沉浸感。其高分辨率显示屏、先进的传感器和强大的处理能力
  • 小红书1周涨粉49W+,我总结了小白可以用的N条涨粉笔记

    作者:黄河懂运营一条性教育视频,被54万人“珍藏”是什么体验?最近,情感博主@公主是用鲜花做的,火了!仅仅凭借一条视频,光小红书就有超过128万人,为她疯狂点赞!更疯狂的是,这
  • 猿辅导与新东方的两种“归途”

    作者|卓心月 出品|零态LT(ID:LingTai_LT)如何成为一家伟大企业?答案一定是对“势”的把握,这其中最关键的当属对企业战略的制定,且能够站在未来看现在,即使这其中的
  • 华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术

    华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性
  • 苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

    集微网消息,据彭博社报道,在8月3日印度突然禁止在没有许可证的情况下向印度进口电脑/平板及显示器等产品后,苹果、三星电子和惠普等大公司暂停向印度
  • iQOO Neo8 Pro抢先上架:首发天玑9200+ 安卓性能之王

    经过了一段时间的密集爆料,昨日iQOO官方如期对外宣布:将于5月23日推出全新的iQOO Neo8系列新品,官方称这是一款拥有旗舰级性能调校的作品。随着发布时
Top