当前位置:首页 > 科技  > 数码

AMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著

来源: 责编: 时间:2025-02-13 10:50:03 152观看
导读 快科技2月10日消息,DeepSeek大模型火遍海内外,AMD Instinct数据中心GPU第一时间实现了对新版DeepSeek V3的支持,并且集成了SGLang推理框架优化,从而提供佳性能。据介绍,DeepSeek-V3是一种强大的开源混合专家MoE

快科技2月10日消息,DeepSeek大模型火遍海内外,AMD Instinct数据中心GPU第一时间实现了对新版DeepSeek V3的支持,并且集成了SGLang推理框架优化,从而提供佳性能。qh928资讯网——每日最新资讯28at.com

据介绍,DeepSeek-V3是一种强大的开源混合专家MoE模型,共有6710亿个参数,是目前开源社区受欢迎的多模态模型之一,凭借创新的模型架构,打破了高效低成本训练的记录,获得整个行业交口称赞。qh928资讯网——每日最新资讯28at.com

DeepSeek-V3不仅沿用了此前DeepSeek V2中的多头潜在注意力机制MLA、MoE架构,还开创了无辅助损失的负载平衡策略,并设定了多token预测训练目标,以提高性能。qh928资讯网——每日最新资讯28at.com

目前,DeepSeek-V3在众多主流基准测试中的表现都已比肩世界顶级开源、闭源模型,包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等,尤其是拥有超强的长文本处理、数学及代码编程能力。qh928资讯网——每日最新资讯28at.com

AMD ROCm开源软件、AMD Instinct数据中心GPU加速器软硬联合,构成了强大的基础设施,在DeepSeek-V3开发的关键阶段发挥了重要作用,再次证明了AMD对开源AI软件的承诺,也能帮助开发者打造强大的视觉推理和理解应用。qh928资讯网——每日最新资讯28at.com

DeepSeek-V3的另一大亮点是采用FP8低精度训练,而AMD ROCm平台对于FP8的支持,显著改善了大模型的计算过程,尤其是推理性能的提升。qh928资讯网——每日最新资讯28at.com

通过支持FP8,AMD ROCm非常高效地解决了内存瓶颈、更多读写格式高延迟等问题,可以在一定的硬件限制内,运行更大的模型或批次。qh928资讯网——每日最新资讯28at.com

相较于FP16,FP8精度计算可以显著减少数据传输和计算的延迟,实现更高效地训练和推理。qh928资讯网——每日最新资讯28at.com

乘着DeepSeek的东风,AMD将继续推进ROCm开源开发生态,确保开发者能在第一时间基于AMD Instinct数据中心GPU从事DeepSeek相关的开发和应用工作,实现佳性能和扩展性。qh928资讯网——每日最新资讯28at.com

AMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著qh928资讯网——每日最新资讯28at.com

AMD官方博客传送门:qh928资讯网——每日最新资讯28at.com

https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.htmlqh928资讯网——每日最新资讯28at.com

附录:AMD Instinct数据中心GPU使用SGLang推理简单教程——qh928资讯网——每日最新资讯28at.com

开发者可访问https://github.com/sgl-project/sglang/releases,获取SGLang对DeepSeek-V3模型推理的完整支持。qh928资讯网——每日最新资讯28at.com

创建ROCm Docker镜像qh928资讯网——每日最新资讯28at.com

1、启动Docker容器:qh928资讯网——每日最新资讯28at.com

docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host //qh928资讯网——每日最新资讯28at.com

      --device=/dev/kfd   --device=/dev/dri    --security-opt qh928资讯网——每日最新资讯28at.com

seccomp=unconfined // qh928资讯网——每日最新资讯28at.com

      --group-add video  --privileged  -w /workspaceqh928资讯网——每日最新资讯28at.com

lmsysorg/sglang:v0.4.1.post4-rocm620qh928资讯网——每日最新资讯28at.com

2、开始使用:qh928资讯网——每日最新资讯28at.com

 1)登录Hugging Face:qh928资讯网——每日最新资讯28at.com

使用CLI登录Hugging Face:qh928资讯网——每日最新资讯28at.com

 huggingface-cli loginqh928资讯网——每日最新资讯28at.com

 2)启动SGLang服务器:qh928资讯网——每日最新资讯28at.com

 在本地机器上启动一个服务器来托管DeepSeekV3 FP8模型:qh928资讯网——每日最新资讯28at.com

 python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-codeqh928资讯网——每日最新资讯28at.com

 3)生成文本:qh928资讯网——每日最新资讯28at.com

 在服务器运行后,打开另一个终端并发送请求生成文本:qh928资讯网——每日最新资讯28at.com

 curl http://localhost:30000/generate /qh928资讯网——每日最新资讯28at.com

    -H "Content-Type: application/json" /qh928资讯网——每日最新资讯28at.com

    -d '{qh928资讯网——每日最新资讯28at.com

       "text": "Once upon a time,",qh928资讯网——每日最新资讯28at.com

       "sampling_params": {qh928资讯网——每日最新资讯28at.com

         "max_new_tokens": 16,qh928资讯网——每日最新资讯28at.com

         "temperature": 0qh928资讯网——每日最新资讯28at.com

        }qh928资讯网——每日最新资讯28at.com

      }'qh928资讯网——每日最新资讯28at.com

3、性能基准测试:qh928资讯网——每日最新资讯28at.com

单批次吞吐量和延迟:qh928资讯网——每日最新资讯28at.com

python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codeqh928资讯网——每日最新资讯28at.com

服务器:qh928资讯网——每日最新资讯28at.com

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codeqh928资讯网——每日最新资讯28at.com

python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8qh928资讯网——每日最新资讯28at.com

精度:0.952qh928资讯网——每日最新资讯28at.com

无效:0.000qh928资讯网——每日最新资讯28at.com

注意:由于DeepSeek-v3原生为FP8 训练,且目前仅提供 FP8 权重,如果用户需要 BF16 权重进行实验,可以使用提供的转换脚本进行转换。以下是将 FP8 权重转换为 BF16 的示例:qh928资讯网——每日最新资讯28at.com

cd inferenceqh928资讯网——每日最新资讯28at.com

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weightsqh928资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-130048-0.htmlAMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 蓝宝石自曝RX 9070 XT:纯白设计 煞是好看

下一篇: 铠侠全面展示AI SSD:不只是快 稳定性更高达99.999%!

标签:
  • 热门焦点
  • 小米降噪蓝牙耳机Necklace分享:听一首歌 读懂一个故事

    在今天下午的小米Civi 2新品发布会上,小米还带来了一款新的降噪蓝牙耳机Necklace,我们也在发布结束的第一时间给大家带来这款耳机的简单分享。现在大家能见到最多的蓝牙耳机
  • 6月安卓手机好评榜:魅族20 Pro蝉联冠军

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年6月1日至6月30日,仅限国内市场。第一名:魅族20 Pro好评率:95%5月份的时候魅族20 Pro就是
  • 8月总票房已突破10亿!《封神》第一:口碑已经成了

    8月5日消息,据灯塔专业版数据,截至8月5日9时35分,8月总票房(含预售)已突破10亿。其中,《封神》以大比分的优势领先。根据官方消息,目前该片总票房已经超过14.
  • JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 三言两语说透柯里化和反柯里化

    JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术,可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
  • Python异步IO编程的进程/线程通信实现

    这篇文章再讲3种方式,同时讲4中进程间通信的方式一、 Python 中线程间通信的实现方式共享变量共享变量是多个线程可以共同访问的变量。在Python中,可以使用threading模块中的L
  • 2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的“头腾
  • 支持aptX Lossless无损传输 iQOO TWS 1赛道版发布限时优惠价369元

    2023年7月4日,“无损音质,声动人心”iQOO TWS 1正式发布,支持aptX Lossless无损传输,限时优惠价369元。iQOO TWS 1耳机率先支持端到端aptX Lossless无
  • iQOO 11S评测:行业唯一的200W标准版旗舰

    【Techweb评测】去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,该机不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞
Top