当前位置:首页 > 科技  > 数码

AMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著

来源: 责编: 时间:2025-02-13 10:50:03 179观看
导读 快科技2月10日消息,DeepSeek大模型火遍海内外,AMD Instinct数据中心GPU第一时间实现了对新版DeepSeek V3的支持,并且集成了SGLang推理框架优化,从而提供佳性能。据介绍,DeepSeek-V3是一种强大的开源混合专家MoE

快科技2月10日消息,DeepSeek大模型火遍海内外,AMD Instinct数据中心GPU第一时间实现了对新版DeepSeek V3的支持,并且集成了SGLang推理框架优化,从而提供佳性能。y8Q28资讯网——每日最新资讯28at.com

据介绍,DeepSeek-V3是一种强大的开源混合专家MoE模型,共有6710亿个参数,是目前开源社区受欢迎的多模态模型之一,凭借创新的模型架构,打破了高效低成本训练的记录,获得整个行业交口称赞。y8Q28资讯网——每日最新资讯28at.com

DeepSeek-V3不仅沿用了此前DeepSeek V2中的多头潜在注意力机制MLA、MoE架构,还开创了无辅助损失的负载平衡策略,并设定了多token预测训练目标,以提高性能。y8Q28资讯网——每日最新资讯28at.com

目前,DeepSeek-V3在众多主流基准测试中的表现都已比肩世界顶级开源、闭源模型,包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等,尤其是拥有超强的长文本处理、数学及代码编程能力。y8Q28资讯网——每日最新资讯28at.com

AMD ROCm开源软件、AMD Instinct数据中心GPU加速器软硬联合,构成了强大的基础设施,在DeepSeek-V3开发的关键阶段发挥了重要作用,再次证明了AMD对开源AI软件的承诺,也能帮助开发者打造强大的视觉推理和理解应用。y8Q28资讯网——每日最新资讯28at.com

DeepSeek-V3的另一大亮点是采用FP8低精度训练,而AMD ROCm平台对于FP8的支持,显著改善了大模型的计算过程,尤其是推理性能的提升。y8Q28资讯网——每日最新资讯28at.com

通过支持FP8,AMD ROCm非常高效地解决了内存瓶颈、更多读写格式高延迟等问题,可以在一定的硬件限制内,运行更大的模型或批次。y8Q28资讯网——每日最新资讯28at.com

相较于FP16,FP8精度计算可以显著减少数据传输和计算的延迟,实现更高效地训练和推理。y8Q28资讯网——每日最新资讯28at.com

乘着DeepSeek的东风,AMD将继续推进ROCm开源开发生态,确保开发者能在第一时间基于AMD Instinct数据中心GPU从事DeepSeek相关的开发和应用工作,实现佳性能和扩展性。y8Q28资讯网——每日最新资讯28at.com

AMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著y8Q28资讯网——每日最新资讯28at.com

AMD官方博客传送门:y8Q28资讯网——每日最新资讯28at.com

https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.htmly8Q28资讯网——每日最新资讯28at.com

附录:AMD Instinct数据中心GPU使用SGLang推理简单教程——y8Q28资讯网——每日最新资讯28at.com

开发者可访问https://github.com/sgl-project/sglang/releases,获取SGLang对DeepSeek-V3模型推理的完整支持。y8Q28资讯网——每日最新资讯28at.com

创建ROCm Docker镜像y8Q28资讯网——每日最新资讯28at.com

1、启动Docker容器:y8Q28资讯网——每日最新资讯28at.com

docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host //y8Q28资讯网——每日最新资讯28at.com

      --device=/dev/kfd   --device=/dev/dri    --security-opt y8Q28资讯网——每日最新资讯28at.com

seccomp=unconfined // y8Q28资讯网——每日最新资讯28at.com

      --group-add video  --privileged  -w /workspacey8Q28资讯网——每日最新资讯28at.com

lmsysorg/sglang:v0.4.1.post4-rocm620y8Q28资讯网——每日最新资讯28at.com

2、开始使用:y8Q28资讯网——每日最新资讯28at.com

 1)登录Hugging Face:y8Q28资讯网——每日最新资讯28at.com

使用CLI登录Hugging Face:y8Q28资讯网——每日最新资讯28at.com

 huggingface-cli loginy8Q28资讯网——每日最新资讯28at.com

 2)启动SGLang服务器:y8Q28资讯网——每日最新资讯28at.com

 在本地机器上启动一个服务器来托管DeepSeekV3 FP8模型:y8Q28资讯网——每日最新资讯28at.com

 python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-codey8Q28资讯网——每日最新资讯28at.com

 3)生成文本:y8Q28资讯网——每日最新资讯28at.com

 在服务器运行后,打开另一个终端并发送请求生成文本:y8Q28资讯网——每日最新资讯28at.com

 curl http://localhost:30000/generate /y8Q28资讯网——每日最新资讯28at.com

    -H "Content-Type: application/json" /y8Q28资讯网——每日最新资讯28at.com

    -d '{y8Q28资讯网——每日最新资讯28at.com

       "text": "Once upon a time,",y8Q28资讯网——每日最新资讯28at.com

       "sampling_params": {y8Q28资讯网——每日最新资讯28at.com

         "max_new_tokens": 16,y8Q28资讯网——每日最新资讯28at.com

         "temperature": 0y8Q28资讯网——每日最新资讯28at.com

        }y8Q28资讯网——每日最新资讯28at.com

      }'y8Q28资讯网——每日最新资讯28at.com

3、性能基准测试:y8Q28资讯网——每日最新资讯28at.com

单批次吞吐量和延迟:y8Q28资讯网——每日最新资讯28at.com

python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codey8Q28资讯网——每日最新资讯28at.com

服务器:y8Q28资讯网——每日最新资讯28at.com

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codey8Q28资讯网——每日最新资讯28at.com

python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8y8Q28资讯网——每日最新资讯28at.com

精度:0.952y8Q28资讯网——每日最新资讯28at.com

无效:0.000y8Q28资讯网——每日最新资讯28at.com

注意:由于DeepSeek-v3原生为FP8 训练,且目前仅提供 FP8 权重,如果用户需要 BF16 权重进行实验,可以使用提供的转换脚本进行转换。以下是将 FP8 权重转换为 BF16 的示例:y8Q28资讯网——每日最新资讯28at.com

cd inferencey8Q28资讯网——每日最新资讯28at.com

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weightsy8Q28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-130048-0.htmlAMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 蓝宝石自曝RX 9070 XT:纯白设计 煞是好看

下一篇: 铠侠全面展示AI SSD:不只是快 稳定性更高达99.999%!

标签:
  • 热门焦点
  • 6月安卓手机好评榜:魅族20 Pro蝉联冠军

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年6月1日至6月30日,仅限国内市场。第一名:魅族20 Pro好评率:95%5月份的时候魅族20 Pro就是
  • 5月iOS设备好评榜:iPhone 14仅排第43?

    来到新的一月,安兔兔的各个榜单又重新汇总了数据,像安卓阵营的榜单都有着比较大的变动,不过iOS由于设备的更新换代并没有那么快,所以相对来说变化并不大,特别是iOS好评榜,老款设
  • 8月总票房已突破10亿!《封神》第一:口碑已经成了

    8月5日消息,据灯塔专业版数据,截至8月5日9时35分,8月总票房(含预售)已突破10亿。其中,《封神》以大比分的优势领先。根据官方消息,目前该片总票房已经超过14.
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 掘力计划第 20 期:Flutter 混合开发的混乱之治

    在掘力计划系列活动第20场,《Flutter 开发实战详解》作者,掘金优秀作者,Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 年轻人的“职场羞耻感”,无处不在

    作者:冯晓亭 陶 淘 李 欣 张 琳 马舒叶来源:燃次元“人在职场,应该选择什么样的着装?”近日,在网络上,一个与着装相关的帖子引发关注,在该帖子里,一位在高级写字楼亚洲金
  • 7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • iQOO Neo8 Pro即将开售:到手价3099元起 安卓性能最强旗舰

    5月23日,iQOO如期举行了新品发布会,全新的iQOO Neo8系列也正式与大家见面,包含iQOO Neo8和iQOO Neo8 Pro两个版本,其中标准版搭载高通骁龙8+,而Pro版更
Top