当前位置:首页 > 科技  > 网络

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

来源: 责编: 时间:2024-10-30 15:57:24 235观看
导读 10月29日消息,YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克 (Elon Musk)旗下人工智能企业xAI的Colossus AI 超级计算机集群,其集成了100000个英伟达(NVIDIA)H100 GPU,号称是目前全球强大的AI超级

10月29日消息,YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克 (Elon Musk)旗下人工智能企业xAI的Colossus  AI 超级计算机集群,其集成了100000个英伟达(NVIDIA)H100 GPU,号称是目前全球强大的AI超级计算机集群。HCw28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPUHCw28资讯网——每日最新资讯28at.com

早在今年7月下旬,马斯克就在“X”平台上宣布,自己已经启动了“世界上强大的 AI 集群”。这座AI集群从开始建设到完成组装仅花了122天就完成了,目前已经上线运行了约3个月。HCw28资讯网——每日最新资讯28at.com

根据ServeTheHome曝光的信息来看,庞大的Colossus  AI超级计算机集群采用的是超威电脑(Supermicro)的服务器,其基于NVIDIA HGX H100方案,每个服务器中拥有8个H100 GPU,封装在 Supermicro 的 4U 通用 GPU 液冷系统内,为每个 GPU 提供简单的热插拔液冷。HCw28资讯网——每日最新资讯28at.com

这些服务器装载在机架内,每个机架可容纳 8 台服务器,也就是说每个机架内有 64 个 GPU。1U 歧管夹在每个 HGX H100 之间,提供服务器所需的液体冷却。每个机架的底部是另一个 Supermicro 4U 单元,这次配备了冗余泵系统和机架监控系统。HCw28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△四组 xAI 的 HGX H100 服务器机架,每组可容纳八台服务器。(图片来源:ServeTheHome)HCw28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△xAI Colossus GPU 服务器的后部访问。每台服务器有 9 根以太网电缆,每台服务器有 4 个电源。电源和液体冷却软管也可见。(图片来源:ServeTheHome)HCw28资讯网——每日最新资讯28at.com

这些机架以 8 个为一组配对,每个阵列有 512 个 GPU。每台服务器都有四个冗余电源,GPU 机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。HCw28资讯网——每日最新资讯28at.com

Colossus 集群中有超过 1500 个 GPU 机架,或近 200 个机架阵列。据英伟达首席执行官黄仁勋称,这 200 个阵列的 GPU 仅用了三周时间就完成了安装。HCw28资讯网——每日最新资讯28at.com

由于 AI 超级集群不断训练模型的高带宽要求,xAI 在其网络互连性方面提供了超大的带宽。HCw28资讯网——每日最新资讯28at.com

目前每个显卡都有一个 400GbE 的专用 NIC(网络接口控制器),每台服务器还有一个额外的 400Gb NIC。这意味着每台 HGX H100 服务器都有每秒 3.6 TB 的以太网速率。整个集群都在以太网上运行,而不是 InfiniBand 或其他在超级计算领域标配的连接。HCw28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△仰望一大片的黄色以太网电缆,将 xAI Colossus 集群连接在一起。多层过宽的电缆线路嵌入天花板中。(图片来源:ServeTheHome)HCw28资讯网——每日最新资讯28at.com

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU△xAI 的 Colossus CPU 计算服务器,看起来与该站点中也广泛使用的 Supermicro 存储服务器完全相同。(图片来源:ServeTheHome)HCw28资讯网——每日最新资讯28at.com

当然,像 xAI 旗下Grok 3 聊天机器人这样基于训练 AI 模型的超级计算机需要的不仅仅是 GPU 才能运行。HCw28资讯网——每日最新资讯28at.com

Colossus集群当中的存储和 CPU 计算机服务器的详细信息仍未曝光,不过这些服务器也大多采用 Supermicro 机箱。一波又一波的 NVMe 转发 1U 服务器内部带有某种 x86 平台 CPU,可容纳存储和 CPU 计算,还具有后入式液体冷却功能。HCw28资讯网——每日最新资讯28at.com

另外,在该超级计算机集群的外面,还可以看到一些大量捆绑的特斯拉 Megapack 电池(每个多可容纳 3.9 MWh)。HCw28资讯网——每日最新资讯28at.com

该电池阵列的是为了应对突发停电的临时备用电源,其可以在毫秒之间快速提供供电,相比柴油发电机反应要快得多,可以使得有足够时间去启动其他备用电源。HCw28资讯网——每日最新资讯28at.com


文章出处:芯智讯

本文链接:http://www.28at.com/showinfo-17-125045-0.html马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 别再随意扔掉!二手家电纸箱竟卖到数百元:买家究竟是谁

下一篇: 菜鸟全面接入京东非自营平台:提供电商快递和大件服务

标签:
  • 热门焦点
  • JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • K6:面向开发人员的现代负载测试工具

    K6 是一个开源负载测试工具,可以轻松编写、运行和分析性能测试。它建立在 Go 和 JavaScript 之上,它被设计为功能强大、可扩展且易于使用。k6 可用于测试各种应用程序,包括 Web
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 新电商三兄弟,“抖快红”成团!

    来源:价值研究所作 者:Hernanderz 随着内容电商的概念兴起,抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力,给阿里、京东、拼多多带去了巨大压
  • 华为将推出盘古数字人大模型 可帮助用户12小时完成数字人生成

    在今日举行的2023年华为云数字文娱AI创新峰会上,华为云全球Marketing与销售服务总裁石冀琳表示,华为云将在后续推出盘古数字人大模型,可帮助用户12小
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
  • 世界人工智能大会国际日开幕式活动在世博展览馆开启

    30日上午,世界人工智能大会国际日开幕式活动在世博展览馆开启,聚集国际城市代表、重量级院士专家、国际创新企业代表,共同打造人工智能交流平台。上海市副市
Top