当前位置:首页 > 元宇宙 > AI

微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

来源: 责编: 时间:2025-04-20 07:23:39 247观看
导读 4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精

4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。0MO28资讯网——每日最新资讯28at.com

0MO28资讯网——每日最新资讯28at.com

援引技术报告介绍,该模型性能直追同规模全精度模型,但计算资源需求大幅缩减。尤其令人瞩目的是,其非嵌入内存占用仅 0.4GB,远低于竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。0MO28资讯网——每日最新资讯28at.com

BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值,采用定制 BitLinear 层,将权重限制为-1、0、+1 三种状态,形成三值系统,每权重仅需约 1.58 位信息存储。0MO28资讯网——每日最新资讯28at.com

此外,层间激活值以 8 位整数量化,形成 W1.58A8 配置。微软还调整了 Transformer 架构,引入平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化,确保低位训练稳定性。技术报告称,这种原生 1 位训练避免了传统后训练量化(PTQ)带来的性能损失。0MO28资讯网——每日最新资讯28at.com

BitNet b1.58 2B4T 的开发历经三阶段:首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练;随后通过公开及合成指令数据集(如 WizardLM Evol-Instruct)进行监督微调(SFT);最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升对话能力和安全性。0MO28资讯网——每日最新资讯28at.com

微软测试显示,该模型在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流 1B-2B 参数全精度模型,同时在能耗(每 token 0.028 焦耳)和 CPU 解码延迟(29 毫秒)上占据显著优势。0MO28资讯网——每日最新资讯28at.com

0MO28资讯网——每日最新资讯28at.com

0MO28资讯网——每日最新资讯28at.com

0MO28资讯网——每日最新资讯28at.com

尽管 BitNet 潜力巨大,但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。0MO28资讯网——每日最新资讯28at.com

微软还计划优化 GPU 和 NPU 支持,延长上下文窗口至 4096 token,并探索更大规模模型、多语言功能及硬件协同设计。目前,BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布,供社区测试与应用。0MO28资讯网——每日最新资讯28at.com

参考0MO28资讯网——每日最新资讯28at.com

BitNet b1.58 2B4T Technical Report0MO28资讯网——每日最新资讯28at.com

hugging face 模型页面0MO28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12381-0.html微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软 AI 负责人预测:未来“智能”成为新货币,知识和能力比钱更重要

下一篇: OpenAI 上线 Flex 处理模式:API 费用减半,但牺牲响应速度及稳定性

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 元宇宙火热的当下,我们该如何“身临其境”的体验元宇宙?

    元宇宙的余热依然没有过去,甚至大有星星之火开启燎原之势,元宇宙本身也从殿堂走向了民间,我们可以看到一些企业开始了元宇宙的探索,诸如中国电信全资控股子公司天
  • 关于年度热词NFT,除了钱,我们还可以聊点啥?

    每到年底,社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词,你会想到什么?柯林斯词典将年度热词颁给了“NFT”,而其理由是:一个缩写词的
  • 从NFT顶级公链到Web3.0基础设施:带你了解不一样的Flow

    对于大部分年轻人来说,刚刚过去的春节有一个词语突然成为了品牌宣传的流行语,作为从NFT中衍生出来的“数字藏品”一时间获得了不少品牌青睐,他们纷纷推出自己的数
  • Meta展示AI系统Builder Bot;《Pistol Whip》增加派对模式

    今日热点:Meta展示AI系统Builder Bot;招聘信息显示Meta正在探索具有蜂窝连接功能的VR/AR头显;英国VR工作室Coatsink Games正在为PSVR 2开发新游戏;VR节奏射击游戏
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
  • 爆发在即的Layer2赛道百花齐放,谁将是领跑者?

    还记得几年前最早我们提起ETH扩容,首先想到就是Layer2,而Layer2里,首先想到的是闪电网络,状态通道,Plasma…然后折腾了几年,发现并没有什么用,许多项目方和资本也等不
Top