当前位置:首页 > 元宇宙 > AI

微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

来源: 责编: 时间:2025-04-20 07:23:39 228观看
导读 4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精

4 月 18 日消息,科技媒体 WinBuzzer 昨日(4 月 17 日)发布博文,报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。Vwl28资讯网——每日最新资讯28at.com

Vwl28资讯网——每日最新资讯28at.com

援引技术报告介绍,该模型性能直追同规模全精度模型,但计算资源需求大幅缩减。尤其令人瞩目的是,其非嵌入内存占用仅 0.4GB,远低于竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。Vwl28资讯网——每日最新资讯28at.com

BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值,采用定制 BitLinear 层,将权重限制为-1、0、+1 三种状态,形成三值系统,每权重仅需约 1.58 位信息存储。Vwl28资讯网——每日最新资讯28at.com

此外,层间激活值以 8 位整数量化,形成 W1.58A8 配置。微软还调整了 Transformer 架构,引入平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化,确保低位训练稳定性。技术报告称,这种原生 1 位训练避免了传统后训练量化(PTQ)带来的性能损失。Vwl28资讯网——每日最新资讯28at.com

BitNet b1.58 2B4T 的开发历经三阶段:首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练;随后通过公开及合成指令数据集(如 WizardLM Evol-Instruct)进行监督微调(SFT);最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升对话能力和安全性。Vwl28资讯网——每日最新资讯28at.com

微软测试显示,该模型在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流 1B-2B 参数全精度模型,同时在能耗(每 token 0.028 焦耳)和 CPU 解码延迟(29 毫秒)上占据显著优势。Vwl28资讯网——每日最新资讯28at.com

Vwl28资讯网——每日最新资讯28at.com

Vwl28资讯网——每日最新资讯28at.com

Vwl28资讯网——每日最新资讯28at.com

尽管 BitNet 潜力巨大,但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。Vwl28资讯网——每日最新资讯28at.com

微软还计划优化 GPU 和 NPU 支持,延长上下文窗口至 4096 token,并探索更大规模模型、多语言功能及硬件协同设计。目前,BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布,供社区测试与应用。Vwl28资讯网——每日最新资讯28at.com

参考Vwl28资讯网——每日最新资讯28at.com

BitNet b1.58 2B4T Technical ReportVwl28资讯网——每日最新资讯28at.com

hugging face 模型页面Vwl28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12381-0.html微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软 AI 负责人预测:未来“智能”成为新货币,知识和能力比钱更重要

下一篇: OpenAI 上线 Flex 处理模式:API 费用减半,但牺牲响应速度及稳定性

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 中文在线的“元宇宙”故事,资本听腻了?

    被誉为“元宇宙”龙头之一的中文在线,这下尴尬了。2022年1月11日,中国移动通信联合会元宇宙产业委员会揭牌,接纳涉足“元宇宙”的8家上市公司,包括中青宝、天下秀
  • 超跑与NFT的首次结合,兰博基尼能否破局?

    兰博基尼公司近日称即将推出它的首款NFT,并且将加速进军区块链领域。这家闻名遐迩的意大利汽车厂商野心勃勃地将目光投向混合动力和电动跑车,并宣布将拍卖与瑞士
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • Kitten Coup社区反转Cool Kittens NFT骗局

    当狂热的加密爱好者将金钱投入到NFT图片时,浑水摸鱼的骗局随之而来,Cool Kittens NFT便是其中一个作恶者,该项目于去年11月在Sonala链上启动小猫形象的NFT铸造及
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
Top