当前位置:首页 > 科技  > 知识百科

Jeff Dean:我们写了一份「稀疏模型设计指南」,请查收

来源: 责编: 时间:2023-08-07 16:29:58 356观看
导读 稀疏模型在深度学习领域发挥着越来越重要的作用。对于给定的 token 或样本,它可以只激活模型的一小部分,从而在拥有很大的参数量的同时也能做到计算友好。但是,如何可靠地训练

稀疏模型在深度学习领域发挥着越来越重要的作用。对于给定的 token 或样本,它可以只激活模型的一小部分,从而在拥有很大的参数量的同时也能做到计算友好。但是,如何可靠地训练这类模型依然是一个需要解决的问题。在这篇文章中,来自谷歌的 Barret Zoph、Irwan Bello、William Fedus 、Jeff Dean 等研究者给出了一份「高效稀疏专家模型设计指南」。FSW28资讯网——每日最新资讯28at.com

FSW28资讯网——每日最新资讯28at.com

稀疏专家神经网络展示了纯规模的优势,并为当今常用的静态神经网络架构提供了一种有效的替代方案。稀疏专家网络不是对所有输入应用相同的参数,而是为每个输入动态选择使用哪些参数。这允许网络极大地扩展参数的数量,同时保持每个 token 的 FLOPs 大致不变。这些方法的采用已经带来了 SOTA 翻译模型、4-7 倍的预训练加速,以及仅使用 1/3 的训练成本就能达到 GPT-3 级的 one-shot 性能。尽管参数数量惊人,但稀疏模型将训练大型神经网络的碳足迹降低了一个数量级。然而,困难依然存在。FSW28资讯网——每日最新资讯28at.com

Fedus et al. (2021)观察到,与之前的 SOTA 方法(Raffel et al., 2019)相比,稀疏 1.6T 参数模型实现了 4 倍的预训练加速,但在 SuperGLUE 等常用基准上进行微调时,却落后于较小的模型。在 Artetxe et al. (2021)中,研究者在域外数据上对 MoE 语言模型进行了微调,并观察到了相似的差距。FSW28资讯网——每日最新资讯28at.com

为了解决这一问题,Switch-XXL 模型被提出,该模型参数较少,但计算占用空间增加到原来的 8 倍(FLOPs 大约等于最大的 T5 模型),在自然语言理解任务上的性能有所提高。然而,必要的预训练受到先前在小规模研究中未检测到的训练不稳定性的阻碍。这些不稳定性后来在其他稀疏模型中被识别出来。这些结果揭示了参数和计算的必要平衡,但如何可靠地训练这种模型依然是一个待解决的问题。FSW28资讯网——每日最新资讯28at.com

这篇论文的目的就是提高稀疏模型的实用性和可靠性。他们研究了这两个问题,并给出了设计指南。最后,他们将稀疏模型的参数缩放到 269B,其计算成本与 32B 密集编码器 - 解码器 Transformer(稳定、可迁移的 Mixture-of-Experts、ST-MoE-32B)相当。这是稀疏模型首次在迁移学习中实现 SOTA 性能,跨越了一系列不同的任务,包括推理(SuperGLUE、ARC Easy、ARC Challenge)、摘要(XSum、CNN-DM)、闭卷问答(WebQA、Natural Questions)和对抗式构造任务(Winogrande、ANLI R3)。FSW28资讯网——每日最新资讯28at.com

FSW28资讯网——每日最新资讯28at.com

本文的贡献可以概括如下:FSW28资讯网——每日最新资讯28at.com

1、开展了一项关于稳定性技术的质量 - 稳定性权衡(quality-stability trade-offs)大规模研究;2、引入了 router z-loss 来解决稳定性问题,同时略微提高了模型质量;3、给出了关于稀疏和密集模型的微调分析,揭示了二者对批大小和学习率的不同超参数敏感性;他们发现,糟糕的超参数导致密集模型上几乎没有微调增益,尽管预训练有很大的加速;4、给出了分布式环境下设计 Pareto 高效稀疏模型的架构、routing 和模型设计原则;5、给出了追踪跨专家层的 token routing 决策的定性分析;6、训练出了一个 269B 稀疏模型,在一组不同的自然语言基准上实现了 SOTA 性能。FSW28资讯网——每日最新资讯28at.com

router z-lossFSW28资讯网——每日最新资讯28at.com

稳定神经网络最成功的方法之一是对激活的约束和梯度。一种流行的方法是在通过深度网络反向传播时,裁剪梯度范数来弥补爆炸梯度。FSW28资讯网——每日最新资讯28at.com

在这篇论文中,研究者使用 Adafactor 优化器是因为它的内存效率(尽管最近推出的 8 位优化器 (Dettmers et al., 2021) 可能会提供更好的 trade-off)。Adafactor 使用更新裁剪(update clipping),而不是梯度裁剪(gradient clipping),其中对权重的更改被限制在一定的范数以下。他们尝试将更新裁剪收紧到更小的值。FSW28资讯网——每日最新资讯28at.com

接下来,他们研究了即将进入 router 的 logit 上的约束。router 以 float32 计算专家的概率分布。然而,研究者发现,在最大的规模下,这不足以带来可靠的训练结果。为了解决这个问题,他们引入了 router z-loss,FSW28资讯网——每日最新资讯28at.com

其中,B 是 token 的数目,N 是专家数,x ∈ RB×N 是将要进入 router 的 logit。FSW28资讯网——每日最新资讯28at.com

下表 4 显示,在三次运行中,update clipping 和 router z-loss 都稳定了模型,但是 update clipping 严重影响了模型的质量。因此,研究者使用 z-loss 方法来固定模型稳定性。FSW28资讯网——每日最新资讯28at.com

FSW28资讯网——每日最新资讯28at.com

router z-loss 引入了另一个超参数 (c_z),这是一个加权系数,作为优化的总损失的一部分。总损失是交叉熵损失 (cross entropy loss, L_CE)、辅助负载平衡损失 (auxiliary load balance loss, L_B) 和 router z-loss (L_Z) 的线性加权组合。FSW28资讯网——每日最新资讯28at.com

FSW28资讯网——每日最新资讯28at.com

基于用超参数扫描进行预训练后的最佳模型质量,研究者选择 c_z = 0.001 的值。附录 B 记录了预训练过程中的损失。FSW28资讯网——每日最新资讯28at.com

稀疏模型的设计FSW28资讯网——每日最新资讯28at.com

密集模型的设计受到 Kaplan et al. (2020) 的基础工作的指导。但是到了稀疏模型这里,还有无数的额外问题需要解决,比如:(1)使用多少专家?(2)使用哪种 routing 算法?(3)容量因子(capacity factor)的值是多少?(4)硬件如何改变这些决策?在本文中,研究者给出的建议是:FSW28资讯网——每日最新资讯28at.com

1、在他们的设置中,他们推荐容量因子为 1.25 的 top-2 routing,每个核心最多有一个专家;2、在评估期间,可以更改容量因子,以适应新的内存 / 计算要求;3、密集层叠加和乘法偏置(multiplicative bias)可以提高质量。FSW28资讯网——每日最新资讯28at.com

 更多细节请参考原论文。FSW28资讯网——每日最新资讯28at.com

FSW28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2189-0.htmlJeff Dean:我们写了一份「稀疏模型设计指南」,请查收

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 云计算核心技术Docker教程:Docker Compose 介绍

下一篇: 将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,检测远距离目标

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 企业采用CRM系统的11个好处

    客户关系管理(CRM)软件可以为企业提供很多的好处,从客户保留到提高生产力。  CRM软件用于企业收集客户互动,以改善客户体验和满意度。  CRM软件市场规模如今超过580
  • 一个注解实现接口幂等,这样才优雅!

    场景码猿慢病云管理系统中其实高并发的场景不是很多,没有必要每个接口都去考虑并发高的场景,比如添加住院患者的这个接口,具体的业务代码就不贴了,业务伪代码如下:图片上述代码有
  • 破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 消费结构调整丨巨头低价博弈,拼多多还卷得动吗?

    来源:征探财经作者:陈香羽随着流量红利的退潮,电商的存量博弈越来越明显。曾经主攻中高端与品质的淘宝天猫、京东重拾“低价”口号。而过去与他们错位竞争的拼多多,靠
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • Android 14发布:首批适配机型公布

    5月11日消息,谷歌在今天凌晨举行了I/O大会,本次发布会谷歌带来了自家的AI语言模型PaLM 2、谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机,同时发布了Androi
  • OPPO K11采用全方位护眼屏:三大护眼能力减轻视觉疲劳

    日前OPPO官方宣布,全新的OPPO K11将于7月25日正式发布,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼IMX890主摄,堪称是2000档位影像表
Top