当前位置:首页 > 科技  > 软件

混合专家系统里根本没专家?开源MoE模型论文引网友热议

来源: 责编: 时间:2024-01-15 09:22:22 323观看
导读红极一时的开源MoE模型Mixtral,论文终于新鲜出炉!除了披露了更多技术细节,论文中还有一个结论引发了热烈讨论——研究人员本想研究Mixtral是怎么根据话题分配专家的,结果发现专家的分配……和话题好像没什么关系。图片而

红极一时的开源MoE模型Mixtral,论文终于新鲜出炉!5eQ28资讯网——每日最新资讯28at.com

除了披露了更多技术细节,论文中还有一个结论引发了热烈讨论——5eQ28资讯网——每日最新资讯28at.com

研究人员本想研究Mixtral是怎么根据话题分配专家的,结果发现专家的分配……和话题好像没什么关系。5eQ28资讯网——每日最新资讯28at.com

图片图片5eQ28资讯网——每日最新资讯28at.com

而在大多数人的印象中,Mixtral里的8个专家,是分别负责处理不同领域的话题的……5eQ28资讯网——每日最新资讯28at.com

论文的结论曝光后,不少网友开始认为“专家混合”这个说法,可能不那么贴切了:5eQ28资讯网——每日最新资讯28at.com

图片图片5eQ28资讯网——每日最新资讯28at.com

于是,针对Mixtral真实的工作机制,有网友给出了这样的比喻:5eQ28资讯网——每日最新资讯28at.com

所以,比起“专家的组合”,这样的工作方式更像是一种硬盘阵列或者负载均衡?5eQ28资讯网——每日最新资讯28at.com

图片图片5eQ28资讯网——每日最新资讯28at.com

但也有网友表示了不同意见:5eQ28资讯网——每日最新资讯28at.com

这个问题并不根属于MoE,因为自己之前见过的MoE模型中,是发现了真·专家分工的现象的。5eQ28资讯网——每日最新资讯28at.com

图片图片5eQ28资讯网——每日最新资讯28at.com

那么,这究竟是怎么一回事呢?5eQ28资讯网——每日最新资讯28at.com

实验未发现专家按领域分布

在训练过程中,作者观察了Mixtral中是否有一些专家会针对某些特定领域进行专门化。5eQ28资讯网——每日最新资讯28at.com

具体来说,作者计算了第0、15、31层在The Pile验证集的不同子集(包含不同领域的文档)上被选中的专家分布。5eQ28资讯网——每日最新资讯28at.com

这些子集包括LaTeX格式的arXiv论文、生物学论文(PubMed摘要)、哲学论文(PhilPapers)和GitHub代码等。5eQ28资讯网——每日最新资讯28at.com

结果发现,对这几个层而言,除了数学领域(DM Mathematics)数据集的专家选择略有不同外,其余数据集的专家分布都非常类似,并没有体现出领域间有什么差别。5eQ28资讯网——每日最新资讯28at.com

图片图片5eQ28资讯网——每日最新资讯28at.com

而在数学问题上出现不同表现的原因,可能是由于其具有相对特殊的语法结构,进一步的探究也证实了这一想法。5eQ28资讯网——每日最新资讯28at.com

他们发现,专家选择会被句子的语法结构所影响,一些语法关键词,比如英语中的“Question”或者代码中的“self”,被分配到相同的专家的概率非常大。5eQ28资讯网——每日最新资讯28at.com

图片图片5eQ28资讯网——每日最新资讯28at.com

此外,定量的分析结果还发现了另一个专家分配规律——相邻的token有很大概率被分配给同一专家。5eQ28资讯网——每日最新资讯28at.com

作者比较了模型针对相邻token选择相同专家的概率,包括第一选择一致率和第一二选择一致率。5eQ28资讯网——每日最新资讯28at.com

第一二选择一致是指,模型针对两个token分别做出的第一和第二选择,只要存在交集即视为一致。5eQ28资讯网——每日最新资讯28at.com

(比如第一个token的第一、二专家为分别为甲、乙,第二个token的第一、二专家分别为乙、丙,因为都包含了乙,就是一种第一二选择一致的情况)5eQ28资讯网——每日最新资讯28at.com

因Mixtral中有8个专家,因此在全随机的选择方式下,第一选择一致率应为12.5%(1/8),第一二选择一致率应为1 - (6/8) × (5/7),约为46%。5eQ28资讯网——每日最新资讯28at.com

但实际测试发现,Mixtral第一和第一二选择一致率高于随机情况,特别是中间的第15层,说明了模型在专家选择上是具有倾向性的。5eQ28资讯网——每日最新资讯28at.com

图片图片5eQ28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/abs/2401.040885eQ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-61006-0.html混合专家系统里根本没专家?开源MoE模型论文引网友热议

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 12个Java开发者必知必会的编程技巧

下一篇: 新商务时代,欧定如何以超级价值奠定超级品类王者地位

标签:
  • 热门焦点
  • 鸿蒙OS 4.0公测机型公布:甚至连nova6都支持

    华为全新的HarmonyOS 4.0操作系统将于今天下午正式登场,官方在发布会之前也已经正式给出了可升级的机型产品,这意味着这些机型会率先支持升级享用。这次的HarmonyOS 4.0支持
  • 7月安卓手机性价比榜:努比亚+红魔两款新机入榜

    7月登场的新机有努比亚Z50S Pro和红魔8S Pro,除了三星之外目前唯二的两款搭载超频版骁龙8Gen2处理器的产品,而且努比亚和红魔也一贯有着不错的性价比,所以在本次的性价比榜单
  • JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • Python异步IO编程的进程/线程通信实现

    这篇文章再讲3种方式,同时讲4中进程间通信的方式一、 Python 中线程间通信的实现方式共享变量共享变量是多个线程可以共同访问的变量。在Python中,可以使用threading模块中的L
  • 2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的“头腾
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 信通院:小米、华为等11家应用商店基本完成APP签名及验签工作

    中国信通院表示,目前,小米、华为、OPPO、vivo、360手机助手、百度手机助手、应用宝、豌豆荚和努比亚等9家应用商店,以及抖音和快手2家新型应用分发平
  • 三星Galaxy Z Fold/Flip 5国行售价曝光 :最低7499元/12999元起

    据官方此前宣布,三星将于7月26日也就是明天在韩国首尔举办Unpacked活动,届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
Top