当前位置:首页 > 科技  > 网络

数学能力超ChatGPT 70B开源大模型火了:用AI微调AI

来源: 责编: 时间:2023-08-14 22:01:29 481观看
导读 用AI生成的指令微调羊驼大模型,数学能力超ChatGPT——微软新开源大模型WizardMath来了。如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一

用AI生成的指令微调羊驼大模型,数学能力超ChatGPT——GqE28资讯网——每日最新资讯28at.com

微软新开源大模型WizardMath来了。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型——GqE28资讯网——每日最新资讯28at.com

并且是在参数只有700亿,远不及后三者的情况之下。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

HuggingFace已上线3个在线可玩版本(分别为7B、13B和70B参数),各种数学题可以直接丢进去试一试。GqE28资讯网——每日最新资讯28at.com

比如解决下面这道四次多项式方程:GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

或者是一道简单的微积分:GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

亦或者是稍微修改过的拉格朗日方程推导:GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

它都全部正确(过程也不需要等太久)。GqE28资讯网——每日最新资讯28at.com

有网友向作者表示:GqE28资讯网——每日最新资讯28at.com

效果真的很惊人,感谢你们对开源LLM的贡献。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

目前,相关代码、复现方式以及论文也都开源或上线,GitHub短短几天已揽获4.8k标星。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

那么,WizardMath究竟是如何做到的?GqE28资讯网——每日最新资讯28at.com

用AI生成的指令增强大模型能力GqE28资讯网——每日最新资讯28at.com

OpenAI的大模型(InstructGPT、GPT-4等)能够取得巨大成功、去执行各种复杂和多样化的任务,一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。GqE28资讯网——每日最新资讯28at.com

然而,不是谁都能像这家公司一样获得这样的指令数据集。GqE28资讯网——每日最新资讯28at.com

一是因为整个注释过程极其昂贵且耗时,二是人工难以创建出足够比例的高难度指令。GqE28资讯网——每日最新资讯28at.com

因此,开发出一种成本相对较低的、大规模开放域指令自动生产方法,成为当下指令调优语言模型的关键。GqE28资讯网——每日最新资讯28at.com

在此,作者将他们的方法命名为Evol Instruction。GqE28资讯网——每日最新资讯28at.com

它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。GqE28资讯网——每日最新资讯28at.com

具体而言,Evol Instruction分为指令进化器和指令消除器。GqE28资讯网——每日最新资讯28at.com

其中指令进化器可通过深度进化(蓝线)或广度进化(红线)两种路径,将简单指令升级为更复杂的指令或创建一条全新指令。GqE28资讯网——每日最新资讯28at.com

具体执行哪一条?随机选择就好。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

其中,深度进化的具体“进化法”,则是通过五种类型的操作来完成,包括:GqE28资讯网——每日最新资讯28at.com

添加约束(add constraints)、深化(deepening)、具体化(concretizing)、增加推理步骤(increase reasoning steps)和使输入复杂化(complicate input)。GqE28资讯网——每日最新资讯28at.com

由于所有指令均由AI完成,有时难免会出现错误。因此,指令消除器就是用于过滤失败指令的。GqE28资讯网——每日最新资讯28at.com

以下是一个具体示例,该方法从“1+1=?”开始,终通过以上步骤自动生成了相当多的新指令。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

通过重复这一生成过程,终我们就能得到足够多的指令,然后将它们合并并随机打乱,组成一个难度级别均匀分布的指令集,就可以对基础大模型进行微调了。GqE28资讯网——每日最新资讯28at.com

在此,作者选择Alpaca的训练数据(仅由175条人工创建的种子指令生成)作为初始数据集,然后使用ChatGPT的API执行了四个进化周期,终获得25万条指令。GqE28资讯网——每日最新资讯28at.com

为了与Vicuna的70k真实用户数据(ShareGPT)进行公平比较,作者从这25万条数据中抽取了等量的样本,训练LLaMA 7B模型,终得到WizardLM,结果WizardLM的性能明显优于Vicuna。GqE28资讯网——每日最新资讯28at.com

(Alpaca:斯坦福在LLaMa-7B基础上微调出来的模型;Vicuna,UC伯克利在LLaMa-13B的基础上微调得来)GqE28资讯网——每日最新资讯28at.com

此外,在更为复杂的测试指令下,人类更喜欢WizardLM的输出,而非ChatGPT,这表明该方法可以显着提高LLM处理复杂指令的能力。GqE28资讯网——每日最新资讯28at.com

基于此,作者又利用Evol Instruction生成了很多数学领域相关的指令,然后微调羊驼大模型,得到了WizardMath。GqE28资讯网——每日最新资讯28at.com

其效果如开头所示,在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型,位列第5名,仅次于GPT-4、Claud1.3和2.0,以及5400亿参数的Flan-PaLM 2之后。GqE28资讯网——每日最新资讯28at.com

以此类推,作者还在羊驼之上得到了专攻代码能力的WizardCoder,效果超越Claude和Bard(详情可戳文末地址)。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

团队介绍本文共9位作者,全华人。GqE28资讯网——每日最新资讯28at.com

一作有3位:GqE28资讯网——每日最新资讯28at.com

Can Xu,微软亚洲互联网工程院S+D NLP组高级应用科学家,之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作;GqE28资讯网——每日最新资讯28at.com

Qingfeng Sun, Microsoft Research科学家,研究方向为自然语言处理和信息检索,精通构建高效搜索系统,为Microsoft Bing和Office 365贡献了核心深度模型;GqE28资讯网——每日最新资讯28at.com

Kai Zheng,Microsoft Research科学家,研究方向为自然语言处理、搜索和推荐排名,同样为Microsoft Bing和Office 365贡献了核心深度模型。GqE28资讯网——每日最新资讯28at.com

数学能力超ChatGPT 70B开源大模型火了:用AI微调AIGqE28资讯网——每日最新资讯28at.com

通讯作者为姜大昕,微软全球合伙人、副总裁、前微软亚洲研究院首席科学家,在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人,日前已被曝离职投身大模型创业。GqE28资讯网——每日最新资讯28at.com

另还有一位作者Jiazhan Feng,是北大学生,这篇合著论文是TA在微软实习时产出的。GqE28资讯网——每日最新资讯28at.com

项目主页: https://github.com/nlpxucan/WizardLM/tree/main/WizardMathGqE28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-5471-0.html数学能力超ChatGPT 70B开源大模型火了:用AI微调AI

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 车辆被高速路石子砸了下 博主:成功向高速路政索赔了1600元

下一篇: 这款“读博模拟器”太逼真!玩过的人都要崩溃了:你敢试试?

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • 小米降噪蓝牙耳机Necklace分享:听一首歌 读懂一个故事

    在今天下午的小米Civi 2新品发布会上,小米还带来了一款新的降噪蓝牙耳机Necklace,我们也在发布结束的第一时间给大家带来这款耳机的简单分享。现在大家能见到最多的蓝牙耳机
  • 从零到英雄:高并发与性能优化的神奇之旅

    作者 | 波哥审校 | 重楼作为公司的架构师或者程序员,你是否曾经为公司的系统在面对高并发和性能瓶颈时感到手足无措或者焦头烂额呢?笔者在出道那会为此是吃尽了苦头的,不过也得
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • 品牌洞察丨服务本地,美团直播成效几何?

    来源:17PR7月11日,美团App首页推荐位出现“美团直播”的固定入口。在直播聚合页面,外卖“神枪手”直播间、美团旅行直播间、美团买菜直播间等均已上线,同时
  • 东方甄选单飞:有些鸟注定是关不住的

    作者:彭宽鸿来源:华尔街科技眼‍‍‍‍‍‍‍‍‍‍东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
  • 消息称小米汽车开始筛选交付中心:需至少120个车位

    IT之家 7 月 7 日消息,日前,有微博简介为“汽车行业从业者、长三角一体化拥护者”的微博用户 @长三角行健者 发文表示,据经销商集团反馈,小米汽车目前
  • 7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • Android 14发布:首批适配机型公布

    5月11日消息,谷歌在今天凌晨举行了I/O大会,本次发布会谷歌带来了自家的AI语言模型PaLM 2、谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机,同时发布了Androi
Top