当前位置:首页 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

来源: 责编: 时间:2024-06-06 17:36:04 297观看
导读 除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。hKv28资讯网——每日最新资讯28at.com

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。hKv28资讯网——每日最新资讯28at.com

也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?hKv28资讯网——每日最新资讯28at.com

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?hKv28资讯网——每日最新资讯28at.com

hKv28资讯网——每日最新资讯28at.com

如果可行,将大大降低类 ChatGPT 大模型的开发难度。hKv28资讯网——每日最新资讯28at.com

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。hKv28资讯网——每日最新资讯28at.com

目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法)URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。hKv28资讯网——每日最新资讯28at.com

hKv28资讯网——每日最新资讯28at.com

但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。hKv28资讯网——每日最新资讯28at.com

实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。hKv28资讯网——每日最新资讯28at.com

其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。hKv28资讯网——每日最新资讯28at.com

hKv28资讯网——每日最新资讯28at.com

EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。hKv28资讯网——每日最新资讯28at.com

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。hKv28资讯网——每日最新资讯28at.com

hKv28资讯网——每日最新资讯28at.com

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。hKv28资讯网——每日最新资讯28at.com

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。hKv28资讯网——每日最新资讯28at.com

hKv28资讯网——每日最新资讯28at.com

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。hKv28资讯网——每日最新资讯28at.com

也就是说,不同的示例适合不同的模型。hKv28资讯网——每日最新资讯28at.com

hKv28资讯网——每日最新资讯28at.com

团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。hKv28资讯网——每日最新资讯28at.com

他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要。hKv28资讯网——每日最新资讯28at.com

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。hKv28资讯网——每日最新资讯28at.com

hKv28资讯网——每日最新资讯28at.com

所以最终得出的结论是:hKv28资讯网——每日最新资讯28at.com

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。hKv28资讯网——每日最新资讯28at.com

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。hKv28资讯网——每日最新资讯28at.com

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。hKv28资讯网——每日最新资讯28at.com

想让 AI 助手更“听话”,暂时还是很难有捷径可走。hKv28资讯网——每日最新资讯28at.com

论文地址:hKv28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2405.19874hKv28资讯网——每日最新资讯28at.com

参考链接:hKv28资讯网——每日最新资讯28at.com

[1]https://x.com/maksym_andr/status/1796574297894318136hKv28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨hKv28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Zoom 创始人谈视频会议未来:数字人“代劳”参会,本人可抽出时间陪伴家人

下一篇: “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

标签:
  • 热门焦点
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • 索尼公布PSVR 2头显渲染图;社区开发者发布Quest版《我的世界》

    近日热点:索尼正式公布PSVR 2头显及控制器官方渲染图;入局元宇宙,鸿海科技与XRSPACE签订合作备忘录;研究人员表示面部追踪可增强VR操控体验;社区开发者QuestCraft发
  • 元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
Top