当前位置:首页 > 科技  > 软件

多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生

来源: 责编: 时间:2023-10-29 21:45:43 468观看
导读还在用指令微调解决多模态大模型的“幻觉”问题吗?比如下图中模型将橙色柯基错认为“红狗”,还指出周围还有几条。图片现在,中科大的一项研究想到了一个全新办法:一个免重训、即插即用的通用架构,直接从模型给出的错误文本

还在用指令微调解决多模态大模型的“幻觉”问题吗?ETu28资讯网——每日最新资讯28at.com

比如下图中模型将橙色柯基错认为“红狗”,还指出周围还有几条。ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

现在,中科大的一项研究想到了一个全新办法:ETu28资讯网——每日最新资讯28at.com

一个免重训、即插即用的通用架构,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处,然后与图片确定事实,最终直接完成修正。ETu28资讯网——每日最新资讯28at.com

他们将这个方法命名为“啄木鸟”(Woodpecker)。ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

就像这位所谓的“森林医生”先找出树木的虫洞再吃掉里面的虫子一样,本文中所提出的“啄木鸟”也是多模态大模型们的“幻觉”医生,能够将问题先诊断出来再一一纠正。ETu28资讯网——每日最新资讯28at.com

结果是“医术确实高明”,成功将:ETu28资讯网——每日最新资讯28at.com

(1)MiniGPT-4的准确性从54.67%提高到了85.33%;ETu28资讯网——每日最新资讯28at.com

(2)mPLUG Ow的准确性从62%提到了86.33%。ETu28资讯网——每日最新资讯28at.com

如下图所示,各种难以检测到的小对象、复杂的计数场景,它都能没问题。ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

那么,它具体是如何诊断的呢?ETu28资讯网——每日最新资讯28at.com

“啄木鸟法”治疗多模态LLM幻觉

目前,业内对于大模型幻觉问题的解决办法基本都是用特定数据进行指令微调。ETu28资讯网——每日最新资讯28at.com

比如说,一些多模态大模型(MLLM)在回答问题时总是倾向于肯定答案(eg. 面对一个光头人物图,问它头发是什么颜色,张口就说“黑”),那么我们再喂给模型一些包含负样本的数据,就能解决它“无中生有”的幻觉,遇到没有的就说“no”。ETu28资讯网——每日最新资讯28at.com

除了指令微调,也有的会进行架构调整,反正都要重新训练一个新的模型。ETu28资讯网——每日最新资讯28at.com

本文提出的“啄木鸟”框架,是业内第一个无需此操作就能解决“幻觉”的全新办法。ETu28资讯网——每日最新资讯28at.com

它一共分为5个步骤,每一步都采用了清晰透明的设计方式,因此具备良好的可解释性。ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

具体而言:ETu28资讯网——每日最新资讯28at.com

第一步,关键概念提取。ETu28资讯网——每日最新资讯28at.com

指找出模型给出的答案中提到的主要对象,即最有可能解除“幻觉”的元素。ETu28资讯网——每日最新资讯28at.com

例如对于下图,多模态大模型最开始可能描述图中有一辆自行车停在一个垃圾桶旁边,还说图上有几个人从垃圾桶旁边走过。ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

那么,我们就可以得到三个关键概念:自行车、垃圾桶和人。ETu28资讯网——每日最新资讯28at.com

第二步,问题构造。ETu28资讯网——每日最新资讯28at.com

指在获取关键概念后,围绕它们提出一些问题有助于检验“幻觉”所在的问题。ETu28资讯网——每日最新资讯28at.com

可主要分为对象层面和属性层面,前者可以问“图中有几辆自行车?”,后者可问“垃圾桶位于什么位置?”。ETu28资讯网——每日最新资讯28at.com

在此,由于属性问题比较依赖于上下文,作者也用了一些带有上下文的例子来提示模型,以便提出的问题更有意义ETu28资讯网——每日最新资讯28at.com

第三步,视觉验证。ETu28资讯网——每日最新资讯28at.com

指引用专家模型回答上步提出的所有问题,方便后续校正。ETu28资讯网——每日最新资讯28at.com

对于对象层面的问题,例如我们利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。ETu28资讯网——每日最新资讯28at.com

对于属性问题,则用BLIP-2来搞定。这类传统VQA模型输出答案的长度有限,"幻觉"问题更少。ETu28资讯网——每日最新资讯28at.com

第四步,视觉断言生成。ETu28资讯网——每日最新资讯28at.com

简单来说,就是基于于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。ETu28资讯网——每日最新资讯28at.com

格式如下:ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

最后,“幻觉”纠正。ETu28资讯网——每日最新资讯28at.com

即根据上步的总结比对模型原始的输出,得出新的答案。ETu28资讯网——每日最新资讯28at.com

具体实施环节中,“啄木鸟”采用GPT-3.5-turbo来完成关键概念提取、提问和最后一步的纠正。ETu28资讯网——每日最新资讯28at.com

由于一些多模态模型的指令跟随能力较弱,导致结果可能输出无关文本(例如表情、特殊符号),再加上有时一些模型只输出一个“是”或“否”,这让实际的校正过程也面临挑战。ETu28资讯网——每日最新资讯28at.com

不过,我们两个简单措施就可以搞定:ETu28资讯网——每日最新资讯28at.com

(1)将模型回答的“是”或“否”与“啄木鸟”给出的答案组合起来,比如“是的,图像中有一只狗”,就不怕模型原本只是给出一个简单的“yes or no”逃过校正了。ETu28资讯网——每日最新资讯28at.com

(2)在校正过程中,将原始问题添加到LLM,以便LLM更好地掌握文本和任务要求。ETu28资讯网——每日最新资讯28at.com

效果验证:幻觉减少30%

整个方法看起来非常好理解,效果如何呢?ETu28资讯网——每日最新资讯28at.com

在此,作者在POPE、MME和LLaVA-QA90数据集上进行了全面的定量和定性实验。ETu28资讯网——每日最新资讯28at.com

基线模型选用这四个主流多模态大模型:ETu28资讯网——每日最新资讯28at.com

MiniGPT-4、mPLUG Owl、LLaVA和Otter。ETu28资讯网——每日最新资讯28at.com

最终,POPE数据集上的结果如下:ETu28资讯网——每日最新资讯28at.com

(w/Ours表示由“啄木鸟”校正的MLLM响应,x为未采用,对勾为采用)ETu28资讯网——每日最新资讯28at.com

可以看到,“啄木鸟”都能给这几个模型带来不同程度的提升,同时大幅降低模型回答“yes”的概率。ETu28资讯网——每日最新资讯28at.com

其中在随机设定下,它给MiniGPT-4和mPLUG-Owl和在准确率指标上分别带来了30.66%和24.33%的提升。ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

在更全面的MME数据集上,“啄木鸟”也有效减少了多模态大模型在对象级和属性级层面的“幻觉”,也就是某物是否存在、数量多少,以及它的位置和颜色。ETu28资讯网——每日最新资讯28at.com

比如LLaVA的颜色得分从78.33分大幅提升到155分。ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

不过,位置方面的“幻觉”提升不是特别大,作者推测可能是VQA模型BLIP-2在位置推理方面的能力相对较弱等原因造成的。ETu28资讯网——每日最新资讯28at.com

为了更直接地衡量修正表现,更直接的方式是使用开放评测。ETu28资讯网——每日最新资讯28at.com

不同于以往将图片转译后送入纯文本GPT-4的做法,作者利用OpenAI最近开放的视觉接口,提出使用GPT-4V对修正前后的图片描述直接对下列两个维度进行打分:ETu28资讯网——每日最新资讯28at.com

(1)准确度:模型的答复相对于图片内容是否准确;ETu28资讯网——每日最新资讯28at.com

(2)细节程度:模型答复的细节丰富度。 ETu28资讯网——每日最新资讯28at.com

在该实验条件下,实验结果如下表所示(满分为10):ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

结果表明经过“啄木鸟“修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。ETu28资讯网——每日最新资讯28at.com

另一方面,“啄木鸟“修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。ETu28资讯网——每日最新资讯28at.com

GPT-4V辅助的评测样例如下图所示:ETu28资讯网——每日最新资讯28at.com

图片图片ETu28资讯网——每日最新资讯28at.com

试玩

还有Demo供大家测试使用。ETu28资讯网——每日最新资讯28at.com

如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。ETu28资讯网——每日最新资讯28at.com

 ETu28资讯网——每日最新资讯28at.com

Woopecker论文地址:
https://arxiv.org/abs/2310.16045 Woopecker代码地址:https://github.com/BradyFU/WoodpeckerETu28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-15607-0.html多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 负载均衡器的八大使用场景介绍

下一篇: 一日一技:如何安全运行别人上传的Python代码?

标签:
  • 热门焦点
  • 6月安卓手机性价比榜:Note 12 Turbo断层式碾压

    6月份有一个618,虽然这是京东周年庆的日子,但别的电商也都不约而同的跟进了,反正促销没坏处,厂商和用户都能满意。618期间一些产品也出现了历史低价,那么各个价位段的产品性价比
  • 5月iOS设备性能榜:M1 M2依旧是榜单前五

    和上个月一样,没有新品发布的iOS设备性能榜的上榜设备并没有什么更替,仅仅只有跑分变化而产生的排名变动,刚刚开始的苹果WWDC2023,推出的产品也依旧是新款Mac Pro、新款Mac Stu
  • 帅气纯真少年!日本最帅初中生选美冠军出炉

    日本第一帅哥初一生选美大赛冠军现已正式出炉,冠军是来自千叶县的宗田悠良。日本一直热衷于各种选美大赛,从“最美JK”起到“最美女星&r
  • 印度登月最关键一步!月船三号今晚进入环月轨道

    8月5日消息,据印度官方消息,月船三号将于北京时间今晚21时30分左右开始近月制动进入环月轨道。这是该探测器能够成功的最关键步骤之一,如果成功将开始围
  • 三言两语说透设计模式的艺术-简单工厂模式

    一、写在前面工厂模式是最常见的一种创建型设计模式,通常说的工厂模式指的是工厂方法模式,是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式,不属于GoF 23种设计
  • Temu起诉SHEIN,跨境电商战事升级

    来源 | 伯虎财经(bohuFN)作者 | 陈平安日前据外媒报道,拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼,诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 小米汽车电池信息疑似曝光:容量101kWh,支持800V高压快充

    7月14日消息,今日一名博主在社交媒体发布了一张疑似小米汽车电池信息的照片,显示该电池包正是宁德时代麒麟电池,容量为101kWh,电压为726.7V,可以预测小
  • 华为HarmonyOS 4升级计划公布:首批34款机型今日开启公测

    8月4日消息,今天下午华为正式发布了HarmonyOS 4系统,在更流畅的前提下,还带来了不少新功能,UI设计也有变化,会让手机焕然一新。华为宣布,首批机型将会在
Top