当前位置:首页 > 元宇宙 > AI

华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

来源: 责编: 时间:2023-12-20 17:45:31 458观看
导读 12 月 14 日消息,据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲

12 月 14 日消息,据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。cLl28资讯网——每日最新资讯28at.com

cLl28资讯网——每日最新资讯28at.com

▲ 图源 Monkey 项目的 GitHub 页面

注:多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的 AI 架构。cLl28资讯网——每日最新资讯28at.com

据介绍,Monkey 模型在 18 个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外,Monkey 在文本密集的问答任务中显示出“显著的优势”,甚至在某些样本上超越了业界公认的领先者 ——OpenAI 的多模态大模型 GPT-4V。cLl28资讯网——每日最新资讯28at.com

cLl28资讯网——每日最新资讯28at.com

Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中,Monkey 展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey 正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有 Monkey 和 GPT-4V 能将其准确地识别为作者名。cLl28资讯网——每日最新资讯28at.com

cLl28资讯网——每日最新资讯28at.com

Monkey 号称能够利用现有的工具构建一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,提升描述的准确性和丰富程度。cLl28资讯网——每日最新资讯28at.com

cLl28资讯网——每日最新资讯28at.com

“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从 2003 年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey 的最终方案是大家一起反复讨论,尝试了 10 余种方案后最终确定的。”白翔教授说。cLl28资讯网——每日最新资讯28at.com

Monkey 的另一亮点是能够处理分辨率最高 1344×896 像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的 6 倍,这意味着 Monkey 能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。cLl28资讯网——每日最新资讯28at.com

Monkey多模态大模型代码目前已在 GitHub 开源,附开源地址:cLl28资讯网——每日最新资讯28at.com

https://github.com/Yuliang-Liu/MonkeycLl28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-2978-0.html华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 利用浏览器历史记录训练设备端 AI,Mozilla 公布 MemoryCache 项目

下一篇: 身边云荣膺第一资源“2023人力资源先锋服务机构”

标签:
  • 热门焦点
  • 欧盟人工智能法案:四种AI系统风险类型的划分及监管措施

    作者:赵志东 蔡佳雯来源:区块链日报该法案采用风险分级的规制路径,将人工智能系统的风险划分成不可接受的风险、高风险、有限风险和轻微风险四种类型,并针对不同类型施加了不同
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 2021年中国智慧城市行业概览:AI慧眼独具,赋能“双碳”目标

    中国智慧城市试点项目主要集中于东南地区以及华中地区,受制于应用场景分散以及行业地域建设差异,目前中国智慧城市存在较多弊端,未来数量有望持续突破。中国智慧
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 融资千万美元的元宇宙平台UGC到底是什么?

    据获悉,全球化元宇宙社交平台BUD Technologies, Inc.(以下简称“BUD”)宣布完成1500万美元A+轮融资,本轮融资由启明创投领投,老股东源码资本、GGV纪源资本、云九资
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
Top