当前位置:首页 > 元宇宙 > AI

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

来源: 责编: 时间:2024-09-05 08:57:24 215观看
导读 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。据阿里云官方介绍,

9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。6L428资讯网——每日最新资讯28at.com

6L428资讯网——每日最新资讯28at.com

6L428资讯网——每日最新资讯28at.com

据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:6L428资讯网——每日最新资讯28at.com

读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;6L428资讯网——每日最新资讯28at.com

理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;6L428资讯网——每日最新资讯28at.com

具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;6L428资讯网——每日最新资讯28at.com

理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。6L428资讯网——每日最新资讯28at.com

6L428资讯网——每日最新资讯28at.com

6L428资讯网——每日最新资讯28at.com

6L428资讯网——每日最新资讯28at.com

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。6L428资讯网——每日最新资讯28at.com

但为了让模型能够更清楚地感知视觉信息和理解视频,团队在架构上进行了一些升级:6L428资讯网——每日最新资讯28at.com

一是实现了对原生动态分辨率的全面支持。不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片将被转换为动态数量的 tokens,最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式,确保了模型输入与图像原始信息之间的高度一致性,赋予模型处理任意尺寸图像的强大能力,使得其可以更灵活高效地进行图像处理。6L428资讯网——每日最新资讯28at.com

6L428资讯网——每日最新资讯28at.com

二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。6L428资讯网——每日最新资讯28at.com

6L428资讯网——每日最新资讯28at.com

此次 Qwen2-VL 开源的多款模型中的旗舰模型Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可通过阿里云百炼平台直接调用 API。6L428资讯网——每日最新资讯28at.com

同时,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 App 的主对话页面使用模型,附地址如下:6L428资讯网——每日最新资讯28at.com

阿里云百炼平台:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api6L428资讯网——每日最新资讯28at.com

GitHub:https://github.com/QwenLM/Qwen2-VL6L428资讯网——每日最新资讯28at.com

HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d6L428资讯网——每日最新资讯28at.com

魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model6L428资讯网——每日最新资讯28at.com

模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL6L428资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6703-0.html阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 清华系 AI 公司无问芯穹完成近 5 亿元 A 轮融资,投资方含联想创投、小米等

下一篇: 谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • 韩国建立元宇宙生态系统,智度股份发布元宇宙社区Meta彼岸

    财联社|区块链日报28日讯 今日《元宇宙新鲜事》有:杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业;韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
Top