当前位置:首页 > 元宇宙 > AI

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

来源: 责编: 时间:2025-01-31 10:30:12 183观看
导读 1 月 28 日消息,阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。附 Qwen2.5-VL 的主要特点如下:视觉理解:Qwen2.5-VL

1 月 28 日消息,阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。qdk28资讯网——每日最新资讯28at.com

qdk28资讯网——每日最新资讯28at.com

附 Qwen2.5-VL 的主要特点如下:qdk28资讯网——每日最新资讯28at.com

视觉理解:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。qdk28资讯网——每日最新资讯28at.com

代理:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。qdk28资讯网——每日最新资讯28at.com

理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。qdk28资讯网——每日最新资讯28at.com

视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。qdk28资讯网——每日最新资讯28at.com

结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。qdk28资讯网——每日最新资讯28at.com

据官方介绍,在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。Qwen2.5-VL 在理解文档和图表方面具有优势,并且能够作为视觉 Agent 进行操作,而无需特定任务的微调。qdk28资讯网——每日最新资讯28at.com

qdk28资讯网——每日最新资讯28at.com

另外,在较小的模型方面,Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,超越了之前版本 Qwen2-VL 的 7B 模型。qdk28资讯网——每日最新资讯28at.com

qdk28资讯网——每日最新资讯28at.com

qdk28资讯网——每日最新资讯28at.com

阿里通义千问官方表示,与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。后续将进一步提升模型的问题解决和推理能力,同时整合更多模态,使模型变得更加智能,并向能够处理多种输入类型和任务的综合全能模型迈进。qdk28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10327-0.html阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

下一篇: DeepSeek 应用在意大利应用商店下架,此前曾被该国隐私监管机构盯上

标签:
  • 热门焦点
  • 元娲2.7上线:虚拟人视频制作速度疯狂翻倍!

    来源:清元宇宙 炎炎夏日努力工作的Q仔的电脑都冒烟儿啦~今天要给大家介绍两个新小伙伴——小元和小娲,他们将给大家解读元娲2.7版本重磅更新内容~大家掌声欢迎~~~本次更
  • 中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    通过5G、AI等新技术更新换代,虚拟数字人为诸多下游行业带来新的发展机会。虚拟数字人技术以其简化性和精品性持续拓展泛娱乐、金融、教育、政务、医疗、零售等
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • Web3 去中心化身份管理系统的历史、现状与展望

    身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构,这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • NFT世界的艺术家名单

    我们汇编了以下艺术家的名单,它包括每个艺术家的简短概述。当然,这份名单肯定不全面,还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
  • 售出6930万美元的NFT已经过去一年,NFT如今是否已成为主流?

    Everydays: the First 5000 Days/Beeple去年三月,一件艺术品被著名拍卖行佳士得以6930万美元的高价售出。而让人们感到震惊的是,这个拍卖作品不是出自哪位艺术大
Top