当前位置:首页 > 科技  > 互联网

智谱AI开源GLM-4.5V视觉推理模型,41项多模态基准测试获SOTA性能

来源: 责编: 时间:2025-08-13 16:02:48 171观看
导读智谱AI近期震撼发布了其最新一代的视觉推理模型GLM-4.5V,并慷慨地选择将此模型在GitHub、Hugging Face及魔搭社区上以MIT开源协议进行共享,此举不仅展现了其对技术开放的承诺,也为商业应用提供了无限可能。GLM-4.5V,作为

智谱AI近期震撼发布了其最新一代的视觉推理模型GLM-4.5V,并慷慨地选择将此模型在GitHub、Hugging Face及魔搭社区上以MIT开源协议进行共享,此举不仅展现了其对技术开放的承诺,也为商业应用提供了无限可能。Rmx28资讯网——每日最新资讯28at.com

GLM-4.5V,作为一个拥有庞大参数的VLM(视觉-语言模型),其总参数高达1,060亿,激活参数亦有120亿。该模型是在智谱AI的旗舰文本模型GLM-4.5-Air的基础上精心打造,并继承了GLM-4.1V-Thinking的技术精髓。值得注意的是,GLM-4.5V在41项公开的多模态基准测试中,均取得了同级别开源模型中的顶尖表现。Rmx28资讯网——每日最新资讯28at.com

Rmx28资讯网——每日最新资讯28at.com

技术层面,GLM-4.5V由三大核心组件构成:视觉编码器、MLP适配器以及语言解码器。通过引入创新的三维旋转位置编码(3D-RoPE),模型对三维空间关系的理解及推理能力得到了显著提升。它能够处理包含64K tokens的多模态长上下文输入,并利用三维卷积技术,显著优化了视频处理效率。这一设计让GLM-4.5V不仅能处理静态图像,还能深入解析视频内容,对高分辨率及极端宽高比的图像同样展现出强大的处理能力和稳定性。Rmx28资讯网——每日最新资讯28at.com

为了全面增强GLM-4.5V的多模态能力,智谱AI在模型训练的每个阶段都实施了精细的优化策略。预训练阶段,模型在庞大的图文交错多模态语料及长上下文内容的滋养下,建立了对复杂图文和视频内容的坚实基础。随后,在监督微调阶段,通过引入“思维链”格式的显式训练样本,进一步加深了模型的因果推理和多模态理解能力。最终,在强化学习阶段,借助多领域奖励系统,结合可验证奖励强化学习(RLVR)与人类反馈强化学习(RLHF),模型在STEM问题、多模态定位及智能体任务等多个领域均实现了显著提升。Rmx28资讯网——每日最新资讯28at.com

GLM-4.5V的实际表现同样令人瞩目。在图像推理方面,它能够进行复杂的场景解析和多图综合判断。例如,它能根据用户的自然语言指令,准确识别图像中的目标物体,并标注出精确的位置坐标。更令人惊叹的是,它还能通过分析图像中的微小线索,如植被类型、气候痕迹及建筑风格,推断出照片的拍摄地点及大致地理位置,这一能力甚至超越了许多专业工具。Rmx28资讯网——每日最新资讯28at.com

Rmx28资讯网——每日最新资讯28at.com

在复杂文档理解领域,GLM-4.5V同样展现出了卓越的能力。它能够处理包含大量图表的长文本,同步理解文字与图像信息,从而准确地进行内容总结、翻译及图表信息提取,有效避免了传统方法中可能出现的错误传递问题。针对前端开发及用户界面交互任务,GLM-4.5V还提供了“前端复刻”功能,通过分析网页截图或交互视频,能够生成相应的HTML、CSS及Javascript代码,完美复刻网页的布局、样式及交互逻辑。Rmx28资讯网——每日最新资讯28at.com

GLM-4.5V的GUI Agent能力同样值得称道,它能够识别和处理电子屏幕画面,执行对话问答、图标定位等任务,为开发桌面环境智能体应用奠定了坚实基础。智谱AI还同步开源了一款桌面助手应用,该应用能够实时捕获屏幕信息,依托GLM-4.5V处理多种视觉推理任务,涵盖代码辅助、视频内容分析、游戏解答及文档解读等多个领域。Rmx28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-177082-0.html智谱AI开源GLM-4.5V视觉推理模型,41项多模态基准测试获SOTA性能

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: vivo Vision真机图曝光,对标苹果Vision Pro,即将发布引期待

下一篇: 全球首条无FMM技术8.6代AMOLED产线在合肥封顶,总投资550亿

标签:
  • 热门焦点
  • 卢伟冰长文解析K60至尊版 对Redmi有着里程碑式的意义

    在今天的Redmi后性能时代战略发布会结束之后,Redmi总经理卢伟冰又带来了一篇长文,详解了为什么 Redmi 要开启后性能时代?为什么选择和 MediaTek、Pixelworks 深度合作?以及后性
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • 破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • OPPO Reno10 Pro英雄联盟定制礼盒公布:萨勒芬妮同款配色梦幻十足

    5月24日,OPPO推出了全新的OPPO Reno 10系列,包含OPPO Reno10、OPPO Reno10 Pro和OPPO Reno10 Pro+三款新机,全系标配了超光影长焦镜头,是迄今为止拍照
  • 2022爆款:ROG魔霸6 冰川散热系统持续护航

    喜逢开学季,各大商家开始推出自己的新产品,进行打折促销活动。对于忠实的端游爱好者来说,能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
  • 亲历马斯克血洗Twitter,硅谷的苦日子在后头

    文/刘哲铭  编辑/李薇  马斯克再次挥下裁员大刀。  美国时间11月14日,Twitter约4400名外包员工遭解雇,此次被解雇的员工的主要工作为内容审核等。此前,T
Top