当前位置:首页 > 元宇宙 > AI

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

来源: 责编: 时间:2024-11-01 09:38:39 175观看
导读 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结

10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。9t428资讯网——每日最新资讯28at.com

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。9t428资讯网——每日最新资讯28at.com

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。9t428资讯网——每日最新资讯28at.com

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。9t428资讯网——每日最新资讯28at.com

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。9t428资讯网——每日最新资讯28at.com

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

9t428资讯网——每日最新资讯28at.com

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。9t428资讯网——每日最新资讯28at.com

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。9t428资讯网——每日最新资讯28at.com

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。9t428资讯网——每日最新资讯28at.com

附上参考地址9t428资讯网——每日最新资讯28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured Elements9t428资讯网——每日最新资讯28at.com

Microsoft’s New vision based GUI agent — OmniParser9t428资讯网——每日最新资讯28at.com

OmniParser for Pure Vision Based GUI Agent9t428资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9349-0.html微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

下一篇: GLM-4-Plus赋能“阅读智能体”,效率飙升300%?

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • NFT 技术将传世之作带入博物馆

    意大利四大博物馆已与一个项目合作,该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了 科技公司Cincello的国际专
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • NFT教育要从娃娃抓起!这些青少年艺术家已经赚取了几千万美金

    一些艺术家通过将他们的创作作为NFT出售而获得了巨大收益。令人惊讶的是,许多赚取了数百万美元的艺术家们仍在读高中。这可能有点让人难以置信。然而,请记住,在短
  • 用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

    你可能听说过不可伪造的代币,或NFTs。NFTs是数字代币,代表完全独特的项目的所有权;存储在区块链中并可追踪,它们不能被修改、替换或复制。作为NFT铸造的资产在数字
  • NFT世界的艺术家名单

    我们汇编了以下艺术家的名单,它包括每个艺术家的简短概述。当然,这份名单肯定不全面,还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
  • 头像类NFTs的统治能持续多久?

    在过去的一两年里,NFTs在互联网世界中掀起了一场风暴。今天,当我们想到NFTs时,我们主要想到的是那些充斥着我们的社交媒体屏幕的数字卡通--无聊猿、punks 和介于
  • FTX 加密货币交易所开始向游戏公司提供加密服务

    据媒体报道,业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示,计划推出自己的游戏部门作为中介,专注于为传统游戏公司提供加密相关服务。此举将有助于
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
Top