当前位置:首页 > 元宇宙 > AI

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

来源: 责编: 时间:2024-11-01 09:38:39 174观看
导读 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结

10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。b3O28资讯网——每日最新资讯28at.com

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。b3O28资讯网——每日最新资讯28at.com

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。b3O28资讯网——每日最新资讯28at.com

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。b3O28资讯网——每日最新资讯28at.com

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。b3O28资讯网——每日最新资讯28at.com

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

b3O28资讯网——每日最新资讯28at.com

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。b3O28资讯网——每日最新资讯28at.com

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。b3O28资讯网——每日最新资讯28at.com

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。b3O28资讯网——每日最新资讯28at.com

附上参考地址b3O28资讯网——每日最新资讯28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured Elementsb3O28资讯网——每日最新资讯28at.com

Microsoft’s New vision based GUI agent — OmniParserb3O28资讯网——每日最新资讯28at.com

OmniParser for Pure Vision Based GUI Agentb3O28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9349-0.html微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

下一篇: GLM-4-Plus赋能“阅读智能体”,效率飙升300%?

标签:
  • 热门焦点
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • 米哈游推出元宇宙品牌;VR/AR老牌企业当红齐天完成B轮+融资

    今日热点:苹果AR/VR头显的FaceTime或基于Memojis和SharePlay构建而成;VR/AR老牌企业当红齐天完成B轮+融资;米哈游推出元宇宙品牌HoYoverse;国产VR射击游戏《Contra
  • Niantic与索尼在音频AR领域达成合作;​苹果为Apple Park申请形象化商标

    今日热点:迪士尼任命新高管负责元宇宙业务;iFixit成为Valve Index VR头显和Steam Deck首家零件销售商;Niantic与索尼达成合作,将为AR游戏《Ingress》带来音频体验;V
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+Defi(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
Top