当前位置:首页 > 元宇宙 > AI

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 视频每一个角落

来源: 责编: 时间:2025-04-26 10:25:57 150观看
导读 4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。视觉-语言模型(VLMs)在生成整体图像描述

4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。Yun28资讯网——每日最新资讯28at.com

视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。Yun28资讯网——每日最新资讯28at.com

英伟达推出的 Describe Anything 3B(DAM-3B)直面这一难题,支持用户通过点、边界框、涂鸦或掩码指定目标区域,生成精准且贴合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频,模型已在 Hugging Face 平台公开。Yun28资讯网——每日最新资讯28at.com

独特架构与高效设计Yun28资讯网——每日最新资讯28at.com

DAM-3B 的核心创新在于“焦点提示”和“局部视觉骨干网络”。Yun28资讯网——每日最新资讯28at.com

Yun28资讯网——每日最新资讯28at.com

焦点提示技术融合了全图信息与目标区域的高分辨率裁剪,确保细节不失真,同时保留整体背景。Yun28资讯网——每日最新资讯28at.com

局部视觉骨干网络则通过嵌入图像和掩码输入,运用门控交叉注意力机制,将全局与局部特征巧妙融合,再传输至大语言模型生成描述。Yun28资讯网——每日最新资讯28at.com

DAM-3B-Video 进一步扩展至视频领域,通过逐帧编码区域掩码并整合时间信息,即便面对遮挡或运动也能生成准确描述。Yun28资讯网——每日最新资讯28at.com

数据与评估双管齐下Yun28资讯网——每日最新资讯28at.com

为解决训练数据匮乏问题,NVIDIA 开发了 DLC-SDP 半监督数据生成策略,利用分割数据集和未标注的网络图像,构建了包含 150 万局部描述样本的训练语料库。Yun28资讯网——每日最新资讯28at.com

Yun28资讯网——每日最新资讯28at.com

通过自训练方法优化描述质量,确保输出文本的高精准度,团队同时推出 DLC-Bench 评估基准,以属性级正确性而非僵硬的参考文本对比衡量描述质量。Yun28资讯网——每日最新资讯28at.com

Yun28资讯网——每日最新资讯28at.com

DAM-3B 在包括 LVIS、Flickr30k Entities 等七项基准测试中领先,平均准确率达 67.3%,超越 GPT-4o 和 VideoRefer 等模型。Yun28资讯网——每日最新资讯28at.com

DAM-3B 不仅填补了局部描述领域的技术空白,其上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域开辟了新可能。Yun28资讯网——每日最新资讯28at.com

附上参考地址Yun28资讯网——每日最新资讯28at.com

Describe Anything: Detailed Localized Image and Video CaptioningYun28资讯网——每日最新资讯28at.com

Hugging FaceYun28资讯网——每日最新资讯28at.com

项目页面Yun28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12581-0.html英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 视频每一个角落

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 50 → 100 条:OpenAI 放宽限制,Plus 等用户每周可用 o3 AI 模型消息数翻倍

下一篇: “AI 教父”等发布联名公开信: OpenAI 重组背离初衷,呼吁监管介入

标签:
  • 热门焦点
  • 元宇宙里掀起回忆杀?这波虚拟怀旧营销主打一个极限反差

    来源:首席品牌官从被称为“元宇宙元年”的2021年开始,几乎所有品牌都在迫不及待地“入驻”元宇宙。而一提及品牌们的元宇宙玩法,相信多数人脑海里首先浮现
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • Web3 去中心化身份管理系统的历史、现状与展望

    身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构,这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
Top