当前位置:首页 > 元宇宙 > AI

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 视频每一个角落

来源: 责编: 时间:2025-04-26 10:25:57 237观看
导读 4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。视觉-语言模型(VLMs)在生成整体图像描述

4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。PGO28资讯网——每日最新资讯28at.com

视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。PGO28资讯网——每日最新资讯28at.com

英伟达推出的 Describe Anything 3B(DAM-3B)直面这一难题,支持用户通过点、边界框、涂鸦或掩码指定目标区域,生成精准且贴合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频,模型已在 Hugging Face 平台公开。PGO28资讯网——每日最新资讯28at.com

独特架构与高效设计PGO28资讯网——每日最新资讯28at.com

DAM-3B 的核心创新在于“焦点提示”和“局部视觉骨干网络”。PGO28资讯网——每日最新资讯28at.com

PGO28资讯网——每日最新资讯28at.com

焦点提示技术融合了全图信息与目标区域的高分辨率裁剪,确保细节不失真,同时保留整体背景。PGO28资讯网——每日最新资讯28at.com

局部视觉骨干网络则通过嵌入图像和掩码输入,运用门控交叉注意力机制,将全局与局部特征巧妙融合,再传输至大语言模型生成描述。PGO28资讯网——每日最新资讯28at.com

DAM-3B-Video 进一步扩展至视频领域,通过逐帧编码区域掩码并整合时间信息,即便面对遮挡或运动也能生成准确描述。PGO28资讯网——每日最新资讯28at.com

数据与评估双管齐下PGO28资讯网——每日最新资讯28at.com

为解决训练数据匮乏问题,NVIDIA 开发了 DLC-SDP 半监督数据生成策略,利用分割数据集和未标注的网络图像,构建了包含 150 万局部描述样本的训练语料库。PGO28资讯网——每日最新资讯28at.com

PGO28资讯网——每日最新资讯28at.com

通过自训练方法优化描述质量,确保输出文本的高精准度,团队同时推出 DLC-Bench 评估基准,以属性级正确性而非僵硬的参考文本对比衡量描述质量。PGO28资讯网——每日最新资讯28at.com

PGO28资讯网——每日最新资讯28at.com

DAM-3B 在包括 LVIS、Flickr30k Entities 等七项基准测试中领先,平均准确率达 67.3%,超越 GPT-4o 和 VideoRefer 等模型。PGO28资讯网——每日最新资讯28at.com

DAM-3B 不仅填补了局部描述领域的技术空白,其上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域开辟了新可能。PGO28资讯网——每日最新资讯28at.com

附上参考地址PGO28资讯网——每日最新资讯28at.com

Describe Anything: Detailed Localized Image and Video CaptioningPGO28资讯网——每日最新资讯28at.com

Hugging FacePGO28资讯网——每日最新资讯28at.com

项目页面PGO28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12581-0.html英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 视频每一个角落

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 50 → 100 条:OpenAI 放宽限制,Plus 等用户每周可用 o3 AI 模型消息数翻倍

下一篇: “AI 教父”等发布联名公开信: OpenAI 重组背离初衷,呼吁监管介入

标签:
  • 热门焦点
  • AIGC产品测评TOP25丨谁能抢到下个十年的“船票”?

    Tech星球(微信ID:tech618) 文 | 何煦阳策划 | 杨晓鹤封面来源 | 图虫创意 2016年,李彦宏站在百度联盟峰会的讲台上,向所有人宣布:互联网的下一幕是人工智能。同年,Google 旗下 Dee
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面,即创建一个“世界计算机”,旨在成为所有在线应用程序的灵活基础层,无需任何第三方。自 2015
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • NFT艺术家Hayley Rincon 专访:我的迷幻数字艺术之路

    Hayley Rincon是一位令人印象深刻才华横溢的创作者,她的作品呈现出迷幻的气息。今天就来聊聊她的艺术作品,和她自己的数字艺术之路。Hayley是加利福尼亚湾区的有
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
Top