当前位置:首页 > 科技  > 芯片

英伟达联合推出超强多模态模型DAM

来源:icspec 责编: 时间:2025-04-28 07:35:34 252观看
导读据报道,英伟达与加州大学伯克利分校、加州大学旧金山分校团队合作,推出了一款名为Describe Anything Model(DAM)的多模态模型。这款模型仅包含30亿参数,却能够精准描述图像和视频中的任何细节。DAM模型专注于详细局部标注(D
据报道,英伟达与加州大学伯克利分校、加州大学旧金山分校团队合作,推出了一款名为Describe Anything Model(DAM)的多模态模型。这款模型仅包含30亿参数,却能够精准描述图像和视频中的任何细节。
DAM模型专注于详细局部标注(DLC),即为特定区域生成详细且精确的描述。通过两大创新,研究人员在细节与上下文之间找到了平衡。其一是焦点提示,对目标区域进行高分辨率编码,就像给模型配备了一副“放大镜”,清晰捕捉到局部区域的细微特征。其二是局部视觉骨干网络,将精确定位的特定区域与上下文无缝整合。
在项目主页中,研究团队展示了更多精彩demo。用户通过点、框、涂鸦或掩码的交互,即可一键生成描述。例如,上传一张柯基在草地上奔跑的图片,选中柯基,DAM会生成一段详细的描述:“一只中等体型的狗,拥有浓密的红棕色毛发,腹部和腿部为白色。这只狗尾巴蓬松,耳朵尖立,戴着带有银色吊牌的红色项圈。它张着嘴露出牙齿,舌头伸在外面。狗呈奔跑姿势,前腿向前伸展,后腿向后伸直。”
DAM的技术架构确保了其在生成关键词、短语,甚至是多句式的复杂描述时,都能保持高精度和连贯性。此外,研究团队设计了基于半监督学习的流水线(DLC-SDP),通过两阶段策略构建大规模训练数据。
为了公平评估DLC模型,研究团队提出了全新基准DLC-Bench。通过LLM判断,检查描述的正确细节和错误缺失,而非简单对比文本。在DLC-Bench和其他7个涵盖图像与视频的基准测试中,DAM全面超越现有模型,树立了新的标杆。
DAM的优势主要有三大点:更详细、更准确;更少幻觉;多场景适用。其强大能力为众多应用场景打开了大门,未来诸如数据标注、医疗影像、内容创作等领域,都可以加速落地。
Long (Tony) Lian是UC伯克利电子工程与计算机科学博士研究生,他的研究主要聚焦于通过强化学习开发具备推理能力的大模型与视觉语言模型。此前,他曾在英伟达研究院Deep Imagination Research团队实习。Long (Tony) Lian本科毕业于UC伯克利计算机科学专业。

本文链接:http://www.28at.com/showinfo-27-147931-0.html英伟达联合推出超强多模态模型DAM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 本田电动化新作:烨GT与P7双车齐发

下一篇: 和辉光电递表港交所,AMOLED面板业务表现亮眼

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 一文看懂为苹果Vision Pro开发应用程序

    译者 | 布加迪审校 | 重楼苹果的Vision Pro是一款混合现实(MR)头戴设备。Vision Pro结合了虚拟现实(VR)和增强现实(AR)的沉浸感。其高分辨率显示屏、先进的传感器和强大的处理能力
  • 三言两语说透柯里化和反柯里化

    JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术,可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
  • Python异步IO编程的进程/线程通信实现

    这篇文章再讲3种方式,同时讲4中进程间通信的方式一、 Python 中线程间通信的实现方式共享变量共享变量是多个线程可以共同访问的变量。在Python中,可以使用threading模块中的L
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 余承东:AI大模型技术的发展将会带来下一代智能终端操作系统的智慧体验

    8月4日消息,2023年华为开发者大会(HDC.Together)今天正式开幕,华为发布HarmonyOS 4、全新升级的鸿蒙开发套件、HarmonyOS Next开发者预览版本等一系列
  • OPPO K11搭载长寿版100W超级闪充:26分钟充满100%

    据此前官方宣布,OPPO将于7月25日也就是今天下午14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖
Top