当前位置:首页 > 元宇宙 > AI

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

来源: 责编: 时间:2025-08-08 11:38:39 166观看
导读 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。小红书 hi lab 表示,dots.vlm1 在大部分多模态评

8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。UMH28资讯网——每日最新资讯28at.com

小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。UMH28资讯网——每日最新资讯28at.com

NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。UMH28资讯网——每日最新资讯28at.com

多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格 / Chart / 文档 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;UMH28资讯网——每日最新资讯28at.com

通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

在主要的视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。UMH28资讯网——每日最新资讯28at.com

在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。UMH28资讯网——每日最新资讯28at.com

总体来看,dots.vlm1 在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。UMH28资讯网——每日最新资讯28at.com

复杂图表推理样例:UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

STEM 解题样例:UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

长尾识别解题样例:UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

视觉推理样例:UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

UMH28资讯网——每日最新资讯28at.com

附 dots.vlm1 开源地址:UMH28资讯网——每日最新资讯28at.com

https://github.com/rednote-hilab/dots.vlm1UMH28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-25984-0.html小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 摩尔线程:MUSA 成功适配 llama.cpp,直通全球 AI 生态圈

下一篇: 谷歌为全美大学生送福利:未来三年投入 10 亿美元提供 AI 培训及订阅服务

标签:
  • 热门焦点
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 元宇宙将会如何塑造未来的工作方式?

    科幻小说家尼尔·斯蒂芬森 (Neal Stephenson) 在1992年就创造了“元宇宙”一词,但事实上,在Facebook将其更名为Meta以反映其将这一科幻愿景变为现实的战略重点之
  • 网易音乐、理想申请元宇宙商标被驳回,“啫喱”暂停新用户进入

    【《原神》开发商米哈游宣布创立元宇宙品牌】《原神》开发商米哈游宣布推出元宇宙品牌 HoYoverse,旨在通过各种娱乐服务为全球玩家创造并提供沉浸式虚拟世界体
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
  • 纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

    2 月 22 日,纽约证券交易所 (NYSE) 的母公司洲际交易所 (ICE) 宣布,它将持有私人数字证券市场 tZERO 的所有权。根据公告,ICE 将成为 tZero 的“重要”少数股东,但
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • MR——元宇宙平台的下一代入口

    作为“元宇宙”的领头羊,Meta的一举一动都受到业内的高度关注。华尔街见闻提及,2月17日周四,Facebook母公司Meta在透露,其混合现实技术(MR)将在几年后实现,让人们对元
Top