当前位置:首页 > 元宇宙 > AI

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

来源: 责编: 时间:2025-04-28 07:34:04 195观看
导读 4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。以 OpenAI 的

4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。9YO28资讯网——每日最新资讯28at.com

以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。9YO28资讯网——每日最新资讯28at.com

Meta 公司针对上述痛点,在在 Hugging Face 平台上发布了 WebSSL 系列模型,涵盖 DINO 和 Vision Transformer(ViT)架构,参数规模从 3 亿到 70 亿不等。9YO28资讯网——每日最新资讯28at.com

9YO28资讯网——每日最新资讯28at.com

这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,排除了语言监督的影响。Meta 的目标并非取代 CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。9YO28资讯网——每日最新资讯28at.com

WebSSL 模型采用两种视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。训练统一使用 224×224 分辨率图像,并冻结视觉编码器以确保结果差异仅源于预训练策略。9YO28资讯网——每日最新资讯28at.com

模型在五个容量层级(ViT-1B 至 ViT-7B)上训练,评估基于 Cambrian-1 基准测试,覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外,模型无缝集成于 Hugging Face 的 transformers 库,便于研究和应用。9YO28资讯网——每日最新资讯28at.com

实验揭示了多项关键发现:随着参数规模增加,WebSSL 模型在 VQA 任务上的表现接近对数线性提升,而 CLIP 在超过 30 亿参数后性能趋于饱和。9YO28资讯网——每日最新资讯28at.com

WebSSL 在 OCR 和图表任务中表现尤为突出,尤其在数据筛选后,仅用 1.3% 的富文本图像训练即超越 CLIP,在 OCRBench 和 ChartQA 任务中提升高达 13.6%。9YO28资讯网——每日最新资讯28at.com

9YO28资讯网——每日最新资讯28at.com

此外,高分辨率(518px)微调进一步缩小了与 SigLIP 等高分辨率模型的差距,在文档任务中表现尤为出色。9YO28资讯网——每日最新资讯28at.com

WebSSL 模型在无语言监督下仍展现出与预训练语言模型(如 LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。9YO28资讯网——每日最新资讯28at.com

同时,WebSSL 在传统基准测试(如 ImageNet-1k 分类、ADE20K 分割)上保持强劲表现,部分场景甚至优于 MetaCLIP 和 DINOv2。9YO28资讯网——每日最新资讯28at.com

附上参考地址9YO28资讯网——每日最新资讯28at.com

Scaling Language-Free Visual Representation Learning9YO28资讯网——每日最新资讯28at.com

Hugging Face9YO28资讯网——每日最新资讯28at.com

GitHub9YO28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 会有意识吗?Anthropic 启动新项目,探索寻求答案

下一篇: 黑洞超辐射:颠覆认知的量子奇观,开启宇宙探索新视角!

标签:
  • 热门焦点
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 韩国国民银行将推出韩国首个加密货币 ETF

    韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告,该银行正在等待政府批准,并已建立一个准备就绪的数字资产
  • 小众有趣NFT艺术作品欣赏(1)

    随着NFT发展火热,越来越多领域与NFT融合,NFT艺术在加密领域中占据了很大一部分。NFT艺术与传统艺术有相似之处,也有完全不同的地方。NFT艺术与传统艺术一样,表现了
  • a16z:元宇宙办公会取代实体办公室吗?

    6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界,大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • 以用户为中心,Web3和区块链如何将用户放在首位

    竞争优势正在改变竞争优势是每个企业都在努力争取的,由谷歌、Facebook和Netflix等大型科技公司主导的市场中,两大重要类别的竞争优势十分突出。第一个竞争优势来
Top