当前位置：首页 > 元宇宙 > AI

Meta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

来源：责编：时间：2025-04-28 07:34:04 281观看

导读 4 月 25 日消息，科技媒体 marktechpost 昨日（4 月 24 日）发布博文，报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习（SSL）的潜力。以 OpenAI 的

4 月 25 日消息，科技媒体 marktechpost 昨日（4 月 24 日）发布博文，报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习（SSL）的潜力。

以 OpenAI 的 CLIP 为代表，对比语言-图像模型已成为学习视觉表征的默认选择，在视觉问答（VQA）和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制，语言依赖面临诸多挑战。

Meta 公司针对上述痛点，在在 Hugging Face 平台上发布了 WebSSL 系列模型，涵盖 DINO 和 Vision Transformer（ViT）架构，参数规模从 3 亿到 70 亿不等。

这些模型仅使用 MetaCLIP 数据集（MC-2B）中的 20 亿张图像子集进行训练，排除了语言监督的影响。Meta 的目标并非取代 CLIP，而是通过控制变量，深入评估在不受数据和模型规模限制下，纯视觉自监督学习（SSL）的表现潜力。

WebSSL 模型采用两种视觉自监督学习范式：联合嵌入学习（DINOv2）和掩码建模（MAE）。训练统一使用 224×224 分辨率图像，并冻结视觉编码器以确保结果差异仅源于预训练策略。

模型在五个容量层级（ViT-1B 至 ViT-7B）上训练，评估基于 Cambrian-1 基准测试，覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外，模型无缝集成于 Hugging Face 的 transformers 库，便于研究和应用。

实验揭示了多项关键发现：随着参数规模增加，WebSSL 模型在 VQA 任务上的表现接近对数线性提升，而 CLIP 在超过 30 亿参数后性能趋于饱和。

WebSSL 在 OCR 和图表任务中表现尤为突出，尤其在数据筛选后，仅用 1.3% 的富文本图像训练即超越 CLIP，在 OCRBench 和 ChartQA 任务中提升高达 13.6%。

此外，高分辨率（518px）微调进一步缩小了与 SigLIP 等高分辨率模型的差距，在文档任务中表现尤为出色。

WebSSL 模型在无语言监督下仍展现出与预训练语言模型（如 LLaMA-3）的良好对齐性，表明大规模视觉模型能隐式学习与文本语义相关的特征。

同时，WebSSL 在传统基准测试（如 ImageNet-1k 分类、ADE20K 分割）上保持强劲表现，部分场景甚至优于 MetaCLIP 和 DINOv2。

附上参考地址

Scaling Language-Free Visual Representation Learning

Hugging Face

GitHub

本文链接：http://www.28at.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： AI 会有意识吗？Anthropic 启动新项目，探索寻求答案

下一篇：黑洞超辐射：颠覆认知的量子奇观，开启宇宙探索新视角！

标签：

热门焦点

《蜘蛛侠》火了，超级英雄就该这么演

燃次元（ID:chaintruth）原创作者 | 陶淘编辑 | 曹拿下豆瓣8.8分、IMDB 9.1的高分，6月2日在全球同步上映的《蜘蛛侠：纵横宇宙》（以下简称《蜘蛛侠》），上映不足一周，便在国内“
在元宇宙卖酸奶，这波联动燃爆了！

来源：品牌头版或许，每个人心中都住着一个小馋孩。可能是童年时百吃不厌，觉得新奇又有趣的跳跳糖；可能是味道香甜，咬下一口嘎嘣脆的扁桃仁；还有可能，是某种不知为什么，就是很爱吃的
“平均时代”：ChatGPT模仿秀的隐喻

来源：锦缎如果你问ChatGPT，Instagram上最美的女人是谁？它很可能会给你一个名字，叫卡戴珊。如果你观察过Instagram这个美版小红书：平台上的所有网红，展现的几乎是统一面孔：统一的医
元宇宙是投资中国的第五次重大机遇

作者为凯思博投资董事长导语：投资逻辑要来自于人性在社会发展过程中的普遍规律，由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天，中国总共经历了
时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱（Crypto）、房屋（可能建在Minecraft上）和衣物。随着
Terra链上TVL跃升至第二

据DefiLlama数据显示，当前,Terra链上应用锁仓的加密资产价值（TVL）为172.1亿美元，在公链板块中已跃升至第二，超越了币安智能链TVL的118亿美元，TVL排名居首的仍为以太
MR——元宇宙平台的下一代入口

作为“元宇宙”的领头羊，Meta的一举一动都受到业内的高度关注。华尔街见闻提及，2月17日周四，Facebook母公司Meta在透露，其混合现实技术（MR）将在几年后实现，让人们对元
2022年元宇宙系列报告：UGC当道，XR带来新交互体验

UGC作为元宇宙的主要内容创作模式，已经越来越多的呈现于游戏、娱乐、社交、传媒等方面，UGC模式勾勒了元宇宙的边界，现今元宇宙UGC模式的主要呈现方式以元宇宙概念
虚拟人行业研究报告

最早的虚拟人出现于 20 世纪 80 年代，受限于技术，当时的虚拟人制作以手绘为主。21 世纪初，随着动捕、渲染等技术的逐步发展，虚拟人相关技术开始在影视领域逐渐普及

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

Meta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

《蜘蛛侠》火了，超级英雄就该这么演

在元宇宙卖酸奶，这波联动燃爆了！

“平均时代”：ChatGPT模仿秀的隐喻

元宇宙是投资中国的第五次重大机遇

时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

Terra链上TVL跃升至第二

MR——元宇宙平台的下一代入口

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

虚拟人行业研究报告

最新推荐

AI网红能年赚百万，普通人的新机会来了？

抢先推出“元宇宙”饮料，可口可乐赢麻了

中文在线的“元宇宙”故事，资本听腻了？

2022年的Web3：定义概念并开创新范式

3月份值得关注的5个NFT项目

知名艺术家打造去中心化“好莱坞”：一部电影一个DAO

猜你喜欢

热门推荐

相关资讯