当前位置:首页 > 元宇宙 > AI

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

来源: 责编: 时间:2025-04-28 07:34:04 162观看
导读 4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。以 OpenAI 的

4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。if828资讯网——每日最新资讯28at.com

以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。if828资讯网——每日最新资讯28at.com

Meta 公司针对上述痛点,在在 Hugging Face 平台上发布了 WebSSL 系列模型,涵盖 DINO 和 Vision Transformer(ViT)架构,参数规模从 3 亿到 70 亿不等。if828资讯网——每日最新资讯28at.com

if828资讯网——每日最新资讯28at.com

这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,排除了语言监督的影响。Meta 的目标并非取代 CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。if828资讯网——每日最新资讯28at.com

WebSSL 模型采用两种视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。训练统一使用 224×224 分辨率图像,并冻结视觉编码器以确保结果差异仅源于预训练策略。if828资讯网——每日最新资讯28at.com

模型在五个容量层级(ViT-1B 至 ViT-7B)上训练,评估基于 Cambrian-1 基准测试,覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外,模型无缝集成于 Hugging Face 的 transformers 库,便于研究和应用。if828资讯网——每日最新资讯28at.com

实验揭示了多项关键发现:随着参数规模增加,WebSSL 模型在 VQA 任务上的表现接近对数线性提升,而 CLIP 在超过 30 亿参数后性能趋于饱和。if828资讯网——每日最新资讯28at.com

WebSSL 在 OCR 和图表任务中表现尤为突出,尤其在数据筛选后,仅用 1.3% 的富文本图像训练即超越 CLIP,在 OCRBench 和 ChartQA 任务中提升高达 13.6%。if828资讯网——每日最新资讯28at.com

if828资讯网——每日最新资讯28at.com

此外,高分辨率(518px)微调进一步缩小了与 SigLIP 等高分辨率模型的差距,在文档任务中表现尤为出色。if828资讯网——每日最新资讯28at.com

WebSSL 模型在无语言监督下仍展现出与预训练语言模型(如 LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。if828资讯网——每日最新资讯28at.com

同时,WebSSL 在传统基准测试(如 ImageNet-1k 分类、ADE20K 分割)上保持强劲表现,部分场景甚至优于 MetaCLIP 和 DINOv2。if828资讯网——每日最新资讯28at.com

附上参考地址if828资讯网——每日最新资讯28at.com

Scaling Language-Free Visual Representation Learningif828资讯网——每日最新资讯28at.com

Hugging Faceif828资讯网——每日最新资讯28at.com

GitHubif828资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 会有意识吗?Anthropic 启动新项目,探索寻求答案

下一篇: 黑洞超辐射:颠覆认知的量子奇观,开启宇宙探索新视角!

标签:
  • 热门焦点
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 江西将探索成立元宇宙联盟,韩国将加强对NFT和元宇宙的监管

    《元宇宙新鲜事》有:江西将探索成立元宇宙联盟,支持南昌规划建设元宇宙试验区;韩国金融监督局将加强对NFT和元宇宙的监管;任天堂社长表示暂时不打算加入元宇宙。【
  • Layer1的新以太坊,更好的以太坊?

    以太坊作为区块链基础设施地位看起来已不可动摇,但也面临着费用高、效率低、偏离去中心化初衷等问题。平台上既得利益群体的形成和固化也逐渐让革新变得困难。
  • 艺术创作者能否永久收取版税?

    NFTs正在改变我们理解互联网所有权的方式,社区管理的所有权有很多好处,但如果创作者想为他/她的创作获得永久的收益(版税),会发生什么?这不是一个容易解决的问题,版税
  • 知名艺术家打造去中心化“好莱坞”:一部电影一个DAO

    根据市场追踪网站 DappRadar 的数据,随着 NFT 的“出圈”与加密货币的普及,NFT 市场在 2021 年的销售额达到约 250 亿美元,而 2020 年仅为 9490 万美元,同比增超 2
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • 售出6930万美元的NFT已经过去一年,NFT如今是否已成为主流?

    Everydays: the First 5000 Days/Beeple去年三月,一件艺术品被著名拍卖行佳士得以6930万美元的高价售出。而让人们感到震惊的是,这个拍卖作品不是出自哪位艺术大
Top