当前位置:首页 > 元宇宙 > AI

谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

来源: 责编: 时间:2025-02-16 08:41:35 112观看
导读 2 月 14 日消息,科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。目前挑战注

2 月 14 日消息,科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。46i28资讯网——每日最新资讯28at.com

目前挑战

注:机器通过学习大型数据集来连接图像和文本,数据越多,模型识别模式和提高准确性的能力就越强。视觉语言模型 (VLMs) 依赖这些数据集执行图像字幕和视觉问答等任务。46i28资讯网——每日最新资讯28at.com

视觉语言模型目前依赖于 Conceptual Captions 和 LAION 等大型数据集,包含数百万到数十亿的图像-文本对。这些数据集支持零样本分类和图像字幕生成,但其发展已放缓至约 100 亿对。46i28资讯网——每日最新资讯28at.com

这种限制降低了进一步提高模型精度、包容性和多语言理解的前景,现有方法基于网络爬取的数据,存在样本质量低、语言偏差和多元文化代表性不足等问题。46i28资讯网——每日最新资讯28at.com

WebLI-100B 千亿级数据集

Google DeepMind 的研究人员为了缓解视觉语言模型在文化多样性和多语言性方面的局限性,提出了 WebLI-100B 数据集,该数据集包含 1000 亿个图像-文本对,比之前的数据集大十倍。46i28资讯网——每日最新资讯28at.com

该数据集捕获了罕见的文化概念,并提高了模型在低资源语言和多样化表示等较少探索领域的性能。与先前的数据集不同,WebLI-100B 不是依赖严格的过滤(通常会删除重要的文化细节),而是专注于扩展数据。46i28资讯网——每日最新资讯28at.com

该框架涉及在 WebLI-100B 数据集的不同子集(1B、10B 和 100B)上预训练模型,以分析数据缩放的影响。46i28资讯网——每日最新资讯28at.com

在完整数据集上训练的模型在文化和多语言任务中的表现优于在较小数据集上训练的模型,即使使用相同的计算资源。该数据集没有进行激进的过滤,而是保留了语言和文化元素的广泛代表性,使其更具包容性。46i28资讯网——每日最新资讯28at.com

研究结果表明,将数据集大小从 10B 增加到 100B 对以西方为中心的基准测试的影响很小,但在文化多样性任务和低资源语言检索方面带来了改进。46i28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10809-0.html谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 两轮电动车行业首个,九号将深度融合 DeepSeek 大模型

下一篇: 英国政府同 Anthropic 深化合作:Claude 有望增强该国公共服务能力

标签:
  • 热门焦点
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 企业热、用户冷,元宇宙第一站将是“营销场”?

    如果说2021年底什么最火热,那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语,在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日,有消息传
  • NFT的未来:传统企业与去中心化机构之间的竞赛

    传统企业和去中心化机构一直存在分歧,但最近NFT的爆炸式增长让他们产生了共同的兴趣,双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问,NFT 市场正在增长。
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    扩展现实(XR)通过计算机将真实与虚拟相结合,打造了一个可人机交互的虚拟环境,将AR、VR、MR多种技术相融合,为体验者带来了虚拟世界与现实世界之间无缝转换的“沉浸
  • 2022年中国元宇宙系列报告:底层架构研究:虚拟引擎,擎动未来

    “虚拟引擎是元宇宙平台搭建的基本工具。在这样的条件下,虚拟引擎拥有了广阔的市场空间。也需要虚拟引擎拥有拥有强大的处理能力,能够高效快速的实现大量交互场
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 元宇宙平台会是上世纪末的互联网吗?

    “元宇宙”火了好几个月,互联网大厂忙于布局,资本市场热烈追捧。然而很多人还是看不明白,更多的人觉得这是一场泡沫,一场骗局。一开始接触这个怪里怪气的名词,感觉
Top