当前位置:首页 > 元宇宙 > AI

AI数据源头揭秘:巨头垄断加剧,西方文化主导下的模型偏见何时休?

来源: 责编: 时间:2025-01-30 18:47:03 170观看
导读在人工智能领域,LLM和Agent技术日新月异,取得了高度成熟的进展。然而,相比之下,数据收集方面的规范化进程却明显滞后。一个引人深思的问题摆在了人们面前:AI训练所需的海量数据究竟源自何处?为了解答这一问题,一个名为数据溯

在人工智能领域,LLM和Agent技术日新月异,取得了高度成熟的进展。然而,相比之下,数据收集方面的规范化进程却明显滞后。一个引人深思的问题摆在了人们面前:AI训练所需的海量数据究竟源自何处?为了解答这一问题,一个名为数据溯源计划(DPI)的国际性研究团队应运而生。Ts928资讯网——每日最新资讯28at.com

Longpre强调,对于基座模型的能力而言,互联网的规模和数据的异构性至关重要。对规模的需求也促进了合成数据的大量使用。除了语言模型外,近年来多模态生成式AI(GenAI)也迅速崛起,如图像和视频生成模型。这些模型同样需要尽可能多的数据,而视频模型的语音和图像数据集中,超过70%的数据都来自YouTube。这一现象对拥有YouTube平台的谷歌及其母公司Alphabet极为有利,因为文本数据分布在整个互联网上,由许多不同的网站和平台控制,但视频数据的权力却如此集中地掌握在一家公司手中。Ts928资讯网——每日最新资讯28at.com

AI Now Institute联合执行董事Sarah Myers West对此表示担忧,她认为谷歌在开发自己的人工智能模型(如Gemini)方面具有巨大优势,这引发了人们对其如何向竞争对手提供数据的疑问。更深层次的问题是,如果我们所交互的大多数AI数据集都反映了以利润为导向的科技巨头的意图和设计,那么这些大公司可能会以符合自己利益的方式重塑我们世界的基础设施。Ts928资讯网——每日最新资讯28at.com

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难做出正确的数据选择,也无法保证模型训练过程中没有使用过受版权保护的数据。最近,OpenAI、Google等公司与出版商、Reddit等主要论坛以及网络社交媒体平台达成了独家数据共享协议,这进一步加剧了数据垄断的趋势。这一趋势有利于AI领域的最大玩家,他们有足够的财力进行数据交易,但却牺牲了学术界研究人员、非营利组织和小公司的利益。Ts928资讯网——每日最新资讯28at.com

更令人担忧的是,用于训练AI模型的数据严重偏向西方世界。DPI团队分析的数据集中,超过90%来自欧洲和北美,而非洲的数据占比不到4%。Hugging Face首席伦理学家Giada Pistilli指出,英语在训练数据中占据主导地位的原因之一是互联网中90%以上的内容仍然是英语;另一个原因是便利性:将其他语言的数据集放在一起并考虑其他文化需要进行更多的数据工作以及开发人员的有意识意图。这导致多模态模型的输出往往以西方文化为焦点,例如当提示AI模型生成婚礼的景象和声音时,可能只能得到西式婚礼相关的内容。Ts928资讯网——每日最新资讯28at.com

数据集代表了人类社会中的偏见,而经过这些数据训练的模型又加剧了这些偏见。这可能导致AI模型推动一种以美国为中心的世界观,同时不经意间抹去其他语言和文化。为了解决这个问题,DPI团队呼吁加强数据收集方面的规范化进程,提高数据透明度和多样性,以确保AI技术的公平性和可持续性发展。Ts928资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
2025年春节档电影市场火爆,总票房已超30亿!
2025年春节档电影市场火爆,总票房已超30亿!
春节假期自驾,这些食物可能让你“被酒驾”?
春节假期自驾,这些食物可能让你“被酒驾”?
特斯拉2024财报揭晓:全年交付破178万辆,营收增势放缓股价波动大
特斯拉2024财报揭晓:全年交付破178万辆,营收增势放缓股价波动大
雷克萨斯LS系列将变革?七座混动SUV或成新领航者
雷克萨斯LS系列将变革?七座混动SUV或成新领航者
通用汽车2024财报:营收攀升9%,净利润却大幅下滑40%?
通用汽车2024财报:营收攀升9%,净利润却大幅下滑40%?
通用汽车2024财报亮点:营收增9%净利跌40%,中国市场盈利转正
通用汽车2024财报亮点:营收增9%净利跌40%,中国市场盈利转正
热门内容
  • DeepSeek两日连崩,官方回应:技术服务稳定性受多重因素挑战
  • 三星Galaxy S25系列真机曝光,明日发布会将有何惊喜?
  • DeepSeek故障再现,用户对话受阻,官方尚未回应
  • 梁文峰:从对冲基金经理到DeepSeek创始人,如何改写AI版图?
  • DeepSeek走红全球,高薪招聘实习生,日薪最高可达千元!
  • DeepSeek凌晨发布Janus-Pro,多模态大模型性能超越OpenAI DALL-E 3
  • DeepSeek深夜发布Janus-Pro,性能超越OpenAI DALL-E 3引关注
  • 支付宝集五福新升级,2025年1月20日活动盛大启幕!
  • 三星Galaxy S25系列评测:AI大升级,Ultra版全面领跑
  • 扫地机器人进化新形态,追觅机械手引领家庭服务智能革命
  • 2025杰出雇主榜单发布:企业如何应对市场挑战,人才战略是关键
  • CES 2025:Aria机器人亮相,高度拟人可换脸,专为陪伴而生
  • 三星S25系列发布会前瞻:手机迭代温和,OneUI 7与AI硬件成亮点?
  • DeepSeek团队揭秘:清北应届生领衔,年轻力量如何撑起AI大模型新篇章?
  • 英伟达CES发布Project Digits:3000美元迷你AI超算实拍亮相
本栏最新
扎克伯格:Meta押注开源,AI助手今年望破10亿用户大关
扎克伯格:Meta押注开源,AI助手今年望破10亿用户大关
微软AI投资大增云营收却放缓,股价盘后大幅波动引关注
微软AI投资大增云营收却放缓,股价盘后大幅波动引关注
DeepSeek背后商业网络揭秘:梁文锋关联15家企业,商标申请竞争激烈
DeepSeek背后商业网络揭秘:梁文锋关联15家企业,商标申请竞争激烈
消息称软银拟 250 亿美元入股 OpenAI,成 ChatGPT制造商最大金主
消息称软银拟 250 亿美元入股 OpenAI,成 ChatGPT制造商最大金主
DeepSeek服务频现异常,遭海外大规模攻击引发关注!
DeepSeek服务频现异常,遭海外大规模攻击引发关注!
微软Q2财报亮眼,智能云及Azure增长未达预期股价下挫
微软Q2财报亮眼,智能云及Azure增长未达预期股价下挫

本文链接:http://www.28at.com/showinfo-45-10319-0.htmlAI数据源头揭秘:巨头垄断加剧,西方文化主导下的模型偏见何时休?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek能否引领国产AI新篇章,还是仅为市场一瞬光芒?

下一篇: Meta财报电话会:AI助手成未来亮点,广告收入持续增长

标签:
  • 热门焦点
  • 元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 关于年度热词NFT,除了钱,我们还可以聊点啥?

    每到年底,社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词,你会想到什么?柯林斯词典将年度热词颁给了“NFT”,而其理由是:一个缩写词的
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己

最新推荐

猜你喜欢

热门推荐

相关资讯

Top