当前位置:首页 > 元宇宙 > AI

数据枯竭引发AI危机:模型崩溃如何解决?

来源: 责编: 时间:2023-08-15 18:48:08 375观看
导读7月18日消息,比大更大的AI语言模型成为当今AI领域的热门话题,似乎再没有什么比它更为恰当的形容了。大型模型的参数规模不断扩大,从十亿、百亿到千亿,训练AI所需的数据量也呈指数级增长。以OpenAI的GPT为例,从GPT-1到GPT-3

7月18日消息,比大更大的AI语言模型成为当今AI领域的热门话题,似乎再没有什么比它更为恰当的形容了。k9328资讯网——每日最新资讯28at.com

大型模型的参数规模不断扩大,从十亿、百亿到千亿,训练AI所需的数据量也呈指数级增长。k9328资讯网——每日最新资讯28at.com

以OpenAI的GPT为例,从GPT-1到GPT-3,训练数据集的规模从4.5GB急剧增长至570GB。k9328资讯网——每日最新资讯28at.com

不久前,由Databricks举办的Data+AI大会上,a16z创始人马克·安德森认为,互联网在过去二十多年积累的海量数据是新一轮AI浪潮兴起的重要原因,因为这些数据为AI训练提供了可用的素材。k9328资讯网——每日最新资讯28at.com

然而,尽管网民在网络上留下了大量有用或无用的数据,对于AI训练来说,这些数据可能即将见底。k9328资讯网——每日最新资讯28at.com

人工智能研究和预测组织Epoch发表的一篇论文预测,高质量的文本数据将在2023年至2027年之间消耗殆尽。k9328资讯网——每日最新资讯28at.com

尽管研究团队承认分析方法存在严重局限性,模型的不准确性较高,但很难否认AI对数据集的消耗速度令人担忧。k9328资讯网——每日最新资讯28at.com

当人类数据用尽后,AI训练不可避免地将依赖于AI自身生成的内容。然而,这种"内循环"会带来巨大挑战。k9328资讯网——每日最新资讯28at.com

最近,来自剑桥大学、牛津大学、多伦多大学等高校的研究人员发表的论文指出,使用AI生成的内容来训练AI会导致新模型的崩溃。k9328资讯网——每日最新资讯28at.com

那么,为什么使用"生成数据"来训练AI会导致模型崩溃?是否还有拯救的办法呢?k9328资讯网——每日最新资讯28at.com

研究人员在名为"递归的诅咒:用生成数据训练会使模型遗忘"的论文中指出,"模型崩溃"是几代模型退化的过程。k9328资讯网——每日最新资讯28at.com

在早期的模型崩溃中,模型会逐渐失去对原始数据分布的理解,也就是"干净的人类数据"。k9328资讯网——每日最新资讯28at.com

在晚期阶段,模型会将几代模型对原始数据分布的错误认知纠缠在一起,进而扭曲对现实的认知。k9328资讯网——每日最新资讯28at.com

研究人员首先对小样本模型GMM(高斯混合模型)和VAE(变量自动编码器)进行了训练。以GMM为例,他们观察到模型在开始几十次迭代时对数据的拟合非常好。然而,随着迭代的进行,模型对数据分布的理解开始出现错误。当迭代达到2000次时,模型已经收敛到一个非常小的点,意味着模型开始稳定地输出错误的答案。k9328资讯网——每日最新资讯28at.com

为了验证预训练对实验结果的影响,研究人员还在1.25亿参数的LLM(大语言模型)OPT-125m上进行了实验,数据集来自维基百科的wikitext2。通过实验结果可以看出,到了第9代模型时,输出的内容已经变得毫无意义。k9328资讯网——每日最新资讯28at.com

论文的作者之一伊利亚·舒迈洛夫表示,随着时间的推移,人工智能生成的数据中的错误会不断累积,主要模型在接受这些数据训练后,会对现实产生更加扭曲的认知。k9328资讯网——每日最新资讯28at.com

那么,为什么会出现模型崩溃呢?k9328资讯网——每日最新资讯28at.com

模型崩溃的主要原因在于AI并非真正的智能,其所展现的近似"智能"能力实际上是基于大量数据的统计学方法。k9328资讯网——每日最新资讯28at.com

基本上,所有无监督机器学习算法都遵循着一个简单的模式:给定一系列数据,训练出一个能够描述这些数据规律的模型。k9328资讯网——每日最新资讯28at.com

在这个过程中,模型更容易关注出现概率较高的数据,而对于出现概率较低的数据则容易低估。k9328资讯网——每日最新资讯28at.com

举个例子,假设我们需要记录100次掷骰子的结果来计算每个面出现的概率。理论上,每个面出现的概率是相等的。然而,在实际生活中,由于样本量较小,可能会出现某些面的出现次数比较多的情况。但是对于模型而言,它学习到的数据就是某些面出现的概率较高,因此它会更倾向于生成更多的这些面的结果。k9328资讯网——每日最新资讯28at.com

那么,有没有办法解决模型崩溃的问题呢?k9328资讯网——每日最新资讯28at.com

事实上,并不是所有的希望都已经破灭。k9328资讯网——每日最新资讯28at.com

当人类数据越来越稀缺时,AI训练仍然有机会,有一些方法可以解决数据枯竭的问题:k9328资讯网——每日最新资讯28at.com

首先是数据"隔离"。随着AI的不断强大,越来越多的人开始使用AI辅助工作,因此可用的"干净人类数据集"可能会越来越难以获取。为了解决模型崩溃问题,研究团队提出了一种"先行者优势"的方法,即将干净的人工生成数据源与AI生成的内容分离开来,以防止AIGC对干净数据的污染。这需要社区和公司的共同努力,共同保护人类数据免受AIGC的污染。k9328资讯网——每日最新资讯28at.com

其次是使用合成数据。实际上,专门基于AI生成的数据已经被广泛用于AI的训练。对于一些从业者来说,目前关注AI生成数据导致模型崩溃的担忧可能有些夸大其词。光轮智能创始人谢晨表示,国外的研究论文中对于AI生成数据导致模型崩溃的实验方法并不准确。无论是人类数据还是AI生成的数据,都存在可用性和不可用性的区别。因此,关键在于建立一套有效的体系来区分AI生成的数据中的可用和不可用部分,并根据训练后模型的效果进行反馈。OpenAI使用合成数据进行模型训练已经成为AI行业内的共识。k9328资讯网——每日最新资讯28at.com

总之,尽管人类数据面临枯竭的问题,但AI训练并非没有解决办法。通过数据的隔离和合成数据的使用,可以有效克服模型崩溃的问题,确保AI的持续发展。k9328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-981-0.html数据枯竭引发AI危机:模型崩溃如何解决?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 马斯克建立xAI以防止人工智能垄断

下一篇: 互动社交平台映客的母公司蜜莱坞科技购买昆仑万维AI技术服务

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 元宇宙“概念股”集体崩塌,背后究竟发生了什么?

    近期,Roblox和Meta公布了第四季度的财务报告,在财报发布一日后,股价大跌。作为市值一度超过1万亿美元的世界第六大公司Meta,股价大跌4%,市值降至5650亿美元,甚至跌出
  • NFT教育要从娃娃抓起!这些青少年艺术家已经赚取了几千万美金

    一些艺术家通过将他们的创作作为NFT出售而获得了巨大收益。令人惊讶的是,许多赚取了数百万美元的艺术家们仍在读高中。这可能有点让人难以置信。然而,请记住,在短
  • 元宇宙平台会是上世纪末的互联网吗?

    “元宇宙”火了好几个月,互联网大厂忙于布局,资本市场热烈追捧。然而很多人还是看不明白,更多的人觉得这是一场泡沫,一场骗局。一开始接触这个怪里怪气的名词,感觉
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • 我们为什么需要Web3,距离Web3的实现还有多远?

    当今技术正在经历着重要的变革,许多公司正在改变他们的经营模式以求变得更加的灵活,其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3,

相关资讯

    SQL Error: select * from ***_ecms_news11 where id in(3,160,213,,273,241) limit 6
Top