当前位置：首页 > 元宇宙 > AI

数据枯竭引发AI危机：模型崩溃如何解决？

来源：责编：时间：2023-08-15 18:48:08 419观看

导读7月18日消息，比大更大的AI语言模型成为当今AI领域的热门话题，似乎再没有什么比它更为恰当的形容了。大型模型的参数规模不断扩大，从十亿、百亿到千亿，训练AI所需的数据量也呈指数级增长。以OpenAI的GPT为例，从GPT-1到GPT-3

7月18日消息，比大更大的AI语言模型成为当今AI领域的热门话题，似乎再没有什么比它更为恰当的形容了。

大型模型的参数规模不断扩大，从十亿、百亿到千亿，训练AI所需的数据量也呈指数级增长。

以OpenAI的GPT为例，从GPT-1到GPT-3，训练数据集的规模从4.5GB急剧增长至570GB。

不久前，由Databricks举办的Data+AI大会上，a16z创始人马克·安德森认为，互联网在过去二十多年积累的海量数据是新一轮AI浪潮兴起的重要原因，因为这些数据为AI训练提供了可用的素材。

然而，尽管网民在网络上留下了大量有用或无用的数据，对于AI训练来说，这些数据可能即将见底。

人工智能研究和预测组织Epoch发表的一篇论文预测，高质量的文本数据将在2023年至2027年之间消耗殆尽。

尽管研究团队承认分析方法存在严重局限性，模型的不准确性较高，但很难否认AI对数据集的消耗速度令人担忧。

当人类数据用尽后，AI训练不可避免地将依赖于AI自身生成的内容。然而，这种"内循环"会带来巨大挑战。

最近，来自剑桥大学、牛津大学、多伦多大学等高校的研究人员发表的论文指出，使用AI生成的内容来训练AI会导致新模型的崩溃。

那么，为什么使用"生成数据"来训练AI会导致模型崩溃?是否还有拯救的办法呢?

研究人员在名为"递归的诅咒：用生成数据训练会使模型遗忘"的论文中指出，"模型崩溃"是几代模型退化的过程。

在早期的模型崩溃中，模型会逐渐失去对原始数据分布的理解，也就是"干净的人类数据"。

在晚期阶段，模型会将几代模型对原始数据分布的错误认知纠缠在一起，进而扭曲对现实的认知。

研究人员首先对小样本模型GMM(高斯混合模型)和VAE(变量自动编码器)进行了训练。以GMM为例，他们观察到模型在开始几十次迭代时对数据的拟合非常好。然而，随着迭代的进行，模型对数据分布的理解开始出现错误。当迭代达到2000次时，模型已经收敛到一个非常小的点，意味着模型开始稳定地输出错误的答案。

为了验证预训练对实验结果的影响，研究人员还在1.25亿参数的LLM(大语言模型)OPT-125m上进行了实验，数据集来自维基百科的wikitext2。通过实验结果可以看出，到了第9代模型时，输出的内容已经变得毫无意义。

论文的作者之一伊利亚·舒迈洛夫表示，随着时间的推移，人工智能生成的数据中的错误会不断累积，主要模型在接受这些数据训练后，会对现实产生更加扭曲的认知。

那么，为什么会出现模型崩溃呢?

模型崩溃的主要原因在于AI并非真正的智能，其所展现的近似"智能"能力实际上是基于大量数据的统计学方法。

基本上，所有无监督机器学习算法都遵循着一个简单的模式：给定一系列数据，训练出一个能够描述这些数据规律的模型。

在这个过程中，模型更容易关注出现概率较高的数据，而对于出现概率较低的数据则容易低估。

举个例子，假设我们需要记录100次掷骰子的结果来计算每个面出现的概率。理论上，每个面出现的概率是相等的。然而，在实际生活中，由于样本量较小，可能会出现某些面的出现次数比较多的情况。但是对于模型而言，它学习到的数据就是某些面出现的概率较高，因此它会更倾向于生成更多的这些面的结果。

那么，有没有办法解决模型崩溃的问题呢?

事实上，并不是所有的希望都已经破灭。

当人类数据越来越稀缺时，AI训练仍然有机会，有一些方法可以解决数据枯竭的问题：

首先是数据"隔离"。随着AI的不断强大，越来越多的人开始使用AI辅助工作，因此可用的"干净人类数据集"可能会越来越难以获取。为了解决模型崩溃问题，研究团队提出了一种"先行者优势"的方法，即将干净的人工生成数据源与AI生成的内容分离开来，以防止AIGC对干净数据的污染。这需要社区和公司的共同努力，共同保护人类数据免受AIGC的污染。

其次是使用合成数据。实际上，专门基于AI生成的数据已经被广泛用于AI的训练。对于一些从业者来说，目前关注AI生成数据导致模型崩溃的担忧可能有些夸大其词。光轮智能创始人谢晨表示，国外的研究论文中对于AI生成数据导致模型崩溃的实验方法并不准确。无论是人类数据还是AI生成的数据，都存在可用性和不可用性的区别。因此，关键在于建立一套有效的体系来区分AI生成的数据中的可用和不可用部分，并根据训练后模型的效果进行反馈。OpenAI使用合成数据进行模型训练已经成为AI行业内的共识。

总之，尽管人类数据面临枯竭的问题，但AI训练并非没有解决办法。通过数据的隔离和合成数据的使用，可以有效克服模型崩溃的问题，确保AI的持续发展。

本文链接：http://www.28at.com/showinfo-45-981-0.html数据枯竭引发AI危机：模型崩溃如何解决？

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：马斯克建立xAI以防止人工智能垄断

下一篇：互动社交平台映客的母公司蜜莱坞科技购买昆仑万维AI技术服务

标签：

热门焦点

数字人的新革命，BAT的“冲高”战场

来源：刘旷ChatGPT横空出世，让人们看到了数字人的另一种可能，将ChatGPT与虚拟数字人融合，研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份，岭南股份
花房集团上市，走向元宇宙新征程

文 | 港股研究社作者 | 熊生12月12日，花房集团在港交所成功上市，首日便受到追捧，当日最高涨幅达28.75%。继360、360数科、鲁大师后，这是“红衣教主”周
Shiba Inu布局元宇宙走出Meme局限

以「狗狗币杀手」成名的Shiba Inu（SHIB）在人们的印象中始终有着浓厚的Meme（模因恶搞）烙印，但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后，Shiba Inu
NFT也有黄牛？这家公司专门对付外挂作弊机器人

澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于纽卡斯尔的黑客，他的职业生涯始于为国防
NFT：新骗局的狩猎场

骗局的自动化需要更好的防御，从数字身份开始。前几天我在OpenSea上购买了一个NFT，是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画，来自她的 "原作 "收
NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

一些艺术家通过将他们的创作作为NFT出售而获得了巨大收益。令人惊讶的是，许多赚取了数百万美元的艺术家们仍在读高中。这可能有点让人难以置信。然而，请记住，在短
美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

今天，Billboard宣布与流行的NFT头像集World of Women（WoW）建立新的伙伴关系，向NFT生态系统又迈进了一步。在这次合作中，WoW的创建者Yam Karkai将帮助这个音乐行业巨
赵长鹏预测SoicalFi为今年主要驱动力，新的机会在哪里？

作者：五火球教主前不久，赵长鹏在《财富》杂志印度版块刊登评论。他表示：“DeFi 在 2021 年出现了快速创新，我们可能会在 2022 年看到蓬勃发展的兴趣和创新，其中 Soc
电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

元宇宙听起来像不像是科幻小说中出现的术语？事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙，它能够模

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

数据枯竭引发AI危机：模型崩溃如何解决？

数字人的新革命，BAT的“冲高”战场

花房集团上市，走向元宇宙新征程

Shiba Inu布局元宇宙走出Meme局限

NFT也有黄牛？这家公司专门对付外挂作弊机器人

NFT：新骗局的狩猎场

NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

赵长鹏预测SoicalFi为今年主要驱动力，新的机会在哪里？

电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

最新推荐

《蜘蛛侠》火了，超级英雄就该这么演

搭上“谷爱凌”，“柳夜熙们”站上风口？

Interface正大光明的“跑路”，社区成员赞格局大

对讽刺无动于衷，Nori将碳市场放在区块链上

艺术创作者能否永久收取版税？

NFT高玩必备：NFT分析工具大盘点

猜你喜欢

热门推荐

相关资讯