当前位置:首页 > 元宇宙 > AI

大模型互相“薅羊毛”背后,行业基本操作,规范化势在必行

来源: 责编: 时间:2023-12-25 09:33:48 380观看
导读 最近,字节跳动被曝调用 OpenAI API 接口训练大模型的争议,以及谷歌大模型 Gemini 被曝使用百度文心一言进行中文语料训练等事件,在行业里引发了不小的关注和讨论。不明真相的网友们一边热情吃瓜,一边也在感叹 AI

最近,字节跳动被曝调用 OpenAI API 接口训练大模型的争议,以及谷歌大模型 Gemini 被曝使用百度文心一言进行中文语料训练等事件,在行业里引发了不小的关注和讨论。X6t28资讯网——每日最新资讯28at.com

不明真相的网友们一边热情吃瓜,一边也在感叹 AI 大厂之间互相“薅羊毛”的奇葩操作,属实是给大家整不会了。X6t28资讯网——每日最新资讯28at.com

X6t28资讯网——每日最新资讯28at.com

不过,透过现象看本质。倒认为,这几件颇受关注的事件或许可以成为一个契机,引导行业走向 AI 大模型训练过程中数据使用版权走向规范化的道路上。X6t28资讯网——每日最新资讯28at.com

AI 领域数据版权问题是行业通病

前面说的关于字节跳动和 OpenAI 之间的“争议”,目前双方都做出了回应。OpenAI 方面称需要进一步调查字节跳动是否存在违规。而字节跳动则表示仅在初期探索阶段使用 OpenAI 的 API,4 月份的时候已经停止。X6t28资讯网——每日最新资讯28at.com

而就在外媒报道字节与 OpenAI 事件后不久,谷歌的 Gemini 大模型也被曝出中文语料是使用文心一言进行训练。X6t28资讯网——每日最新资讯28at.com

有很多用户发现,ZAI Poe 平台上询问谷歌 Gemini-Pro 大模型 “你是谁”?Gemini-Pro 直接就回答:“我是百度文心大模型”,而接着问它“你的创始人是谁”,他也回答是“李彦宏”。X6t28资讯网——每日最新资讯28at.com

X6t28资讯网——每日最新资讯28at.com

同时国内媒体“量子位”在 Gemini 官方的开发环境入口进行测试时,Gemini-Pro 也直接声称自己在中文数据的训练上使用了百度文心一言。X6t28资讯网——每日最新资讯28at.com

截至小编发稿,谷歌方面还没有针对这件事做出回应。X6t28资讯网——每日最新资讯28at.com

但可以看到,AI 领域数据版权侵权,其实一直是行业的共性问题,也是大模型发展早期很难避免的现象。X6t28资讯网——每日最新资讯28at.com

比如小编还注意到,今年三月,谷歌就已经被曝出旗下 Bard 聊天机器人通过 ShareGPT 网站捕获用户与 ChatGPT 的对话数据来训练模型。X6t28资讯网——每日最新资讯28at.com

X6t28资讯网——每日最新资讯28at.com

除了谷歌,同为科技巨头的 Meta 最近也陷入大模型训练的数据版权风波,根据路透社的报道,由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 等著名作家于今年夏天联合发起诉讼,他们指控 Meta 未经许可使用他们的书籍作品训练人工智能语言模型 Llama。X6t28资讯网——每日最新资讯28at.com

Meta 于今年 2 月发布了其第一版 Llama 大型语言模型,并公布了用于训练的数据集列表,其中包括“ThePile”数据集的“Books3”部分。根据诉讼文件,该数据集的创建者曾表示,其中包含 196,640 本书籍,Meta 在明知使用其中数千本盗版书籍训练其 AI 模型存在法律风险的情况下,仍然这么做了。X6t28资讯网——每日最新资讯28at.com

X6t28资讯网——每日最新资讯28at.com

与之类似的,还有这次事件中的“受害者”OpenAI,今年 9 月,包括《权力的游戏》原著作者乔治・马丁在内的 17 位美国著名作家指控 OpenAI 未经许可使用他们受版权保护的作品,并将这些作品用于训练 ChatGPT 等大模型,还能生成与其作品相似的内容。X6t28资讯网——每日最新资讯28at.com

X6t28资讯网——每日最新资讯28at.com

还有今年 11 月,OpenAI 和微软又被一群非小说类作品作家对 OpenAI 和微软提起了诉讼,指控这两家公司在训练其大型语言模型时,未经允许使用了他们的书籍和学术期刊,而且没有给予任何补偿。X6t28资讯网——每日最新资讯28at.com

诸多案例都显示,在眼下这个 AI 大模型发展的早期,模型训练过程中的数据侵权问题可以说是行业的通病,是普遍现象,并且关于 AI 训练过程中的数据使用问题目前还存在较大的争议性,有待行业规范的进一步完善。X6t28资讯网——每日最新资讯28at.com

大模型的“无性繁殖”,究竟是咋回事?

我们知道,AI 大模型的基本原理是根据上文的内容输出下一个最有可能出现的 token(语素),那么它怎么保证输出的就是我们想要的呢?答案就是靠训练。X6t28资讯网——每日最新资讯28at.com

这里我们要先简单介绍一些大语言模型训练的主要阶段:预训练、有监督的精调和人类的反馈学习。X6t28资讯网——每日最新资讯28at.com

预训练阶段是不需要人工干预的,只要喂给 AI 足够多的数据,AI 就能通过训练获得强大的通用语言能力。X6t28资讯网——每日最新资讯28at.com

接下来在有监督的精调这一步,就需要解决让大模型输出我们想要的结果的问题。X6t28资讯网——每日最新资讯28at.com

比如当我们提出“水的沸点是多少度?”这个问题,AI 可能会觉得有很多类型的回复,比如“我也很想知道”,但对人类来说,最合理的回复自然是“100 度”。X6t28资讯网——每日最新资讯28at.com

所以就需要人类引导 AI 输出我们认为合理的标准答案,这个过程中我们会人为地喂给 AI 大量问题的标准答案,来微调它的模型参数,因此叫监督学习。类似的情况还有很多,比如我们不希望大模型输出不符合人类价值观的内容,所有这些,都需要对模型进行精调,换句话说,就是要对我们想要的数据进行标注。X6t28资讯网——每日最新资讯28at.com

可想而知,数据标注这件事,是个非常海量且庞大的工程,需要投入非常多的人力和时间。在商业竞争争分夺秒的环境下,对后来进入大模型领域的企业来说,独自且重复地去完成这些事,显然不符合发展的需求。因此,很多大模型使用 GPT 生成标注数据其实已经是行业公开的秘密。X6t28资讯网——每日最新资讯28at.com

例如之前有些国内的 GPT 镜像站,完全免费,就是某些公司自己花钱调用 OpenAI 的接口,然后拿用户当劳力生成训练数据。X6t28资讯网——每日最新资讯28at.com

X6t28资讯网——每日最新资讯28at.com

例如比较知名的开源数据集 Alpaca,也是用 GPT4 生成的。这种用 GPT 的标注数据训练小模型的方法也叫做“蒸馏”。X6t28资讯网——每日最新资讯28at.com

ChatGPT 爆火之后,不少公司能够这么快地跟进并推出自己的 AI 大模型,其实主要就是两个路径。X6t28资讯网——每日最新资讯28at.com

其一是使用 Meta 的开源大型语言模型 Llama 来训练。X6t28资讯网——每日最新资讯28at.com

其二就是 ChatGPT 里面蒸馏一些数据,再结合开源数据集和自己爬的数据,训练自己的大模型。X6t28资讯网——每日最新资讯28at.com

因此,尽管 OpenAI 在其 API 服务条款中有给出“不可以用 Output 来开发与 OpenAI 竞争的模型”这样的条款,但其实这一政策一直以来都很有争议。X6t28资讯网——每日最新资讯28at.com

支持的人认为 OpenAI 为训练模型做了大量前期投入,借助他们的服务走捷径是不正确的。而反对的人则认为,OpenAI 的前期训练过程吃了 AI 训练早期外部环境无戒备的红利,且同样存在数据侵权的控诉,此后的模型很难获得同样量级和规模的训练数据,阻止其他企业调用其模型违背“Open”的精神。X6t28资讯网——每日最新资讯28at.com

在此背景下,我们再看字节跳动的回应:X6t28资讯网——每日最新资讯28at.com

今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后,这种做法已经停止。X6t28资讯网——每日最新资讯28at.com

早在今年 4 月,字节大模型团队已经提出了明确的内部要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用 GPT 时遵守服务条款。X6t28资讯网——每日最新资讯28at.com

9 月,公司内部又进行了一轮检查,采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样模型训练数据与 GPT 的相似度,避免数据标注人员私自使用 GPT。X6t28资讯网——每日最新资讯28at.com

未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。X6t28资讯网——每日最新资讯28at.com

对于字节跳动的回应,小编想提炼两个重点,其一,字节跳动只是在探索大模型初期时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中,而实验性项目并不违反服务条款。比如微软也曾利用 OpenAI 的合成数据做微调训练,训练出了一个 130 亿参数的模型 Orca,还达到了 chatGPT 3.5 的水平。这个和字节跳动一样,也是实验和研究的用途,并未将模型对外商用。X6t28资讯网——每日最新资讯28at.com

其二,就是字节跳动在回应中已经明确指出,他们已经在内部反复做出规范和限制,不能使用 GPT 生成数据训练模型,其实,这不仅是遵守服务条款,更是技术发展的必要,因为如果一直使用 Open AI 的模型输出,表面上是走捷径,但实际上相当于是将自己的大模型能力天花板给锁死了,无论模型本身、训练数据还是输出方式,都只是 GPT 的延续,这一点,字节跳动一定比谁都清楚。X6t28资讯网——每日最新资讯28at.com

AI 大模型训练中的核心版权问题亟待规范和完善

其实,任何新兴行业在发展初期都会存在各种各样的乱象和不合规问题,事物的发展总是一个过程,而标准和规范的介入,也往往是在行业发展规律完全呈现后,在一个合适的契机下发生的。X6t28资讯网——每日最新资讯28at.com

因此,这次字节跳动和 OpenAI、谷歌 Gemini 和文心一言相继发生的事件,小编认为,我们与其在争议中过多纠结于“对或错”,更值得关注的,应该是关于 AI 领域数据使用的行业规范是否到了进一步规范和完善的时候?X6t28资讯网——每日最新资讯28at.com

根据工业和信息化部赛迪研究院近日的数据,今年,我国生成式人工智能市场规模有望突破 10 万亿元。专家预测,2035 年生成式人工智能有望为全球贡献近 90 万亿元的经济价值,其中我国将突破 30 万亿元,占比超过四成。X6t28资讯网——每日最新资讯28at.com

一方面,生成式 AI 的发展势头可谓如火如荼,另一方面,大模型训练的问题处于生成式 AI 生命周期的开始,如果不能从源头上尽早规范,AIGC 大模型的研发就会始终处于侵权和不确定的状态。这对于行业发展显然是不利的。X6t28资讯网——每日最新资讯28at.com

同时应该注意到,传统的授权许可以及版权法在生成式 AI 训练的领域内会存在很多主体、条件、可行性等难以界定的问题,比如 AIGC 训练的数据量过于庞大众多、来源各异,如果使用事先授权许可的方式,很难将具体的作品从海量数据中进行分离提取,再加上版权界定、付费等一系列操作,几乎不可行。也就是说,AI 时代的数据侵权问题对于现有的版权法律和规范本身就是一项挑战,需要从头开始一点一点完善的地方很多,但又不能不完善,因此必须尽早尽快地推进规范化体系。X6t28资讯网——每日最新资讯28at.com

好消息是,这个问题正在得到行业的重视。比如今年 6 月,就有中文在线、同方知网、中国工人出版社等 26 家单位共同发布了国内首份有关 AIGC 训练数据版权的倡议书,就针对引导 AI 生成内容的合理使用、提升版权保护意识、优化内容授权渠道等方面提出了倡议。X6t28资讯网——每日最新资讯28at.com

同时,我们也希望这次字节跳动和 OpenAI 以及 Gemini 与文心一言的事件也能成为一个契机,推动生成式 AI 训练数据核心版权问题的规范化,从“倡议”迈向实际的“落地”。X6t28资讯网——每日最新资讯28at.com

只有这样,生成式 AI 才能更好的服务于人类,服务于千行百业。X6t28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3046-0.html大模型互相“薅羊毛”背后,行业基本操作,规范化势在必行

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Galaxy S24 系列旗舰手机将至:发布会曝光 1 月 18 日举行,主打 AI 功能

下一篇: 美国多所高校联合研发新型类脑晶体管,可模拟人类大脑思考、记忆

标签:
  • 热门焦点
  • 字节、腾讯、网易鏖战元宇宙背后,大厂究竟在争夺什么?

    正当互联网商业踌躇不前,互联网大厂为了在存量中的增长挤破头皮之时,元宇宙的概念被资本点燃。先是Facebook更名Meta正式进军元宇宙,然后字节跳动收购了一家VR硬
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 多地释放积极信号,元宇宙正成为地方争先竞逐的主战场?

    2月21日,2022中国·金鱼嘴元宇宙生态赋能大会在南京建邺区金鱼嘴基金街区举办,南京建邺区金鱼嘴基金街区宣布计划出资1亿元,支持元宇宙行业发展。同时,会上发布了
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • NFT世界的艺术家名单

    我们汇编了以下艺术家的名单,它包括每个艺术家的简短概述。当然,这份名单肯定不全面,还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
  • 元宇宙专题二:GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+DEFI(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top