当前位置:首页 > 科技  > 网络

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!

来源: 责编: 时间:2024-07-15 17:10:22 714观看
导读 大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind。“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!具体是这么个事儿:谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的

大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

具体是这么个事儿:YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

两篇论文探讨的都是一种规范模型文本生成结构的方法。YDl28资讯网——每日最新资讯28at.com

抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R?emi Louf(雷米)还是坚称谷歌抄袭,并认为:YDl28资讯网——每日最新资讯28at.com

谷歌对两者差异性的表述“简直荒谬”。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

唯一区别是换了概念?YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

赶紧瞅一眼论文对比……YDl28资讯网——每日最新资讯28at.com

两篇论文的比较YDl28资讯网——每日最新资讯28at.com

先浅看一眼两篇论文的摘要对比。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。YDl28资讯网——每日最新资讯28at.com

该方法只需要访问每个token的解码逻辑值,计算与语言模型的大小无关,高效且易用于几乎所有语言模型架构。YDl28资讯网——每日最新资讯28at.com

而“原告”的说法大致是:YDl28资讯网——每日最新资讯28at.com

提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历。YDl28资讯网——每日最新资讯28at.com

同样“不依赖于具体模型”。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

方向上确实大差不差,我们还是接着来看看更多详细内容。YDl28资讯网——每日最新资讯28at.com

我们用谷歌Gemini 1.5 Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。YDl28资讯网——每日最新资讯28at.com

对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。YDl28资讯网——每日最新资讯28at.com

通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。YDl28资讯网——每日最新资讯28at.com

此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。YDl28资讯网——每日最新资讯28at.com

而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换。YDl28资讯网——每日最新资讯28at.com

“原告”的具体方法是:YDl28资讯网——每日最新资讯28at.com

利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。YDl28资讯网——每日最新资讯28at.com

通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

Gemini列出了两篇论文的共同点。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

前面也说到了,谷歌在“Related work”中将原告论文列为“相关”的一项工作:YDl28资讯网——每日最新资讯28at.com

相关的研究是Outlines(Willard&Louf, 2023),该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。YDl28资讯网——每日最新资讯28at.com

谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。YDl28资讯网——每日最新资讯28at.com

另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。YDl28资讯网——每日最新资讯28at.com

一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。YDl28资讯网——每日最新资讯28at.com

另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。YDl28资讯网——每日最新资讯28at.com

与Outlines类似,该方法依赖于定制算法。YDl28资讯网——每日最新资讯28at.com

但吃瓜群众们显然不是很买账:YDl28资讯网——每日最新资讯28at.com

CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

网友:这事儿不罕见…YDl28资讯网——每日最新资讯28at.com

这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。YDl28资讯网——每日最新资讯28at.com

顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。YDl28资讯网——每日最新资讯28at.com

哦对了,Normal Computing的创始团队有一部分就来自Google Brain……YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。YDl28资讯网——每日最新资讯28at.com

说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。YDl28资讯网——每日最新资讯28at.com

一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:YDl28资讯网——每日最新资讯28at.com

去年10月我们完成了一项工作,近有篇已被接收的论文采用了相同的思路和概念,但甚至没有引用我们的论文。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

不过,也有网友表达了不同的意见:YDl28资讯网——每日最新资讯28at.com

如果说发个博客文章或未经评估的预印本论文就算占坑了,那人人都会占坑,不是吗?YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

对此,雷米怒怼:YDl28资讯网——每日最新资讯28at.com

好家伙,发布预印本论文并开源代码 = 占坑;写篇数学论文,甚至不需要任何伪代码 = 好工作???YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

布兰登老哥也表示yue了:YDl28资讯网——每日最新资讯28at.com

开源代码并撰写相关论文是“占坑”,复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。YDl28资讯网——每日最新资讯28at.com

谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!YDl28资讯网——每日最新资讯28at.com

瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~YDl28资讯网——每日最新资讯28at.com

两篇论文戳这里:谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1原告论文:https://arxiv.org/abs/2307.09702YDl28资讯网——每日最新资讯28at.com

参考链接:YDl28资讯网——每日最新资讯28at.com

[1]https://x.com/remilouf/status/1812164616362832287?s=46YDl28资讯网——每日最新资讯28at.com

2]https://x.com/karan4d/status/1812172329268699467?s=46YDl28资讯网——每日最新资讯28at.com

[3]https://x.com/brandontwillard/status/1812163165767053772?s=46YDl28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-100922-0.html谷歌DeepMind被曝抄袭 原告:把我们的报告洗了一遍!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 马斯克自曝猛料!过去8个月被两次暗杀:曾称会努力活下去

下一篇: 董宇辉对话余承东!与辉同行今晚华为松山湖专场直播

标签:
  • 热门焦点
  • 三言两语说透设计模式的艺术-单例模式

    写在前面单例模式是一种常用的软件设计模式,它所创建的对象只有一个实例,且该实例易于被外界访问。单例对象由于只有一个实例,所以它可以方便地被系统中的其他对象共享,从而减少
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 三星电子Q2营收60万亿韩元 存储业务营收同比仍下滑超过50%

    7月27日消息,据外媒报道,从三星电子所发布的财报来看,他们主要利润来源的存储芯片业务在今年二季度仍不乐观,营收同比仍在大幅下滑,所在的设备解决方案
  • 自研Exynos回归!三星Galaxy S24系列将提供Exynos和骁龙双版本

    年初,全新的三星Galaxy S23系列发布,包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三个版本,全系搭载超频版骁龙8 Gen 2,虽同样采用台积电4nm工艺制
  • 引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

    7月25日,OPPO正式发布K系列新品—— OPPO K11 。此次 K11 在中端手机市场长期被忽视的影像板块发力,突破性地搭载索尼 IMX890 旗舰大底主摄,支持 OIS
  • SN570 NVMe SSD固态硬盘 价格与性能兼具

    SN570 NVMe SSD固态硬盘是西部数据发布的最新一代WD Blue系列的固态硬盘,不仅闪存技术更为精进,性能也得到了进一步的跃升。WD Blue SN570 NVMe SSD的包装外
Top