当前位置:首页 > 科技  > 知识百科

谷歌夺回AI画语权,网友:DALL·E 2诞生一个月就过时了?

来源: 责编: 时间:2023-08-07 16:30:19 322观看
导读 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。92o28资讯网——每日最新资讯28at.com

在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。92o28资讯网——每日最新资讯28at.com

这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出名为Imagen的选手来打擂台。92o28资讯网——每日最新资讯28at.com

 92o28资讯网——每日最新资讯28at.com

直接上图对比,左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”,右边则是DALL·E 2选手的同题创作。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

你觉得哪一位选手的作品更符合题意?92o28资讯网——每日最新资讯28at.com

而让网友们直呼“DALL·E 2这就过时了?”的,还不只是这种正面PK的刺激。92o28资讯网——每日最新资讯28at.com

看到这么一张照片,如果不说是AI生成的,是不是要先感叹一句两脚兽的摆拍技术越来越高超了?92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

输入“折纸作品:一只狐狸和一只独角兽在飘雪的森林里”,Imagen创作出的画面则是酱婶的:92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

还可以试试把文字写得长一点。92o28资讯网——每日最新资讯28at.com

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画》…(啊先让我喘口气)92o28资讯网——每日最新资讯28at.com

Imagen也轻松拿下,要素齐全:92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

看到这,机器学习圈的网友反应是这样的:92o28资讯网——每日最新资讯28at.com

不是吧,这才一个月就又更新换代了?92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

求求别再震惊我了。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

这事儿热度一起,很快就破了圈。92o28资讯网——每日最新资讯28at.com

吃瓜群众们立刻就想到一块去了。92o28资讯网——每日最新资讯28at.com

以后可能没图库网站什么事儿了。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

那么这个来自谷歌的新AI,又掌握了什么独家秘技?92o28资讯网——每日最新资讯28at.com

具体详情,我们一起接着往下看。92o28资讯网——每日最新资讯28at.com

增强「理解」比优化「生成」更重要92o28资讯网——每日最新资讯28at.com

文本到图像生成我们之前介绍过不少,基本都是一个套路:92o28资讯网——每日最新资讯28at.com

CLIP负责从文本特征映射到图像特征,然后指导一个GAN或扩散模型生成图像。92o28资讯网——每日最新资讯28at.com

但谷歌Imagen这次有个颠覆性的改变——92o28资讯网——每日最新资讯28at.com

使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。92o28资讯网——每日最新资讯28at.com

语言模型部分使用的是谷歌自家的T5-XXL,训练好后冻结住文本编码器。92o28资讯网——每日最新资讯28at.com

图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

这样做最大的好处,是纯文本训练数据要比高质量图文对数据容易获取的多。92o28资讯网——每日最新资讯28at.com

T5-XXL的C4训练集包含800GB的纯文本语料,在文本理解能力上会比用有限图文对训练的CLIP要强。92o28资讯网——每日最新资讯28at.com

这一点也有着实验数据做支撑,人类评估上,T5-XXL在保真度和语义对齐方面表现都比CLIP要好。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

在实验中谷歌还发现,扩大语言模型的规模对最后效果影响更大,超过扩大图像生成模型的影响。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

看到这有网友指出,谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%,如果用上PaLM,又会是啥样?92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

除了语言模型部分的发现,谷歌通过Imagen的研究对扩算模型作出不少优化。92o28资讯网——每日最新资讯28at.com

首先,增加无分类器引导(classifier-free guidance)的权重可以改善图文对齐,但会损害图像保真度。92o28资讯网——每日最新资讯28at.com

解决的办法是每一步采样时使用动态阈值,能够防止过饱和。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

第二,使用高引导权重的同时在低分辨率图像上增加噪声,可以改善扩散模型多样性不足的问题。92o28资讯网——每日最新资讯28at.com

第三,对扩散模型的经典结构U-Net做了改进,新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。92o28资讯网——每日最新资讯28at.com

对语言理解和图像生成都做出改进之后,Imagen模型作为一个整体在评估中也取得了很好的成绩。92o28资讯网——每日最新资讯28at.com

比如在COCO基准测试上达到新SOTA,却根本没用COCO数据集训练。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

在COCO测试的人类评估部分也发现了Imagen的一个缺点,不擅长生成人类图像。92o28资讯网——每日最新资讯28at.com

具体表现是,无人类图像在写实度上获得更高的人类偏好度。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

同时,谷歌推出了比COCO更有挑战性的测试基准DrawBench,包含各种刁钻的提示词。92o28资讯网——每日最新资讯28at.com

实验发现,DALL·E 2难以准确理解同时出现两个颜色要求的情况,而Imagen就没问题。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

反常识情况,比如“马骑着宇航员”两者表现都不佳,只能画出“宇航员骑着马”。92o28资讯网——每日最新资讯28at.com

但是Imagen对“一只熊猫在做咖啡拉花”理解更准确,只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

△大概“马骑着宇航员”有点反常识(狗头)92o28资讯网——每日最新资讯28at.com

对于要求图像中出现文字的,也是Imagen做得更好。92o28资讯网——每日最新资讯28at.com

除了最基本的把文字写对以外,还可以正确给文字加上烟花效果。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

AI画画越来越出圈92o28资讯网——每日最新资讯28at.com

说起来,AI作画这件事,最早便源起于谷歌。92o28资讯网——每日最新资讯28at.com

2015年,谷歌推出DeepDream,开创了AI根据文本生成图像的先河。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

△DeepDream作品92o28资讯网——每日最新资讯28at.com

但要说相关技术真正开“卷”、出圈,标志性事件还得数2021年OpenAI的DALL·E横空出世。92o28资讯网——每日最新资讯28at.com

当时,吴恩达、Keras之父等一众大佬都纷纷转发、点赞,DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。92o28资讯网——每日最新资讯28at.com

随后,语言理解模型和图像生成模型多年来的技术进展,便在“AI作画”这件事上集中爆发,一系列CLIP+GAN、CLIP+扩散模型的研究和应用,频频在网络上掀起热潮。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

从此一发不可收拾,技术更新迭代越来越快。92o28资讯网——每日最新资讯28at.com

DALL·E 2刚发布的时候就有网友发起一个投票,问多长时间会出现新的SOTA。92o28资讯网——每日最新资讯28at.com

当时大多数人选了几个月或1年以上。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

但现在,Imagen的出现只用了6周。92o28资讯网——每日最新资讯28at.com

随着AI画画效果越来越强大,受众范围也不断扩大,突破技术圈进入大众视野。92o28资讯网——每日最新资讯28at.com

前一阵,就有AI画画应用登上苹果App Store图形与设计排行榜榜首。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

现在最新的潮流,是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测,刷爆社交网络。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

如此出圈,也给OpenAI和谷歌这样的大公司带来很大压力。92o28资讯网——每日最新资讯28at.com

出于AI伦理、公平性等方面考虑,DALL·E 2和Imagen都没有直接开源或开放API。92o28资讯网——每日最新资讯28at.com

各自也都在论文里有大篇幅涉及风险、社会影响力的内容。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

OpenAI选择了内测模式,而谷歌还在做进一步研究和规范,等到确保AI不被滥用之后再择机公开。92o28资讯网——每日最新资讯28at.com

现在想体验Imagen的话,有一个在线Demo演示。92o28资讯网——每日最新资讯28at.com

可以从给定的几个提示词中自由组合出不同场景。92o28资讯网——每日最新资讯28at.com

92o28资讯网——每日最新资讯28at.com

快来试试吧~92o28资讯网——每日最新资讯28at.com

Demo地址:92o28资讯网——每日最新资讯28at.com
https://gweb-research-imagen.appspot.com92o28资讯网——每日最新资讯28at.com

论文地址:92o28资讯网——每日最新资讯28at.com
https://gweb-research-imagen.appspot.com/paper.pdf92o28资讯网——每日最新资讯28at.com

 92o28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2346-0.html谷歌夺回AI画语权,网友:DALL·E 2诞生一个月就过时了?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 消息称博通与云计算公司VMware洽谈收购事宜 后者市值约400亿美元

下一篇: DeepMind开源了MuJoCo!Meta竟用来让「骷髅手」盘核桃

标签:
  • 热门焦点
  • 7月安卓手机性能榜:红魔8S Pro再夺榜首

    7月份的手机市场风平浪静,除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外,别的也想不到有什么新品了,这也正常,通常6月7月都是手机厂商修整的时间,进入8月份之
  • 印度登月最关键一步!月船三号今晚进入环月轨道

    8月5日消息,据印度官方消息,月船三号将于北京时间今晚21时30分左右开始近月制动进入环月轨道。这是该探测器能够成功的最关键步骤之一,如果成功将开始围
  • 让我们一起聊聊文件的操作

    文件【1】文件是什么?文件是保存数据的地方,是数据源的一种,比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据,它既可以保
  • 如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 从零到英雄:高并发与性能优化的神奇之旅

    作者 | 波哥审校 | 重楼作为公司的架构师或者程序员,你是否曾经为公司的系统在面对高并发和性能瓶颈时感到手足无措或者焦头烂额呢?笔者在出道那会为此是吃尽了苦头的,不过也得
  • Python异步IO编程的进程/线程通信实现

    这篇文章再讲3种方式,同时讲4中进程间通信的方式一、 Python 中线程间通信的实现方式共享变量共享变量是多个线程可以共同访问的变量。在Python中,可以使用threading模块中的L
  • 慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 利用职权私自解除被封帐号 Meta开除20多名员工

    11月18日消息,据外媒援引知情人士表示,过去一年时间内,Facebook母公司Meta解雇或处罚了20多名员工以及合同工,指控这些人通过内部系统以不当方式重置用户帐号,其
Top