当前位置:首页 > 科技  > 软件

这一次,钢铁侠的 Javis 要跑到设备上

来源: 责编: 时间:2024-06-21 08:34:27 235观看
导读 行至 2024, 云端大模型还未分出胜负,端侧模型早已硝烟四起。去年上半年,谷歌以可在移动设备上离线运行的 PaLM2 轻量级选手“壁虎”打响了端侧模型第一枪,到了年底,端侧模型时代的大幕就被缓缓拉起。法国创企 Mis

行至 2024, 云端大模型还未分出胜负,端侧模型早已硝烟四起。1O128资讯网——每日最新资讯28at.com

去年上半年,谷歌以可在移动设备上离线运行的 PaLM2 轻量级选手“壁虎”打响了端侧模型第一枪,到了年底,端侧模型时代的大幕就被缓缓拉起。1O128资讯网——每日最新资讯28at.com

法国创企 Mistral AI 率先发布 Mixtral 8x7B 模型,微软更是半年时间加速跑,从 27 亿参数的 Phi-2 到 SLM (小语言模型) Phi-3 系列,以“便宜得多,但响应能力接近比它大 10 倍的模型”强调高性价比。1O128资讯网——每日最新资讯28at.com

Google 携带 Gemma 模型向 Meta 的 Llama-2 大模型发起挑战,苹果也以“小模型”家族宣告离“让人工智能在苹果设备上本地运行”目标更近一步。1O128资讯网——每日最新资讯28at.com

而大洋彼岸的另一侧,在中国上海张江,也有这么一家通用大模型厂商,驶上了端侧模型的快车道,以类脑分区激活的工作机制、改进反向传播算法逐步实现“同步学习”,并在走通多模态上率先“卷”入。1O128资讯网——每日最新资讯28at.com

这,就是岩芯数智 CEO 刘凡平带队的 RockAI。1O128资讯网——每日最新资讯28at.com

Yan 1.2 跑通树莓派,“为设备而生”水到渠成1O128资讯网——每日最新资讯28at.com

事实上,今年 1 月,RockAI 发布的国内首个非 Attention 机制的通用自然语言大模型 ——Yan1.0 模型,就标志走向设备端的第一步。1O128资讯网——每日最新资讯28at.com

当时这一模型 100% 支持私有化部署应用,不经裁剪和压缩即可在主流消费级 CPU 等端侧设备上无损运行,在研究人员现场对 Yan 1.0 模型在 Mac 笔记本上的运行推理展示中,刘凡平也画出了接下来将在更加便携的设备或终端中进行无损部署的蓝图。1O128资讯网——每日最新资讯28at.com

而现在,随着 Yan 1.0 迈入 1.2 阶段,“在树莓派上率先跑通”把其在更低端设备的无损适配从预期变为了现实。1O128资讯网——每日最新资讯28at.com

1O128资讯网——每日最新资讯28at.com

图为 Yan 架构模型在树莓派上运行1O128资讯网——每日最新资讯28at.com

树莓派系列作为全球最为知名的袖珍型小巧却又性能强大的微型电脑,可广泛应用于物联网、工业自动化、智慧农业、新能源、智能家居等场景及设备,譬如门禁、机器人等终端,但它虽具备所有 PC 的基本功能,却是算力最低的设备代表。1O128资讯网——每日最新资讯28at.com

同时,树莓派大部分情况没有联网,这就意味着,跑通树莓派,等同于打开了低算力设备端的大门以及不联网的多场景应用。1O128资讯网——每日最新资讯28at.com

不过,机遇之大,挑战亦不小,不少大模型玩家都屈身于“有损压缩”。1O128资讯网——每日最新资讯28at.com

就连 4 月网友发现能在树莓派 5 以每秒 1.89 个 token 的速度运行,支持 8K 上下文窗口的 Llama3 8B , 也是采用把模型量化裁剪后压到极致的方式。1O128资讯网——每日最新资讯28at.com

而这就如同把平铺的纸揉小后放入,会导致纸张有褶皱般,让多模态下的性能损失无法恢复到原有状态去进行模型训练,同时也伴随着卡住不动、死机等不确定情况发生。1O128资讯网——每日最新资讯28at.com

此时,原生无损放入的重要性就凸显,而这正是 RockAI 基于底层技术做“破坏式”创新的优势所在。1O128资讯网——每日最新资讯28at.com

不同于传统 Transformer 模型自带算力消耗和幻觉等问题,Yan 架构为低算力设备运行而生,1.0 版就以百亿级参数媲美千亿参数大模型的性能效果,以记忆能力提升 3 倍、训练效率提升 7 倍的同时,实现推理吞吐量的 5 倍提升,实现云端运行的高性价比。1O128资讯网——每日最新资讯28at.com

1O128资讯网——每日最新资讯28at.com

1O128资讯网——每日最新资讯28at.com

图为 Yan 架构模型的关键模块 MCSD Block, 引自 Yan 架构论文:《MCSD: An Efficient Language Model with Diverse Fusion》1O128资讯网——每日最新资讯28at.com

对比数据表明,在单张 4090 24G 显卡上,当模型输出 token 的长度超出 2600 时,Transformer 的模型会出现显存不足,而 Yan 模型的显存使用始终稳定在 14G 左右,理论上能够实现无限长度的推理。1O128资讯网——每日最新资讯28at.com

再到让通用大模型去兼容更多的设备,实现更多个性化的设备端应用,则让 RockAI 在同模型架构下,可水到渠成地“为设备而生”。1O128资讯网——每日最新资讯28at.com

那么,对于树莓派这一门槛,RockAI 是如何破局的呢? 答案就在技术创新上。1O128资讯网——每日最新资讯28at.com

自创业之初,刘凡平就一直在思考“大模型动辄上万亿的 token 训练是否真的必要”,以人类大脑几十亿的训练量来看,他判断,数据、算力并不是最终的瓶颈,架构、算法才是重要的影响因素。1O128资讯网——每日最新资讯28at.com

故而在跑通树莓派的路上,基于全新自研的 Yan 架构,RockAI 在实验室对人工神经网络最底层的反向传播算法进行挑战,寻找反向传播的更优解尝试。1O128资讯网——每日最新资讯28at.com

而在算法侧,RockAI 更是在上半年率先有所突破,在人脑神经元分区激活的启发下,实现了类脑分区激活的工作机制。1O128资讯网——每日最新资讯28at.com

如同人开车跟写字会分别激活脑部的视觉区域和阅读区域一般,Yan 1.2 也不再需要全量的参数去训练,会根据学习的类型和知识的范围来决定只调整哪部分神经元,而这种分区的激活方式不仅可以减少数据训练量,同时也能有效发挥多模态的潜力,该算法被 RockAI 称作基于仿生神经元驱动的选择算法。1O128资讯网——每日最新资讯28at.com

数据表明,人脑的神经元大概是 800-1000 亿,功耗大概是 20-30 瓦,而一台 GPU 算力服务器功耗能到 2000 瓦,这就意味着主流大模型的全参数激活,本身就是不必要的大功耗浪费。1O128资讯网——每日最新资讯28at.com

在今年 3 月类脑分区激活的工作机制实现后,甚至 10 亿级参数的 Yan 模型通过改进在 0 压缩和 0 裁剪的情况下在一台 7 年前生产的 Mac 笔记本的 CPU 上跑通。1O128资讯网——每日最新资讯28at.com

2 个月后,“原生无损”跑通树莓派的故事便在 RockAI 如期而至。1O128资讯网——每日最新资讯28at.com

剑指“同步学习”,Yan 模型也能千人千面1O128资讯网——每日最新资讯28at.com

跑通树莓派,是 RockAI 走通低端设备上的里程碑,同时也预示着距离其“同步学习”概念落地更近了一步。1O128资讯网——每日最新资讯28at.com

众所周知,Transformer 大模型带来一种开发范式 —— 先通过预训练让大模型具备一定的基本能力,然后在下游任务中通过微调对齐,激发模型举一反三的能力。1O128资讯网——每日最新资讯28at.com

但这样的云端大模型虽好,在实践中却有着不能实时改进和学习的问题。1O128资讯网——每日最新资讯28at.com

Transformer 架构在大参数大数据的情况下,想在预训练完成之后再大规模的反向更新代价极其大的,尤其对算力要求非常高,更别提返到原厂去重新训练的时间和经济成本。1O128资讯网——每日最新资讯28at.com

也就导致在严谨内容场景下,一旦有内容和评价发生较大转变,Transformer 大模型学徒们往往要 1-2 个月去把数据清掉后,再重新训练后进行提交,客户一般很难接受。1O128资讯网——每日最新资讯28at.com

这些 toB 实践中的真实反馈,让刘凡平意识到客户对模型立即更新的需求,这要求模型不仅具备实时学习的能力,同时学习之后不能胡说八道。1O128资讯网——每日最新资讯28at.com

怀揣着“机器能否具有像人一样实时学习的能力”的思考,以及跟着客户真实需求走的大方向指引,同步学习这一解法,在 RockAI 逐步清晰。1O128资讯网——每日最新资讯28at.com

相比较泛机器学习领域的实时学习和在线学习、增量学习等概念,刘凡平认为 RockAI 首创的同步学习概念差异性在于,做知识更新和学习时在模型层面训练和推理同步进行,以期实时、有效且持续性地提升大模型的智能智力,应对各类个性化场景中出现的问题。1O128资讯网——每日最新资讯28at.com

而要理解快速更新的问题,涉及到现在神经网络的底层原理,本质上神经网络的训练是前向传播和反向传播的过程。1O128资讯网——每日最新资讯28at.com

就如同你正在玩一个猜数字游戏,你需要猜出一个 1 到 100 之间的随机数。在开始时,你没有关于这个数字的任何信息,所以你的第一次猜测可能是基于直觉或是随便选了一个数,比如 50。这就好比是神经网络中的前向传播 —— 在没有任何历史数据的情况下,根据当前的参数 (权重和偏置) 进行一次预测。1O128资讯网——每日最新资讯28at.com

当你猜测了 50 后,游戏会告诉你这个数字“太大”或“太小”。如果你听到“太大”,那么下一次猜测时,你会选择小于 50 的一个数;如果得到反馈是“太小”,你则会选择一个大于 50 的数。1O128资讯网——每日最新资讯28at.com

这就类似于反向传播对参数的调节过程。只要模型调整足够快、代价足够小,就能更快达到预期,实现从感知到认知再到决策这一循环的加速,对现有知识体系进行快速更新。1O128资讯网——每日最新资讯28at.com

为此,RockAI 给出的同步学习解法落在,不断尝试寻找反向传播的更优解,试图能更低代价更新神经网络,同时以模型分区激活降低功耗和实现部分更新,从而使得大模型可以给到客户后持续成长,像人类学习一样建立自己独有的知识体系。1O128资讯网——每日最新资讯28at.com

在刘凡平的设想中,通过同步学习,Yan 模型部署到各类设备后,会更像贴身伴侣,伴随着个人的习惯去进行学习和服务,越来越具备个性化的价值,让手机、电脑,甚至电视、音响等智能家居都能个性化适配到每个人,最终形成可交互的多样性智能生态。1O128资讯网——每日最新资讯28at.com

如此说来,那就是每个人在设备上都会找到自己的 Javis (钢铁侠的 AI 管家)。1O128资讯网——每日最新资讯28at.com

奔赴 2.0,RockAI 蓄力 C 端商业化1O128资讯网——每日最新资讯28at.com

把时间线拉长到近半年来看,RockAI 的迭代呈现加速度。1O128资讯网——每日最新资讯28at.com

3 月,类脑分区激活的工作机制实现;5 月初,“无损”跑通树莓派;5 月底,全模态部分视觉支持走通。1O128资讯网——每日最新资讯28at.com

虽然同步学习仍在实验室最后验证阶段,仍需要大规模测试,但刘凡平表示,随着把多模态的视觉、触觉和听觉能力补齐,Yan 2.0 也最快于今年年底面世。1O128资讯网——每日最新资讯28at.com

“届时,全模态支持 + 实时人机交互 + 同步学习的落地,Yan 2.0 的出现或将补齐具身智能的大脑短板。”1O128资讯网——每日最新资讯28at.com

技术端的加速,背后是团队“吃苦”换来的。刘凡平坦言,干的都是其他厂商“不愿干”,也可能“干不了”的活。1O128资讯网——每日最新资讯28at.com

算法端,RockAI 兵分两路,一部分去做基础算法和模型架构的创新升级,在 1.2 基础上朝着 2.0 进发;另一部分则广泛收集客户反馈,通过不断调整去贴近商业化落地。1O128资讯网——每日最新资讯28at.com

刘凡平认为只有最大程度获取来自于外界和客户的感知和需求,才能避免闭门造车与用户的距离太远,逐渐形成明确和清晰的商业化路线。1O128资讯网——每日最新资讯28at.com

而算法创新外,要实现 Yan 2.0 落地即商业化的未来,工程团队也在做大量的标准化的“周边”补齐,包括基础设施、系统、交付等方方面面,解决方案团队更是从率先商业化的 B 端客户“扫”到设备厂商,边进化边验证降本增效和市场认可度。1O128资讯网——每日最新资讯28at.com

刘凡平也带着团队奔走于上海、深圳、杭州等地,与中科曙光、华为昇腾、壁仞科技、广电五舟等众多硬件和芯片厂商建立了沟通,在端侧模型的适配工作上,刘凡平能感受到设备端“积极提供测试机”的热情,特别是树莓派跑通后给到了话语权,机器人厂商们都开始竞相走访。1O128资讯网——每日最新资讯28at.com

而这些前置工作,都为接下来 Yan2.0 落地合适场景可能试产 1-2 万台的标品规模化做足“迅速跟上”的周期准备。1O128资讯网——每日最新资讯28at.com

就端侧模型来说,刘凡平认为对于设备厂商而言,是类似 Windows 操作系统般的存在。现阶段可能是系统在适配各种硬件,到了设备厂商深入了解模型的人工智能能力后,就需要设备反向兼容操作系统,而两者合力,是社会分工生产力变化的一个必然趋势。1O128资讯网——每日最新资讯28at.com

“站在 toC 智能化甚至具身智能的大话题下,端侧模型需要结合实际载体 (即硬件) 去做适配研究和迭代改进,才能逐步形成标准化的类 Windows 操作系统,既可以装在个人电脑也可以适配穿戴设备,而不同的身体就会需要不同的脑子,我们所构想的通用人工智能,是在诸如智能手机、机器人以及其他多样化设备上展现出的非凡适应力与高度个性化的交互能力。”1O128资讯网——每日最新资讯28at.com

作为一家从 B 端商业化验证过“模”力的企业,刘凡平坦言,当前商业化重心部署到 C 端设备,是低算力的基因使然,亦是 AI 与本地设备结合的个性化趋势必然,也是跳出 B 端商业化内卷,抢占 C 端蓝海市场的先机。1O128资讯网——每日最新资讯28at.com

在 RockAI 的办公室内,摆满了众多的各类硬件设备,刘凡平笑道,还有大量的适配和兼容工作需要完成,而一旁来自深圳各个厂商的机器人也在等待适配他们的“大脑”。1O128资讯网——每日最新资讯28at.com

从 Yan 1.0 到 Yan 1.2,RockAI 花了 4 个月时间,再到 2.0, 想必也不会太久。1O128资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-95285-0.html这一次,钢铁侠的 Javis 要跑到设备上

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 2024 BrandZ 中国全球化品牌榜单发布:字节、小米前二,华为、OPPO 前十

下一篇: AI 终端赛道下的大风口:2028 年 AI PC 出货量激增 60 倍

标签:
  • 热门焦点
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • 得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的“在线鉴别”,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • iQOO Neo8系列今日官宣:首发天玑9200+ 全球安卓最强芯!

    在昨日举行的的联发科新一代旗舰芯片天玑9200+的发布会上,iQOO官方也正式宣布,全新的iQOO Neo8系列新品将全球首发搭载这款当前性能最强大的移动平台
  • iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    去年10月,iQOO推出了iQOO Neo7系列机型,不仅搭载了天玑9000+,而且是同价位唯一一款天玑9000+直屏旗舰,一经上市便受到了用户的广泛关注。在时隔半年后,
  • DRAM存储器10月价格下跌,NAND闪存本月价格与上月持平

    10月30日,据韩国媒体消息,自今年年初以来一直在上涨的 DRAM 存储器的交易价格仅在本月就下跌了近 10%,此次是全年首次降价,而NAND 闪存本月价格与上月持平。市
  • 微软发布Windows 11新版 引入全新任务栏状态

    近日,微软发布了Windows 11新版,而Build 22563更新主要引入了几周前曝光的平板模式任务栏等,系统更流畅了。更新中,Windows 11加入了专门针对平板优化的任务栏
  • 亲历马斯克血洗Twitter,硅谷的苦日子在后头

    文/刘哲铭  编辑/李薇  马斯克再次挥下裁员大刀。  美国时间11月14日,Twitter约4400名外包员工遭解雇,此次被解雇的员工的主要工作为内容审核等。此前,T
Top