当前位置:首页 > 元宇宙 > AI

清华北航博士生「强迫」Gemma-2 说中文!弱智吧、角色扮演、数学问题表现惊喜

来源: 责编: 时间:2024-07-09 18:14:05 61观看
导读 【新智元导读】谷歌的 Gemma 2 刚刚发布,清华和北航的两名博士生就已经成功推出了指令微调版本,显著增强了 Gemma 2 9B / 27B 模型的中文通用对话、角色扮演、数学、工具使用等能力。众所周知,很多国外 LLM 一直

【新智元导读】谷歌的 Gemma 2 刚刚发布,清华和北航的两名博士生就已经成功推出了指令微调版本,显著增强了 Gemma 2 9B / 27B 模型的中文通用对话、角色扮演、数学、工具使用等能力。XSi28资讯网——每日最新资讯28at.com

众所周知,很多国外 LLM 一直存在非英语歧视问题,英语和其他语言在 LLM 中存在的性能差距有时可以用悬殊来形容。XSi28资讯网——每日最新资讯28at.com

之前就有网友发现,GPT-4o 分词器语料库中,中文数据污染非常严重,赌博色情网站是一个也不少,严重影响了我们用中文和 AI 机器人好好聊天。XSi28资讯网——每日最新资讯28at.com

最近发布的 Gemma 2 模型虽然既开源又强悍,但比较遗憾的是,其中文水平相较英文水平还有一定的距离。XSi28资讯网——每日最新资讯28at.com

不过,我们可以用微调来解决,Fine-tune it!XSi28资讯网——每日最新资讯28at.com

7 月 1 日,Gemma 2 刚发布 4 天,清华大学的一名人工智能博士生王慎执就在 X 上隆重推出了一款微调模型 Gemma-2-9B-Chinese-Chat。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

Gemma-2-9B-Chinese-Chat 是第一个为中文和英文用户量身定制的 Gemma-2 模型,针对超过 100K 的偏好对进行了微调!XSi28资讯网——每日最新资讯28at.com

我们的模型在中文提示方面表现出色,并显示出更好的逻辑、编码、数学和写作技能。XSi28资讯网——每日最新资讯28at.com

关于项目的更多信息,可以在 Huggingface 上查阅。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

项目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-ChatXSi28资讯网——每日最新资讯28at.com

更让人惊喜的是,1 天之后,27B 的微调版本也上线了。根据 HuggingFace 主页信息,模型的下载量已经超过了 3.4 万。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

项目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-ChatXSi28资讯网——每日最新资讯28at.com

项目介绍显示,采用的微调算法是 ORPO,ORPO 将监督微调(SFT)和 RLHF 或 DPO 等偏好对齐方法合二为一,是一种非常聪明的算法。XSi28资讯网——每日最新资讯28at.com

与原来的 9B Gemma 2 模型相比,微调的 Gemma-2-9B-Chinese-Chat 模型大大减少了「中文问题英文回答」和「中英文混杂回答」的问题,在角色扮演、工具使用和数学方面的表现都有所提高。XSi28资讯网——每日最新资讯28at.com

就连应对「最佳中文训练数据」弱智吧的问题,都有非常出色的表现。XSi28资讯网——每日最新资讯28at.com

示例

微调模型贡献者给出了一些示例,包括角色扮演、函数调用、数学、弱智吧、安全、写作、编码等。XSi28资讯网——每日最新资讯28at.com

而且还给出了一个在线 demo,嘿嘿,这下有得玩了。XSi28资讯网——每日最新资讯28at.com

角色扮演

首先让 LLM 扮演周杰伦唱 rap:XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

再扮演鲁智深试试呢?给出的示例是下面这样似儿的 ——XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

但小编用在线 demo 亲自尝试了一下,发现这位鲁智深「粗鲁」不起来,目前还没有很好的连续性。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

数学

年龄问题、鸡兔同笼问题,Gemma-2-9B-Chinese-Chat 都轻松应对。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

弱智吧

弱智吧的各种文字游戏,是 NLP 程序员最讨厌的,但微调模型在处理弱智吧的一些言论时,似乎表现还不错。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

函数调用

用户输入:XSi28资讯网——每日最新资讯28at.com

Hereisalistoftoolsthatyouhaveavailabletoyou:```pythondefinternet_search(query:str):"""ReturnsalistofrelevantdocumentsnippetsforatextualqueryretrievedfromtheinternetArgs:query(str):Querytosearchtheinternetwith"""pass``````pythondefdirectly_answer():"""Callsastandard(un-augmented)AIchatbottogeneratearesponsegiventheconversationhistory"""pass```Write'Action:'followedbyalistofactionsinJSONthatyouwanttocall,e.g.Action:```json[{"tool_name":"toolname(oneof[internet_search,directly_answer])","parameters":"theinputtothetool"}]

微调模型输出:XSi28资讯网——每日最新资讯28at.com

[{"tool_name":"internet_search","parameters":{"query":"biggestpenguinintheworld"}}]安全

XSi28资讯网——每日最新资讯28at.com

写作

让模型「写一段关于人工智能的综述」,你将会得到 ——XSi28资讯网——每日最新资讯28at.com

人工智能(AI)是计算机科学的一个分支,它专注于创造能够执行复杂任务的智能机器。AI 的目的是创建能够学习、解决问题和理解自然语言的系统。人工智能的应用非常广泛,包括图像识别、语音助手、推荐系统、自动驾驶汽车和预测性维护等。XSi28资讯网——每日最新资讯28at.com

AI 技术可以分为几个不同的类别,包括机器学习、深度学习和自然语言处理。机器学习是人工智能的一个分支,它专注于创建能够从数据中学习和做出预测的算法。深度学习是机器学习的一个子集,它使用人工神经网络来模拟人类大脑的功能。XSi28资讯网——每日最新资讯28at.com

AI 在医疗保健、金融、运输和零售等多个行业都有广泛的应用。在医疗保健领域,AI 正在帮助医生诊断疾病、预测患者护理需求以及个性化治疗计划。在金融服务行业,AI 正在用于欺诈检测、风险管理和个性化投资建议。XSi28资讯网——每日最新资讯28at.com

AI 在提高效率、减少成本并推动创新方面有着巨大的潜力。然而,AI 也带来了挑战,包括就业的流失、隐私问题以及伦理考虑。随着 AI 技术的快速发展,各国政府和组织正在制定新的法律和法规来应对这些挑战。XSi28资讯网——每日最新资讯28at.com

总之,人工智能是当今世界最激动人心的创新之一。随着 AI 技术的不断进步,它有潜力彻底改变我们的工作方式、生活方式和社会结构。然而,AI 也提出了新的伦理和社会问题,这些问题需要我们仔细考虑。XSi28资讯网——每日最新资讯28at.com

编码

用户输入:XSi28资讯网——每日最新资讯28at.com

用 python 写一个函数实现快速排序算法,要求输入为一个列表,列表里的元素都是 float 类型,返回一个排好序后的列表。记住要给代码加中文注释。XSi28资讯网——每日最新资讯28at.com

微调模型输出:XSi28资讯网——每日最新资讯28at.com

defquick_sort(nums):#快速排序的递归函数#如果列表长度小于等于1,则直接返回,因为列表已经是排序好的iflen(nums)<=1:returnnums#选择基准值,这里选择列表的第一个元素pivot=nums[0]#分隔列表,将小于基准值的元素放在左侧,大于基准值的元素放在右侧left=[numfornuminnums[1:]ifnum<pivot]right=[numfornuminnums[1:]ifnum>=pivot]#递归地对左侧和右侧进行快速排序left=quick_sort(left)right=quick_sort(right)#将左侧、基准值、右侧合并成一个排序后的列表returnleft+[pivot]+right作者信息

Gemma-2-9B-Chinese-Chat 和 Gemma-2-27B-Chinese-Chat 微调模型的贡献者是王慎执和郑耀威。XSi28资讯网——每日最新资讯28at.com

王慎执同学是清华大学自动化系 LEAP 实验室的三年级博士生,导师是宋士吉教授和黄高副教授。XSi28资讯网——每日最新资讯28at.com

在此之前,他在北京航空航天大学沈元荣誉学院计算机科学与技术专业以优异成绩获得工学学士学位。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

王慎执XSi28资讯网——每日最新资讯28at.com

王同学是开源项目的积极倡导者,几个流行的微调 LLM 都是他发布的,如 Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat 和 Mistral-7B-v0.3-Chinese-Chat。XSi28资讯网——每日最新资讯28at.com

业余时间,他还会在知乎上写一些中文科技博客,目前有 10k + 粉丝。XSi28资讯网——每日最新资讯28at.com

郑耀威是王慎执在本科期间的同学,他们此前就曾多次合作。XSi28资讯网——每日最新资讯28at.com

XSi28资讯网——每日最新资讯28at.com

郑耀威XSi28资讯网——每日最新资讯28at.com

郑耀威目前仍在北航读博,他曾以第一作者在 CVPR、AAAI、WWW 等顶会发表多篇论文,并担任 AAAI、EMNLP、Neural Computation 等会议和期刊审稿人。XSi28资讯网——每日最新资讯28at.com

他也是大模型微调框架 LLaMA Factory 的发起人和主要开发者,GitHub 开源项目获得超过 2 万星标。XSi28资讯网——每日最新资讯28at.com

在这些优秀的贡献者的不断努力之下,开源模型之路会越走越宽广,模型的中文能力也会逐渐增强。XSi28资讯网——每日最新资讯28at.com

参考资料:XSi28资讯网——每日最新资讯28at.com

https://x.com/ShenzhiWang_THU/status/1807640624402923779XSi28资讯网——每日最新资讯28at.com

https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-ChatXSi28资讯网——每日最新资讯28at.com

https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-ChatXSi28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era)XSi28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-5050-0.html清华北航博士生「强迫」Gemma-2 说中文!弱智吧、角色扮演、数学问题表现惊喜

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 公司被指不重视安全,未披露和报告 2023 年入侵事件

下一篇: 快手可灵 AI 网页端上线:所有功能限时免费,单次视频生成时长增至 10 秒

标签:
  • 热门焦点
  • 内容行业大变天,爆款全靠AI?

    内容行业大变天,爆款全靠AI?

    出品 | 微果酱(wjam123456)作者 | 陈出木题图 | 文心一格 AI的发展之快出乎所有人的预料,似乎一夜之间便呼啸而来。无论是资本的风向标,抑或是生活工作的辅助、流量口,还是茶余饭
  • AI大模型“战火”烧到了教育领域

    AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • Web3 去中心化身份管理系统的历史、现状与展望

    Web3 去中心化身份管理系统的历史、现状与展望

    身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构,这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
  • 2022年中国元宇宙产业系列研究报告-基础设施篇(5)

    2022年中国元宇宙产业系列研究报告-基础设施篇(5)

    传感器是由敏感元件和转换元件构成,能够感受规定的检测量(物理量、化学量、生物量等),并按照一定规律将检测量转化成可用的输出信号的器件和装置,进而满足信息的
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • 独立故事片“Calladita”将使用 NFT 筹集资金

    独立故事片“Calladita”将使用 NFT 筹集资金

    导演 Miguel Faus 正在转向加密来资助他的处女作,由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”(导演 Miguel Faus)。图片:米格尔·福斯在过去的一年
  • 从4个方面解析2022年加密行业趋势

    从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • Steam 禁止NFT和加密货币原因曝光

    Steam 禁止NFT和加密货币原因曝光

    近日,Valve(V社)总裁Gabe Newell接受PC Gamer采访时解释了该平台禁止NFT和加密货币的原因。早在2021年10月18日,PC Gamer就报道Steam推出的新规:使用区块链或允许交
  • 虚拟人的3大纪律和6种品牌孵化模式

    虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。
Top