当前位置:首页 > 元宇宙 > AI

OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”

来源: 责编: 时间:2024-11-04 07:21:05 169观看
导读 10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。AI 领域中的一个开放性难题是如何训练模型

10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。Lim28资讯网——每日最新资讯28at.com

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。Lim28资讯网——每日最新资讯28at.com

Lim28资讯网——每日最新资讯28at.com

OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:Lim28资讯网——每日最新资讯28at.com

高正确性:问题的参考答案由两名独立的 AI 训练师验证,以确保评分的公正性。Lim28资讯网——每日最新资讯28at.com

多样性:SimpleQA 涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。Lim28资讯网——每日最新资讯28at.com

前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准相比,SimpleQA 更具挑战性,尤其针对如 GPT-4o 等前沿模型(例如,GPT-4o 的得分不足 40%)。Lim28资讯网——每日最新资讯28at.com

高效用户体验:SimpleQA 问题与答案简洁明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。Lim28资讯网——每日最新资讯28at.com

SimpleQA 将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。Lim28资讯网——每日最新资讯28at.com

OpenAI 表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展,使模型更加可信并富有可靠性。Lim28资讯网——每日最新资讯28at.com

附有关地址:Lim28资讯网——每日最新资讯28at.com

开源链接:https://github.com/openai/simple-evals/Lim28资讯网——每日最新资讯28at.com

论文:https://cdn.openai.com/papers/simpleqa.pdfLim28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9377-0.htmlOpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 扎克伯格押注 AI:Meta 正推动美国政府使用其 Llama 模型

下一篇: 全球首个开源 AI 标准发布,微软、谷歌、亚马逊、Meta、英特尔、三星等巨头制定

标签:
  • 热门焦点
  • 不同于传统数字经济,元宇宙赋予商业生态更多数字资产价值!

    作者:中科基大数据元宇宙是一个去中心化的开放平台,而为了维护这样的平台,需要建立一个公平的游戏规则,确保每个元宇宙的参与者通过这个规则都可以挣到钱,他们的利益都可以得到保
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • “虚拟人”角斗场,基于“硬实力”下的人性平衡法则?

    在打工人“反内卷”的当下,一众虚拟人却“内卷”了起来。从北京春晚虚拟人苏小妹与刘宇演绎歌舞《星河入梦》,央美毕业的虚拟人夏语冰登上央视节目《对话》,湖南
  • Layer1的新以太坊,更好的以太坊?

    以太坊作为区块链基础设施地位看起来已不可动摇,但也面临着费用高、效率低、偏离去中心化初衷等问题。平台上既得利益群体的形成和固化也逐渐让革新变得困难。
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 艺术创作者能否永久收取版税?

    NFTs正在改变我们理解互联网所有权的方式,社区管理的所有权有很多好处,但如果创作者想为他/她的创作获得永久的收益(版税),会发生什么?这不是一个容易解决的问题,版税
Top