当前位置:首页 > 元宇宙 > AI

SciArena平台亮相:科研人员亲测,大语言模型科学文献任务表现大比拼

来源: 责编: 时间:2025-07-04 12:16:43 205观看
导读一个创新性的开放平台SciArena近期正式启动,其核心目的在于评估大型语言模型(LLM)在科学文献处理任务中的实际效能,这一评估依据的是研究人员的真实偏好。平台运行初期,已明显观察到不同模型间存在效能差异。SciArena由耶

一个创新性的开放平台SciArena近期正式启动,其核心目的在于评估大型语言模型(LLM)在科学文献处理任务中的实际效能,这一评估依据的是研究人员的真实偏好。平台运行初期,已明显观察到不同模型间存在效能差异。tcv28资讯网——每日最新资讯28at.com

SciArena由耶鲁大学、纽约大学以及艾伦人工智能研究所的专家携手打造,它专注于系统性地评测专有和开源LLM在科学文献处理方面的表现,这一领域此前缺乏系统的评估工具。tcv28资讯网——每日最新资讯28at.com

该平台采用了不同于传统基准测试的方法,效仿Chatbot Arena的模式,引入了真实研究人员的直接评估。用户在提交科学问题后,会收到两个由模型生成并附有相关引用的详细答案,然后用户根据判断选择更优的答案。这些引用的文献均通过专门的ScholarQA检索流程获取。tcv28资讯网——每日最新资讯28at.com

SciArena已积累了来自自然科学、工程学、生命科学和社会科学四大领域102位研究人员的超过13,000份评估数据,涵盖概念阐述、文献检索等多个维度。tcv28资讯网——每日最新资讯28at.com

在当前的排名中,OpenAI的o3模型独占鳌头,领先于Claude-4-Opus和Gemini-2.5-Pro。而在开源模型领域,Deepseek-R1-0528表现突出,甚至超越了部分专有系统。研究团队特别指出,o3在自然科学和工程科学领域的表现尤为亮眼。研究人员还发现,用户在评估时更注重引用与陈述的匹配度,而非单纯引用数量。答案长度等因素对SciArena的影响相对较小,与Chatbot Arena或Search Arena等平台有所不同。tcv28资讯网——每日最新资讯28at.com

尽管取得了显著进展,但自动化评估仍面临挑战。为此,团队还推出了一项名为SciArena-eval的新基准测试,旨在测试语言模型判断其他模型答案的能力。然而,即便是表现最佳的模型,也只有约65%的时间与人类偏好一致,这反映出当前LLM在科学领域的评估系统尚存局限。tcv28资讯网——每日最新资讯28at.com

SciArena平台现已向公众开放,其代码、数据及SciArena-eval基准测试均以开源形式提供,旨在助力开发更符合研究人员在科学信息任务中需求的模型。tcv28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平07-03荣耀总裁方飞:苹果入局折叠屏,是激励也是新起点07-03OpenAI坚持英伟达与AMD,暂不全面采用谷歌TPU芯片07-03Crunchyroll新动画字幕出错,疑似AI生成引热议,观众呼吁保证创作质量07-03三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭现在的手游和应用不断升级,对配置的要求越来越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,进一步优化性能,提升新机体验。新机也被官方称为三星超轻薄折叠旗舰,看来今年的新折叠屏不断追求轻薄,甚至是与直板机…07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5采用全新AI交互方式,以更轻薄的折叠旗舰形态与行业领先的AI智能体实力,释放PC级生产力,开启智能交互体验的全新想象,用科技拓宽一小时的生命宽度,带来一辈子的温暖陪伴。荣耀正式宣布支持MC…07-03中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版07-03荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5评测:轻薄新巅峰,全能AI折叠屏旗舰重塑标准在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼登场:纤薄新纪录,满血配置,售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5深度评测:轻薄新标杆,AI折叠屏的全面进化07-02荣耀Magic V5:超薄旗舰新标杆,AI交互重塑大折叠体验它的低温与常温性能差异大约在33.4%,也符合我们对于超薄大折叠的性能释放预期,同时即便是有着如此严格的温控策略,MagicV5的性能表现也依然要明显高于那些使用老平台的竞争对手。Magic V5不只是开创…07-02京东JoyInside携AI潮玩来袭,携手十余家机器人品牌打造智能生态07-02点击查看更多 +全站最新宇宙信使:揭秘玻璃陨石的奥秘与魅力宇宙信使:揭秘玻璃陨石的奥秘与魅力2025上半年机票均价740元,暑运旺季来临价格上扬至839元2025上半年机票均价740元,暑运旺季来临价格上扬至839元美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道马斯克旗下xAI Grok 4曝光,百亿融资助力“重塑知识库”计划马斯克旗下xAI Grok 4曝光,百亿融资助力“重塑知识库”计划丰田汽车上调零部件采购价,力保6万家供应商稳定运营丰田汽车上调零部件采购价,力保6万家供应商稳定运营热门内容
  • 高考志愿填报热潮中,夸克“深度搜索”成考生新宠,人均使用4次寻建议
  • 马斯克宣布Grok 4大模型即将面世,或专为编程打造
  • 高考志愿填报热潮下,夸克“深度搜索”助力考生,人均使用达4次
  • 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
  • 苹果AI「Apple Intelligence」国行版,终于要来了吗?
  • QQ浏览器AI高考通新上线:智能生成高考志愿报告,助你科学填报!
  • 火山引擎PromptPilot:一键优化指令,解锁AI大模型新效能
  • 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
  • 夸克高考志愿大模型上线,让每个考生拥有自己的AI志愿填报顾问!
  • 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
  • 优志愿鸿蒙版上线,AI智能填报高考志愿,科学规划升学新路径
  • 英伟达揽才:清华“天才少年”朱邦华携手焦剑涛加盟
  • 淘天集团RecGPT大模型上线,电商推荐迎来个性化新升级
  • 斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军
  • 《Artificial》今夏开机,揭秘OpenAI 2023年CEO罢免又复职风波
本栏最新三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起

本文链接:http://www.28at.com/showinfo-45-14354-0.htmlSciArena平台亮相:科研人员亲测,大语言模型科学文献任务表现大比拼

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: MIT新研究:AI写作工具使用或致大脑活跃度下滑

下一篇: 谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平

标签:
  • 热门焦点
  • 25万虚拟er在“元宇宙”追星

    “默叽默叽,我是默默酱,我是在真元宇宙也有头有脸的人。”12月11日晚20:00,虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马,抵达繁星》在大有空间APP
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • Meta公布AI概念“Builder Bot”;银保监发布元宇宙相关风险提示

    概述自从Meta在2月初公布财报后,其负责元宇宙的核心部门Reality Labs表现不佳,净亏损超100亿美元,随后股价断崖式下跌。如今,Meta开始继续发力元宇宙,想要挽回颓势,
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • 2022年去中心化交易所会崛起吗?

    “在某个时候,去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 知名艺术家打造去中心化“好莱坞”:一部电影一个DAO

    根据市场追踪网站 DappRadar 的数据,随着 NFT 的“出圈”与加密货币的普及,NFT 市场在 2021 年的销售额达到约 250 亿美元,而 2020 年仅为 9490 万美元,同比增超 2
Top