当前位置:首页 > 科技  > 数码

​三星自研AI性能基准测试工具TRUEBench上线,填补多语言多任务评估空白​

来源: 责编: 时间:2025-09-26 17:39:12 66观看
导读三星电子宣布推出一款自主研发的AI性能基准测试工具——TRUEBench,全称为“可信真实场景使用评估基准”(Trustworthy Real-world Usage evaluation Benchmark)。该工具由三星研究院开发,旨在填补现有AI基准测试工具在多语

三星电子宣布推出一款自主研发的AI性能基准测试工具——TRUEBench,全称为“可信真实场景使用评估基准”(Trustworthy Real-world Usage evaluation Benchmark)。该工具由三星研究院开发,旨在填补现有AI基准测试工具在多语言支持和复杂任务评估方面的空白,为企业级AI应用提供更贴近实际场景的评估标准。pSw28资讯网——每日最新资讯28at.com

三星研究院在开发过程中发现,传统AI基准测试工具普遍存在两大缺陷:一是语言覆盖范围有限,主要聚焦英语环境;二是测试场景过于单一,多局限于单轮问答结构。而TRUEBench通过构建包含12种语言的测试体系,覆盖了从8个字符的简短指令到2万字符的长文档处理等多样化任务,形成了包含2485组测试集的评估框架。这些测试集被划分为10个大类、46个子类,涵盖内容生成、数据分析、文本摘要、跨语言翻译等10项核心企业任务。pSw28资讯网——每日最新资讯28at.com

该工具的评估机制采用AI与人类专家协同设计的自动评分系统,通过多维度参数构建可靠性验证模型。三星特别强调,TRUEBench的测试设计基于企业内部AI生产力提升的实践经验,能够更精准地反映AI模型在实际业务场景中的问题解决能力。目前,工具的数据样本及排行榜已在开源平台Hugging Face上线,用户可免费测试最多5个AI模型,并获取性能效率对比报告。pSw28资讯网——每日最新资讯28at.com

三星电子DX部门首席技术官兼三星研究院院长Paul (Kyungwhoon) Cheun表示:“三星研究院在真实业务场景中积累了深厚的AI应用经验,这使我们具备开发专业评估工具的独特优势。TRUEBench的推出不仅能为行业提供生产力领域的评估标准,也将进一步强化三星在技术创新领域的领导地位。”pSw28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-185071-0.html​三星自研AI性能基准测试工具TRUEBench上线,填补多语言多任务评估空白​

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 雷军忆往昔:苹果三星华为如大山压顶,小米逆袭终成行业翘楚

下一篇: ​OpenAI内部测试GPT-Alpha智能体:基于GPT-5,支持多模态多任务处理​

标签:
  • 热门焦点
  • 卢伟冰长文解析K60至尊版 对Redmi有着里程碑式的意义

    在今天的Redmi后性能时代战略发布会结束之后,Redmi总经理卢伟冰又带来了一篇长文,详解了为什么 Redmi 要开启后性能时代?为什么选择和 MediaTek、Pixelworks 深度合作?以及后性
  • 十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • SpringBoot中使用Cache提升接口性能详解

    环境:springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架从 3.1 开始,对 Spring 应用程序提供了透明式添加缓存的支持。和事务支持一样,抽象缓存允许一致地使用各
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 重估百度丨大模型,能撑起百度的“今天”吗?

    自象限原创 作者|程心 罗辑2023年之前,对于自己的“今天”,百度也很迷茫。“新业务到 2022 年底还是 0,希望 2023 年出来一个 1。”这是2022年底,李彦宏
  • 英特尔Xe-HP项目终止,将专注Xe-HPC/HPG系列显卡

    据10 月 31 日消息报道,英特尔高级副总裁兼加速计算系统和图形事业部总经理 表示,Xe-HP“ Arctic Sound” 系列服务器 GPU 已经应用于 oneAPI devcloud 云服
  • 苹果140W USB-C充电器:采用氮化镓技术

    据10 月 30 日 9to5 Mac 消息报道,当苹果推出新的 MacBook Pro 2021 时,该公司还推出了新的 140W USB-C 充电器,附赠在 MacBook Pro 16 英寸机型的盒子里,也支
  • 亲历马斯克血洗Twitter,硅谷的苦日子在后头

    文/刘哲铭  编辑/李薇  马斯克再次挥下裁员大刀。  美国时间11月14日,Twitter约4400名外包员工遭解雇,此次被解雇的员工的主要工作为内容审核等。此前,T
Top