当前位置:首页 > 科技  > 数码

​三星自研AI性能基准测试工具TRUEBench上线,填补多语言多任务评估空白​

来源: 责编: 时间:2025-09-26 17:39:12 98观看
导读三星电子宣布推出一款自主研发的AI性能基准测试工具——TRUEBench,全称为“可信真实场景使用评估基准”(Trustworthy Real-world Usage evaluation Benchmark)。该工具由三星研究院开发,旨在填补现有AI基准测试工具在多语

三星电子宣布推出一款自主研发的AI性能基准测试工具——TRUEBench,全称为“可信真实场景使用评估基准”(Trustworthy Real-world Usage evaluation Benchmark)。该工具由三星研究院开发,旨在填补现有AI基准测试工具在多语言支持和复杂任务评估方面的空白,为企业级AI应用提供更贴近实际场景的评估标准。YtY28资讯网——每日最新资讯28at.com

三星研究院在开发过程中发现,传统AI基准测试工具普遍存在两大缺陷:一是语言覆盖范围有限,主要聚焦英语环境;二是测试场景过于单一,多局限于单轮问答结构。而TRUEBench通过构建包含12种语言的测试体系,覆盖了从8个字符的简短指令到2万字符的长文档处理等多样化任务,形成了包含2485组测试集的评估框架。这些测试集被划分为10个大类、46个子类,涵盖内容生成、数据分析、文本摘要、跨语言翻译等10项核心企业任务。YtY28资讯网——每日最新资讯28at.com

该工具的评估机制采用AI与人类专家协同设计的自动评分系统,通过多维度参数构建可靠性验证模型。三星特别强调,TRUEBench的测试设计基于企业内部AI生产力提升的实践经验,能够更精准地反映AI模型在实际业务场景中的问题解决能力。目前,工具的数据样本及排行榜已在开源平台Hugging Face上线,用户可免费测试最多5个AI模型,并获取性能效率对比报告。YtY28资讯网——每日最新资讯28at.com

三星电子DX部门首席技术官兼三星研究院院长Paul (Kyungwhoon) Cheun表示:“三星研究院在真实业务场景中积累了深厚的AI应用经验,这使我们具备开发专业评估工具的独特优势。TRUEBench的推出不仅能为行业提供生产力领域的评估标准,也将进一步强化三星在技术创新领域的领导地位。”YtY28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-185071-0.html​三星自研AI性能基准测试工具TRUEBench上线,填补多语言多任务评估空白​

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 雷军忆往昔:苹果三星华为如大山压顶,小米逆袭终成行业翘楚

下一篇: ​OpenAI内部测试GPT-Alpha智能体:基于GPT-5,支持多模态多任务处理​

标签:
  • 热门焦点
  • 6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    2023年上半年已经正式过去了,我们也迎来了安兔兔V10版本,在新的骁龙8Gen3和天玑9300发布之前,性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主,至于那颗3.36GHz的骁龙8Gen2领先
  • 女孩租房开2小时空调用完100元电费引热议:5级能耗惹不起 月薪过万电费也交不起

    近日,江苏苏州一女孩租房当天充值了100元电费,开着空调不到2小时发现电费已用完。对于为什么这个快,房东表示,电表坏了这种情况很多,之前也遇到过,给租客换
  • 把LangChain跑起来的三个方法

    使用LangChain开发LLM应用时,需要机器进行GLM部署,好多同学第一步就被劝退了,那么如何绕过这个步骤先学习LLM模型的应用,对Langchain进行快速上手?本片讲解3个把LangChain跑起来
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • 如何正确使用:Has和:Nth-Last-Child

    我们可以用CSS检查,以了解一组元素的数量是否小于或等于一个数字。例如,一个拥有三个或更多子项的grid。你可能会想,为什么需要这样做呢?在某些情况下,一个组件或一个布局可能会
  • 深度探索 Elasticsearch 8.X:function_score 参数解读与实战案例分析

    在 Elasticsearch 中,function_score 可以让我们在查询的同时对搜索结果进行自定义评分。function_score 提供了一系列的参数和函数让我们可以根据需求灵活地进行设置。近期
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 东方甄选单飞:有些鸟注定是关不住的

    作者:彭宽鸿来源:华尔街科技眼‍‍‍‍‍‍‍‍‍‍东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
  • SN570 NVMe SSD固态硬盘 价格与性能兼具

    SN570 NVMe SSD固态硬盘是西部数据发布的最新一代WD Blue系列的固态硬盘,不仅闪存技术更为精进,性能也得到了进一步的跃升。WD Blue SN570 NVMe SSD的包装外
Top