当前位置:首页 > 科技  > 网络

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

来源: 责编: 时间:2025-09-23 11:18:32 109观看
导读 快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。综合评估

快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。UPZ28资讯网——每日最新资讯28at.com

在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。UPZ28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5UPZ28资讯网——每日最新资讯28at.com

综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。UPZ28资讯网——每日最新资讯28at.com

同时,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。UPZ28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5UPZ28资讯网——每日最新资讯28at.com

该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。UPZ28资讯网——每日最新资讯28at.com

具体表现如下:UPZ28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5UPZ28资讯网——每日最新资讯28at.com

通用推理能力:LongCat-Flash-Thinking具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。UPZ28资讯网——每日最新资讯28at.com

数学能力:LongCat-Flash-Thinking在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在HMMT和AIME相关基准上取得突破性成绩,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。UPZ28资讯网——每日最新资讯28at.com

代码能力:在编程领域,LongCat-Flash-Thinking展现出开源模型先进的性能(SOTA)与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当,证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。UPZ28资讯网——每日最新资讯28at.com

智能体能力:LongCat-Flash-Thinking在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。UPZ28资讯网——每日最新资讯28at.com

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数,大幅领先所有其他参与评估的模型,在pass@8和pass@32中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。UPZ28资讯网——每日最新资讯28at.com

目前,LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。UPZ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-183390-0.html美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 时隔快一百年 胖东来又把自有品牌带火了

下一篇: 金字火腿:拟不超3亿元取得中晟微不超20%股权

标签:
  • 热门焦点
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 摸鱼心法第一章——和配置文件说拜拜

    为了能摸鱼我们团队做了容器化,但是带来的问题是服务配置文件很麻烦,然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比,简单对比下独立配置中心和k8s作为配
  • SpringBoot中使用Cache提升接口性能详解

    环境:springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架从 3.1 开始,对 Spring 应用程序提供了透明式添加缓存的支持。和事务支持一样,抽象缓存允许一致地使用各
  • 学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 只需五步,使用start.spring.io快速入门Spring编程

    步骤1打开https://start.spring.io/,按照屏幕截图中的内容创建项目,添加 Spring Web 依赖项,并单击“生成”按钮下载 .zip 文件,为下一步做准备。请在进入步骤2之前进行解压。图
  • 一条抖音4亿人围观 ! 这家MCN比无忧传媒还野

    作者:Hiu 来源:互联网品牌官01 擦边少女空降热搜,幕后推手曝光被网友誉为“纯欲天花板”的女网红井川里予,近期因为一组哥特风照片登上热搜,引发了一场互联网世界关于
  • 三星显示已开始为AR设备研发硅基LED微显示屏

    7月18日消息,据外媒报道,随着苹果首款头显产品Vision Pro在6月份正式推出,AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域,对显示屏这一关
  • iQOO 11S新品发布会

    iQOO将在7月4日19:00举行新品发布会,推出杭州亚运会电竞赛事官方用机iQOO 11S。
  • 与兆芯合作 联想推出全新旗舰版笔记本电脑开天N7系列

    联想与兆芯合作推出全新联想旗舰版笔记本电脑开天 N7系列。这个系列采用兆芯KX-6640MA处理器平台,KX-6640MA 处理器是采用了陆家嘴架构,16nm 工艺,4 核 4 线
Top