当前位置:首页 > 元宇宙 > AI

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

来源: 责编: 时间:2025-03-31 11:07:20 168观看
导读 Gemini 2.5 Pro,刚刚深夜上线了!这个「思考」模型专为复杂任务打造,推理能力强大,一经诞生就横扫各大榜单、拿下各类 TOP 1,还创下了历史上最大分数飞跃纪录。Gemini 2.5 Pro 是一个「思考」模型,能够在回应前先进

Gemini 2.5 Pro,刚刚深夜上线了!这个「思考」模型专为复杂任务打造,推理能力强大,一经诞生就横扫各大榜单、拿下各类 TOP 1,还创下了历史上最大分数飞跃纪录。ViS28资讯网——每日最新资讯28at.com

Gemini 2.5 Pro 是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。ViS28资讯网——每日最新资讯28at.com

谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的 Gemini 的所有功能(长上下文、工具等)。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

它在多个基准测试中达到了 SOTA 水平,并且以显著的优势在 LMArena 上排名第一。ViS28资讯网——每日最新资讯28at.com

现在,Gemini 2.5 Pro 已经登顶了 Arena 排行榜的第一位,而且创下了历史最大分数飞跃,比 Grok-3 / GPT-4.5 整整高出了 40 分!ViS28资讯网——每日最新资讯28at.com

在代号「nebula」的测试中,它也横扫所有类别夺得第一,并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军!ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

在困难提示词和编程两大领域,它与 Grok-3 / GPT-4.5 拿到了并列冠军,而且在所有其他比拼中都以微弱优势胜出,成功问鼎榜首!ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

此外,Gemini 2.5 Pro 还成功登顶了视觉竞技场(Vision Arena)排行榜榜首!ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

在网页开发领域,它也同样大放异彩,成功斩获网页开发竞技场(WebDev Arena)亚军宝座!ViS28资讯网——每日最新资讯28at.com

它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的 Gemini 更是实现了质的飞跃。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

这一次,谷歌的模型又展现出巨大的飞跃,OpenAI、Anthropic、DeepSeek 等竞争对手,在多久时间内会赶上?ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 应用中,向 Gemini Advanced 用户开放,并将很快在 Vertex AI 上推出。ViS28资讯网——每日最新资讯28at.com

而它的定价方案,会在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。ViS28资讯网——每日最新资讯28at.com

网友实测后发现,它果然实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

Gemini 2.5 Pro 上线

谷歌表示,在 AI 领域,系统的「推理」能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。ViS28资讯网——每日最新资讯28at.com

长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让 AI 更智能、更具推理能力的方法。ViS28资讯网——每日最新资讯28at.com

正是在此基础上,他们在 2 月推出了第一个思考模型,Gemini 2.0 Flash Thinking。ViS28资讯网——每日最新资讯28at.com

而今天,通过 Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。ViS28资讯网——每日最新资讯28at.com

推理和代码能力大幅提升

Gemini 2.5 Pro 展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

另外,在各类需要高级推理能力的基准测试中,它都达到了 SOTA 水平。ViS28资讯网——每日最新资讯28at.com

无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro 就能在 GPQA 和 AIME 2025 等数学和科学基准评测中表现卓越。ViS28资讯网——每日最新资讯28at.com

而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿「人类最后的考试」中取得了 18.8% 的准确率,达到业界领先。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

在编程能力上,Gemini 2.5 相比 2.0 版本也实现了质的飞跃,而这,仅仅是个开始。ViS28资讯网——每日最新资讯28at.com

2.5 Pro 在创建视觉精美的网页应用和 AI 智能体代码应用方面都表现卓越,在代码转换和编辑领域中,也同样实力出色。ViS28资讯网——每日最新资讯28at.com

在智能体代码评估的行业标准测试 SWE-Bench Verified 上,Gemini 2.5 Pro 靠使用自定义智能体配置,就获得了 63.8% 的优异成绩。ViS28资讯网——每日最新资讯28at.com

以下这波 demo,就展示了 Gemini 2.5 Pro 如何运用强大推理,仅通过一行提示词,就能生成可执行代码,来创建完整的动画和游戏。ViS28资讯网——每日最新资讯28at.com

在下面这个 demo 中,仅仅根据下面这行 prompt,它就生成了一段 p5js 的交互式动画,展示了「宇宙鱼」的场景,并且还显示了鱼们都在想什么。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

它还根据以下 prompt,生成了一个无限的恐龙跑酷游戏。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

按照要求,它生成了像素化的恐龙图像和有趣的游戏背景。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

随后,Gemini 2.5 Pro 还通过编程实现了分形可视化。ViS28资讯网——每日最新资讯28at.com

它创建出了精细分形图案的模拟程序,展现出了神奇的曼德布洛特集合。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

此外,它还能构建一个交互式气泡图,直观展示出了每个大陆的经济与健康指标随时间的变化。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

或者用一段交互式的 Javascript 动画,展示了旋转六边形内多彩的人工生命群体,并且按要求做成了「超新星星云」的感觉。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

另外,它还能开发粒子系统模拟,给出了一个 HTML 文件,创造出了反射星云的沉浸式交互模拟场景。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

原生多模态和超长上下文

Gemini 2.5 继承并发扬了 Gemini 模型的优势 —— 原生多模态能力和超长上下文长度。ViS28资讯网——每日最新资讯28at.com

自己发布之初,2.5 Pro 就支持 100 万 token 的上下文窗口(而 200 万 token 也即将推出!),性能显著超越了前代模型。ViS28资讯网——每日最新资讯28at.com

这能让它理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。ViS28资讯网——每日最新资讯28at.com

ViS28资讯网——每日最新资讯28at.com

最后,既然谷歌已经掏出了地表最强模型,接下来,就让我们坐等 OpenAI 的反应了。ViS28资讯网——每日最新资讯28at.com

参考资料:ViS28资讯网——每日最新资讯28at.com

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinkingViS28资讯网——每日最新资讯28at.com

https://deepmind.google/technologies/gemini/pro/ViS28资讯网——每日最新资讯28at.com

https://x.com/lmarena_ai/status/1904581128746656099ViS28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11766-0.html谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 清华腾讯联手,人工智能通识课点亮200余所乡村小学希望之光

下一篇: OpenAI 直播狙击谷歌:奥尔特曼 AGI 梗图现场直出,GPT-4o 超强原生生图来袭

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 【东方证券】虚拟世界照进现实,元宇宙中有什么? | 元宇宙Meta洞见

    元宇宙的表现形式大多以游戏为起点,并逐渐整合互联网、数字化娱乐、社交网络等功能,长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
  • 比特币的价格越高,使用价值越大

    隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势,但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下,彰显着市场活跃度的
  • Niantic与索尼在音频AR领域达成合作;​苹果为Apple Park申请形象化商标

    今日热点:迪士尼任命新高管负责元宇宙业务;iFixit成为Valve Index VR头显和Steam Deck首家零件销售商;Niantic与索尼达成合作,将为AR游戏《Ingress》带来音频体验;V
  • 小众有趣NFT艺术作品欣赏(1)

    随着NFT发展火热,越来越多领域与NFT融合,NFT艺术在加密领域中占据了很大一部分。NFT艺术与传统艺术有相似之处,也有完全不同的地方。NFT艺术与传统艺术一样,表现了
  • 音乐NFT平台里的下一匹黑马是谁?

    NFT 销售额在 2021 年开始暴涨,从 2018 年的仅 4069 万美元的交易量,到 2021 年,NFT 交易量飙升至 442 亿美元以上,并不断刷新记录并达到新的高度。预测到2025 年N
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
Top