当前位置:首页 > 科技  > 网络

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守

来源: 责编: 时间:2025-02-26 12:25:48 250观看
导读 Claude 3.7新鲜出炉全网热议,到底有多强?第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。只需一个样本,就能一下子吐出3200多行代码,做出一个可玩性很高的游戏。像什么跳跃、打怪、回血、吃金币

Claude 3.7新鲜出炉全网热议,到底有多强?Ug428资讯网——每日最新资讯28at.com

第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。Ug428资讯网——每日最新资讯28at.com

只需一个样本,就能一下子吐出3200多行代码,做出一个可玩性很高的游戏。Ug428资讯网——每日最新资讯28at.com

像什么跳跃、打怪、回血、吃金币……一系列复杂的游戏机制都完美呈现了出来。Ug428资讯网——每日最新资讯28at.com

有意思的是,这个游戏还和Meta Quest里的VR游戏《霓虹奥德赛(Neon Odyssey)》同名。Ug428资讯网——每日最新资讯28at.com

物理规律也能准确把握,有人仅用3个提示,就用C语言模拟了真实物理情景下的流体运动:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

实测发现,Claude 3.7 Sonnet能够识破很多的逻辑陷阱,一些弱智吧名场面也能秒懂:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

在Claude官方看来,其大的优势就是“更擅长现实世界中的任务”,并且在更新公告中还不忘内涵一波隔壁OpenAI。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

另外趁着模型上新,Claude背后的Anthropic新一轮融资曝光:35亿美元(约254亿人民币)。比预先目标20亿翻了近一倍。Ug428资讯网——每日最新资讯28at.com

由此,包括正在筹集的现金在内,Anthropic估值已经达到了615亿美元(约4462亿人民币)。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

一句话生成《我的世界》,新模型编程能力嘎嘎乱杀Ug428资讯网——每日最新资讯28at.com

从更多网友鲜测来看,Claude 3.7 Sonnet尤为擅长编程和Web开发。Ug428资讯网——每日最新资讯28at.com

一上手,他们就把目光放在了考验AI理解真实世界能力的物理模拟上。Ug428资讯网——每日最新资讯28at.com

【更懂物理规律】Ug428资讯网——每日最新资讯28at.com

比如一位日本小哥就用它生成了精致的“太阳系运行图”,太阳、八大行星还有被开除行星籍的冥王星都包含在内,给小哥带来了亿点点震撼:Ug428资讯网——每日最新资讯28at.com

1374行代码,Claude 3.7 Sonnet唰一下就完成了!Ug428资讯网——每日最新资讯28at.com

不仅生成速度快,还实现了实时交互。点击某个行星,右上角还会显示一些小科普。Ug428资讯网——每日最新资讯28at.com

要知道,哪怕不制作成动画,单纯地完整厘清这些天体的运行规律,就已经难倒了绝大部分人。Ug428资讯网——每日最新资讯28at.com

而Claude的作品,虽然美观性可能还有提升空间,但至少它不仅对行星运行的规则有清晰的把握,还能把它们变成代码。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

另外,对于每一个新模型都要被拉出来遛一遛的“空间内弹小球”挑战,Claude 3.7 Sonnet当然也没逃过:Ug428资讯网——每日最新资讯28at.com

编写一个Python脚本,实现球在四维体内部弹跳。Ug428资讯网——每日最新资讯28at.com

本月初的o3-mini在这一挑战中表现出色,斩获“可能是懂现实物理的LLM”:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

而相比于慢悠悠的o3-mini,Claude 3.7 Sonnet则另辟蹊径主打一个“天下武功,唯快不破”。Ug428资讯网——每日最新资讯28at.com

小小四维空间内,小球弹跳速度快出残影,真滴很需要一个眼尖的裁判来决出胜者(doge)。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

与此同时,除了物理模拟,用Claude 3.7 Sonnet编写各种小游戏竟默契成为一众网友佳选择。Ug428资讯网——每日最新资讯28at.com

【游戏成热场景】Ug428资讯网——每日最新资讯28at.com

挑战生成爆火游戏《Flappy bird》,Claude 3.7 Sonnet一眼完胜o3 mini-high。Ug428资讯网——每日最新资讯28at.com

游戏中,玩家必须控制一只小鸟,跨越由各种不同长度水管所组成的障碍。Ug428资讯网——每日最新资讯28at.com

先看Claude 3.7 Sonnet,一次性生成的代码就高度还原了游戏理念:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

高档位推理模式下的o3 mini,只有一个小方块在画面中原地鬼畜,基本看不出游戏的亚子。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

一时间,这一惨烈对比直接将Claude 3.7 Sonnet推上了新的高度:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

同时,随着难度进一步升级,这句评价的含金量还在上升。Ug428资讯网——每日最新资讯28at.com

除了简单还原游戏理念,生成更精致甚至可以上下左右交互的“大制作”也是不在话下。Ug428资讯网——每日最新资讯28at.com

在早期测试中,知名博主Rowan Cheung就用它一句话创建了克隆版《我的世界》,而且能立即在Artifacts中玩。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

类似的还有下面这个,也是一句话生成一个完整游戏:Ug428资讯网——每日最新资讯28at.com

使用Phaser.js制作一个横版平台游戏,仅使用箭头键进行游戏操作。(左上角还会实时更新得分情况)Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

这还不算完,更有脑洞大开的网友仅用5个提示,就为Apple Watch制作了一个与心率绑定的贪吃蛇游戏。Ug428资讯网——每日最新资讯28at.com

你越紧张,蛇移动得越快,你越冷静,就越容易。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

笑死,知名博主Pietro Schirano借机又调侃了Anthropic一波:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

而除了各种游戏,将Claude 3.7 Sonnet应用于实际开发场景的例子也是精彩纷呈。Ug428资讯网——每日最新资讯28at.com

【生产力提效Max】Ug428资讯网——每日最新资讯28at.com

目前,Claude平台已提供GitHub集成,开发人员可以将其代码存储库直接连接到Claude。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

设置完成后,它会显示特定项目的容量百分比,这样用户就知道自己使用了多少容量。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

知名博主elvis特意cue到了“Artifacts”功能,直连后这对于今后修改代码非常方便。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

在实际体验中,有人用它来生成动画天气卡,移动的云彩、飘落的雨滴等全都栩栩如生,还支持自主调节移动快慢。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

当然,创建网页这种活儿,单看可能没感觉,那我们直接请出几位选手挑战扒同一个HTML网页。Ug428资讯网——每日最新资讯28at.com

要完成的目标是这样婶儿的:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

Claude 3.7 Sonnet堪称还原度高,而且在没有图标素材的情况下用emoji填充了左侧边栏的按钮:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

而其他几位选手o1-mini-high、Grok 3以及Gemini 2.0 Pro依次作答如下,有的只简单地列举了数据,甚至还有的干脆只给了个表格:Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

鉴于编写程序的能力确实很强,还有人激动表示自己在cursor里尝试了一番,效果嘛:Ug428资讯网——每日最新资讯28at.com

添加了15个以上的文件,并且看起来很好,看上去一次可以处理的内容更多了。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

【“数字母”问题埋下小彩蛋】Ug428资讯网——每日最新资讯28at.com

而且Claude团队也非常“时髦”,在3.7 Sonnet当中埋下了关于strawberry数r的彩蛋。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

不过虽然这种幽默的态度十分可嘉,但是换了个词可能还是会掉链子。Ug428资讯网——每日最新资讯28at.com

虽然数错了,Claude还不忘纠正拼写错误,耿直地指出你这个“密西西比”拼的不对啊,正确的拼写里就是有4个s。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

【实测:识破逻辑陷阱,弱智吧也能招架】Ug428资讯网——每日最新资讯28at.com

Claude 3.7 Sonnet的推理能力除了体现在编程上,还包括在存在误导信息的情况下准确推理。Ug428资讯网——每日最新资讯28at.com

而且即使不开启推理模式,Claude 3.7 Sonnet依然能够在有误导信息推理测试当中取得和o3-mini一样的成绩。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

这项测试,使用的GitHub上一个名为Misguided Attention的Benchmark。Ug428资讯网——每日最新资讯28at.com

其中包含了很多经典谜题……的改编版本,考验的就是大模型能不能做到不被表象迷惑。Ug428资讯网——每日最新资讯28at.com

举个例子,电车难题我们都很熟悉:Ug428资讯网——每日最新资讯28at.com

假设在一个电车轨道上被绑了5个人,而它的备用轨道上被绑了1个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

但在这套Benchmark里,这道题被改编成了这个样子:Ug428资讯网——每日最新资讯28at.com

假设在一个电车轨道上被绑了5个死了的人,而它的备用轨道上被绑了1个活着的人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。Ug428资讯网——每日最新资讯28at.com

o3-mini-high毫不犹豫地就选择了让电车冲向活人,还言之凿凿地解释说这样会减少受害者数量。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

Claude 3.7(未开启拓展思考)就能够发现这其中的门道,表示这是一个变体,并选择了不伤害还活着的人。Ug428资讯网——每日最新资讯28at.com

再比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的“猫设”被改成了一只死去的猫。Ug428资讯网——每日最新资讯28at.com

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗?Ug428资讯网——每日最新资讯28at.com

Claude 3.7也是准确把握了关键点,正确回答了猫的存活概率为0。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

也是有一些弱智吧的味道了,既然如此,那我们就加试几个弱智吧问题看看。(doge)Ug428资讯网——每日最新资讯28at.com

还是没有开启思考模式,Claude 3.7就识破了我们问题当中的逻辑缺陷。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

像这类因果倒置的弱智吧场面,Claude 3.7也能及时发现,相比之下o3-mini-high的回答就好像是成功被诱骗。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

后,我们让Claude 3.7解释了一些中文中有趣的语言现象。Ug428资讯网——每日最新资讯28at.com

结果,“咖啡因不存在于成品咖啡”这句出了错误,但是瑕不掩瑜,整体的解释还是比较靠谱的。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

【One More Thing】Ug428资讯网——每日最新资讯28at.com

关于Claude 3.7 Sonnet的命名,Anthropic首席产品官Mike Krieger揭秘了这当中的过程。Ug428资讯网——每日最新资讯28at.com

由于之前Claude 3.5 Sonnet发布过一次更新,所以团队一开始是考虑叫3.5 Sonnet newer或者newest,又或者3.5 Sonnet v3。Ug428资讯网——每日最新资讯28at.com

也许是觉得还叫3.5体现不出这版模型的强大,后来又改成了3.6,终敲定在了处于3.5和4中间的3.7。Ug428资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Ug428资讯网——每日最新资讯28at.com

参考链接:Ug428资讯网——每日最新资讯28at.com

[1]https://x.com/rowancheung/status/1894106441536946235[Ug428资讯网——每日最新资讯28at.com

2]https://x.com/mckaywrigley/status/1894123739178270774Ug428资讯网——每日最新资讯28at.com

[3]https://x.com/omarsar0/status/1894145008556519602Ug428资讯网——每日最新资讯28at.com

[4]https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/Ug428资讯网——每日最新资讯28at.com

[5]https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/Ug428资讯网——每日最新资讯28at.com

[6[https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320dUg428资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-133535-0.htmlClaude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 百度21亿美元收购YY

下一篇: 欧盟批准面包虫粉末放入面包!此前还将蟋蟀粉加入食物

标签:
  • 热门焦点
  • K60 Pro官方停产 第三方瞬间涨价

    虽然没有官方宣布,但Redmi的一些高管也已经透露了,Redmi K60 Pro已经停产且不会补货,这一切都是为了即将到来的K60 Ultra铺路,属于厂家的正常操作。但有意思的是该机在停产之后
  • 容量越大越不坏?24万块硬盘故障率报告公布 这些产品零故障

    8月5日消息,云存储服务商Backblaze发布了最新的硬盘故障率报告,年故障率有所上升。Backblaze发布的硬盘季度统计数据,其中包括故障率等重要方面。这些结
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • WebRTC.Net库开发进阶,教你实现屏幕共享和多路复用!

    WebRTC.Net库:让你的应用更亲民友好,实现视频通话无痛接入! 除了基本用法外,还有一些进阶用法可以更好地利用该库。自定义 STUN/TURN 服务器配置WebRTC.Net 默认使用 Google 的
  • Temu起诉SHEIN,跨境电商战事升级

    来源 | 伯虎财经(bohuFN)作者 | 陈平安日前据外媒报道,拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼,诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术

    华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性
  • 三翼鸟智能家居亮相电博会,让用户体验更真实

    2021电博会在青岛国际会展中心开幕中,三翼鸟直接把“家”搬到了现场,成为了展会的一大看点。这也是三翼鸟继9月9日发布了行业首个一站式定制智慧家平台后的
Top