你的位置:2026世界杯赛事竞猜中国官网 > 世界杯官网 >
发布日期:2026-05-20 12:55 点击次数:87

一水 发自 凹非寺
量子位 | 公众号 QbitAI
Cursor模子更新,最新版块已来到Composer 2.5。
稍许一翻Cursor公告,两件事挺特地旨真理:
一是Cursor这回学讲授了,新模子“套”了Kimi不再藏着掖着,连具体用了些许都标的清知道爽。
(Cursor:Kimi打底,自家特等训导+RL占了85%的总算力)
二是马斯克原地演出变脸,之前Cursor堕入“套壳风云”时他在足下推波助澜,当今却十分卖力地赞理站台:
都给我去用Cursor新模子。
都给我去用Cursor新模子。
伸开剩余93%网友:老马你让我感到目生(doge)。
别思多了,其实这是因为Cursor和马斯克达成了算力合作——
Composer 2.5部分训导是在Colossus 2上完成的,以及Cursor正在和SpaceXAI合作,从零驱动训导一个边界显豁更大的模子。
好好好,新模子刚来,下一代模子的“饼”又吃上了,看来Cursor确凿铆足了劲思搞自研(具体原因下文详聊)。
不外远的咱是够不着了,先看目前这个实在的——Composer 2.5自身亮点也很足。
1/10资本、Opus 4.7级贯通,况且发布后首周还给你双倍用量。
1/10资本、Opus 4.7级贯通,况且发布后首周还给你双倍用量。
好家伙,这几个词一甩出来,时时用模子的一又友谁不本心了。
但问题是,Cursor新模子真有这样顶吗??
1/10资本、Opus 4.7级贯通
顶不顶目前咱不好说,归正测评获利挺亮眼。
据Cursor先容, “它更擅长在万古刻运行的任务中不竭使命,更可靠地罢职复杂教唆,联接体验也愈加顺畅”。
这些贯通响应到具体数字上即是,其性能水平举座接近Claude Opus 4.7。
Terminal-Bench 2.0(结尾/敕令行任务):69.3% VS 69.4%,简直持平;
SWE-Bench Multilingual(多话语工程问题):79.8% VS 80.5%,差距眇小;
CursorBench v3.1(高难度编程任务):63.2% VS 最高配64.8%,差距眇小。
Terminal-Bench 2.0(结尾/敕令行任务):69.3% VS 69.4%,简直持平;
SWE-Bench Multilingual(多话语工程问题):79.8% VS 80.5%,差距眇小;
CursorBench v3.1(高难度编程任务):63.2% VS 最高配64.8%,差距眇小。
能和Opus 4.7等量皆不雅,常用模子的东说念主都知说念这里头的含金量了。
况且除了在更高难度的任务上训导以外,他们还校正了模子在交流立场和干预级别校准(什么时刻该出多纵欲)等行为层面的贯通。
听起来有点抽象,但Cursor暗意:
这些维度很难通过现存基准充分响应,但咱们发现,它们对本色使用后果特殊焦虑。
这些维度很难通过现存基准充分响应,但咱们发现,它们对本色使用后果特殊焦虑。
那么,Composer 2.5真实智力如何呢?
鉴于目前Cursor免用度户只可体验Auto格局(天然上架了然而选不了),是以咱先看一波网友的反馈。
先插一嘴,Composer模子速率是真快啊,甭管是哪一个版块,用起来歘歘歘的。
OK,转头正题。
目前一圈扒下来,嗅觉Composer 2.5反馈还可以??
Snapchat前机器学习工程师神气发帖称,自从Composer 2发布后,她就把绝大无数成就使命搬到了Cursor上头。
况且还甩出了一句颇有暴论滋味的话:
如若你在使用AI进行成就,却仍然默许使用资本最高的模子来完成每一项任务,那么你80%的使命都是在浪用钱。
如若你在使用AI进行成就,却仍然默许使用资本最高的模子来完成每一项任务,那么你80%的使命都是在浪用钱。
图像生成初创公司LetzAI的CEO也有访佛感受,他在体验新模子几小时后暗意:
畴昔可能会对AI的决策挑三拣四、反复修改,但此次因为Composer 2.5作念得太好太快,我方径直“躺平认了”。
没什么可抉剔的,就这样办吧。
没什么可抉剔的,就这样办吧。
思必你也发现了,除了模子智力以外,他们提到了另一个焦虑要道词:价钱。
Composer 2.5的价钱为每百万输入token 0.50好意思元、每百万输出token 2.50好意思元。
此外,还有一个智能水平同样但速率更快的变体,价钱为每百万输入token 3.00好意思元、每百万输出token 15.00好意思元。
p.s. 与Composer 2一样,fast是默许选项。
这个价钱如何说呢?也即是Opus 4.7的1/10吧。
1/10资本、Opus 4.7级贯通,如若后果真如测评和网友所言,那皆备是真香了。
Kimi打底,还作念了这些训导校正
那么Composer 2.5此次是如何已毕性能“飞跃”(至少是名义上)的呢?
虽说是有Kimi打底,但好赖贴的是“Cursor自研模子”的标签,这背后多些许少总得有自研吧。
Cursor:别说我还真有。
回到模子自身,Cursor这回在训导栈上作念了不少校正,主要围绕两个标的:
模子智能和易用性。
具体则有三点:
第一,给RL训导加了“定向反馈”
畴昔RL奖励是基于整条轨迹算的,rollout动辄几十万token,模子很难知说念我方究竟是哪一步搞砸了——最终奖励只可告诉你“出问题了”,但具体错哪儿,信号噪声越过大。
Cursor的解法是:那儿分离就在那儿径直喂反馈。
举个例子,模子在某一轮调用了一个不存在的器具,收到报错后连接干别的。几百次调用里就这一次错,对最终奖励基本没影响。
但Cursor会在出错那一轮的坎坷文里插一句“Reminder: Available tools…”并附上可用器具列表,由此得到一个新的“西宾”概率溜达。
如斯一来,2026世界杯赛事竞猜官方版失误器具的概率被压下去,灵验替代项的概率被抬上来,然后让学生模子向这个溜达靠近就行。
这套才略在Composer 2.5里被用在了多种行为上,从编码立场到交流神志都有。
第二,合成数据边界翻了25倍
RL训导几轮下来,Composer还是能解决大部分训导题了,如何连接擢升?
谜底是动态生成更难的任务。
其中一个玩法叫“功能删除”——给智能体一个带测试的代码库,让它删掉某个特定功能但保证代码库还能跑,然后任务即是把这个功能再行已毕出来,测试即是奖励信号。
不外任务一多,奖励舞弊也随着来了。
Cursor发现Composer 2.5会整一些离谱操作,比如逆向Python类型检查缓存找出被删的函数签名,致使反编译Java字节码重建第三方API。
好在都被监控器具抓到了,但也算提了个醒——大边界RL得更防卫。
第三,底层训导作念了优化
Cursor用的是带溜达式正交化的Muon,并把通讯作念成异步——一个任务等通讯时,优化器接着鼓舞其他任务,让网罗和策画相通起来。
最终在1T模子上,优化器每步唯有0.2秒。
另外针对MoE模子,他们把非民众权重和民众权重的HSDP布局远隔了:非民众权重小,FSDP组就窄少量,单节点内不停;民众权紧要,就用更宽的分片网格。
这样互相寂寞的并行维度也能相通,比如CP=2和EP=8可以在8个GPU上跑,而不必占16个。
总之,从训导信号到数据边界再到底层并行,Cursor此次是全栈都动了一遍。
One More Thing
Cursor为啥这样拼搞自研?其实从它和Anthropic的高明关连里就能拙见所及。
刚好最近看了姚顺宇(不是腾讯阿谁)作客张小珺播客的那期节目,这位Anthropic前职工的不雅察,恰恰能讲解问题:
Cursor最早是踩着Claude的肩膀火起来的。成就者社区里衣钵相传的好用,背后很大一部分功劳来自Claude模子自身。那段时刻Cursor和Anthropic是典型的“鱼水关连”,一个出模子一个出居品,各赚各的钱。
但Claude Code一出来,画风就变了。
Anthropic我方下场作念编程居品,等于径直杀进了Cursor的土产货。正本的“上游供应商”已而形成了“正濒临手”,再连接把身家人命押在对方的API上,显然不是个安全的遴荐。
是以Cursor走上自研这条路,与其说是思成为下一个Anthropic,不如说是被推着不得不走——
模子捏在我方手里,命才在我方手里。
说到这里我很钦慕一个问题:在自研模子成效之前,Cursor当今的格局难说念真的不具有护城河吗?
至少对我这种非专科成就者而言,听起来大概Cursor还可以——有多款前沿模子可选,价钱还更低廉。
带着钦慕,我看到X上有东说念主给出了一种解读,挺特地旨真理:
Cursor的护城河从来都不是基础模子,而是RL训导历程+成就者使命流数据。当今他们正在解释:唯有经过充足的微调,开源基础模子在特定任务上也能与前沿模子相失色。
Cursor的护城河从来都不是基础模子,而是RL训导历程+成就者使命流数据。当今他们正在解释:唯有经过充足的微调,开源基础模子在特定任务上也能与前沿模子相失色。
仔细思思这话也不算太夸张。
Composer 2.5的训导里,85%的算力都花在了Kimi基模以外的后训导和RL上——Kimi K2.5仅仅个起原,确凿让它在编程任务上能打的,是Cursor我方那套围绕真实IDE场景作念出来的训导管线。
这个打发也解释了为啥它能把价钱压到Opus的十分之一。因为,开源基模省却了从零预训导那笔最贵的钱,剩下的全砸在编程这一件事上作念玄虚化训导。
模子只为Cursor的IDE场景事业,没必要为通用智力买单。
至于为啥此次牵手的是马斯克的SpaceXAI(毕竟老只怕次贯通得并不友好),逻辑貌似也不复杂。
OpenAI有Codex、Anthropic有Claude Code、Google有Gemini Code Assist,这几家我方都在作念编程居品,跟Cursor都是潜在敌手,算力上指望不上。
剩下能拿出宇宙级算力集群、又不跟Cursor在编程赛说念正面破裂的玩家,掰着指头数也没几个了——
老马的Colossus 2刚好是现成的。
况且如若把时刻线拉长看,你会发现马斯克和Cursor之间,还是远不仅仅单纯的“算力合作”。
本年3月,xAI里面悠扬之际,马斯克先从Cursor挖走了两位中枢工程矜重东说念主。
ag真人app官方网站入口紧接着4月,更大的当作来了。SpaceX秘书与Cursor达成合作,由Colossus超算为Cursor训导模子。
但确凿要道的不是算力,而是合同自身。
按照网上泄露的条目,SpaceX获取了将来以600亿好意思元收购Cursor的优先权。即便最终不收购,Cursor也需要支付100亿好意思元“合作费”。
耐东说念主寻味的是,据TechCrunch泄露,这份合同官宣前几小时,Cursor正本正要敲定一轮20亿好意思元、估值500亿的融资,参投方包括a16z、英伟达、Thrive等一线机构。
放手老马一脚插进来,把这单给截胡了。
是以某种进程上而言,这其实是一次特殊典型的“马斯克式绑定”:
要么卖给我,要么给我100亿,无论若何先提前把Cursor的红运锁进了我方的疆土。
至于他前脚推波助澜、后脚卖力站台的变脸速率嘛——硅谷的故事,向来如斯。
参考鸠集:
[1]https://cursor.com/cn/blog/composer-2-52026世界杯赛事竞猜最新版V2026.FIFA
发布于:北京市