AI的下半场
来自OpenAI研究员姚顺雨的一篇博客分享:

这张图,告诉我们:传统“刷榜”游戏已进入尾声,AI模型在标准题库上的领先优势正快速趋于满分
具体如下:

结论:AI已经进入“中场休息”
接下来会进入下一个阶段
第二阶段的游戏规则彻底改变:难题不再是“能不能训练出解题模型”,而是“应该让 AI 做什么、怎样衡量真正的进展”
虽然AI已经在围棋、SAT、律师资格考试、IOI/IMO 等人类基准上超越顶尖人类,但对 GDP 或现实生产力的提升仍有限,这就是目前这一阶段最大的问题
下一阶段,谁能提出打破旧假设、衡量真实价值的新评测,谁就可能催生下一个百亿/万亿级公司
那些仍在旧基准上做 5%-level 提升的渐进式方法,极可能被下一代o-series 模型直接“降维打击”。
下半场, 需要重新定义AI的价值衡量标准,从”替代性”转向”创造性”
找到那些能真正释放AI潜力的应用场景,而不是简单地套用人类的工作模式
建立更接近实际应用的评测体系,可能需要完全摒弃传统的标准化测试思维
模型越强,提示词越重要

火山的发布会,分享了一张这样的照片:模型越强,提示词越重要
这个结论,与我跟向阳的讨论是一样的
这背后的逻辑:模型越强 → 能力越泛用 → “握方向盘”的提示词就越关键
大致原因,我的推测:
- 模型越强,指令越容易冲突,因为越强的模型对指令的遵循就越严谨,但提示词写不好,经常会出现各种自相矛盾的指令,让AI执行A,但另外一个指令又不让执行A
- 模型越强,潜力就越大。但这种潜力,需要更好的提示词来激发。在模型普遍没那么强的时候,好的提示词和普通提示词的差距可能是10倍,但未来的差距也许会变成100倍,甚至1000倍
- 模型越强,任务的复杂度,会随着我们的目标要求而不断增加,如果提示词缺乏层级与结构,关键信息会被噪声淹没
这里的关键,就是对提示词工程的定义,如果把它定义为“对模型意图与约束的设计”,会越来越重要
长尾收益
ROI,投资回报率 = 收益 / 成本
影响ROI的因素,有两个,与收益成正比,与成本成反比
要想提高ROI,要么提高收益能力,要么降低成本
提高收益往往很难,但降低成本,总会有各种办法
朋友今天分享了下他的一个投放案例
他每年在百度上要投入一些广告,今年发现,跟目标群体相关的长尾流量效果也很好
通过关键词工具和投放后台的推荐系统,持续迭代大量没有竞争的长尾关键词,出价0.5元
这和那些动不动就几块甚至十几块的流量,成本差了很多倍
于是,也终于在百度能有利润了
这确实是一个不错的长尾流量策略案例
虽然量级不大,但算下来,这个策略,也能每年多出个百万左右的利润了
小公司就应该有这样的长尾思维,尽量避免红海
光环效应
看到一个段子
以前投资人对泡泡玛特创始人的评价:创始人学历平平,没正经上过班,说起话来表情平静,没感染力,团队也没精英。
上市后,每一位投资人都提到:王宁性格沉稳、话不多,喜怒不形于色,拥有「消费创业者」的许多优良品格。
你的未来才决定了你的过去
这也是典型的光环效应
就像考上清华的学生容易被夸专注,考得很差的就容易被评价为死读书
本质上是同一个行为,结果不同,评价就不同
我们总是倾向于用结果来重新诠释过程
成功会美化一切,失败也会污名化一切
人们习惯性地寻找因果关系,即使这种因果可能并不成立
所以:
不要过分在意外界评价,这种评价本身就充满了不确定性
真正重要的,是专注于把事情做好,而不是讨好别人
有时候”缺点”恰恰可能成为优势,比如我从小不爱与别人玩,喜欢独处,反而收获了一种不被大人影响的空间
如果有朝一日,因为有了一些成果被夸,也需要保持清醒,毕竟,外部的归因,大概率并不准确
温柔的奇点
核心结论:奥特曼认为人类已进入温和的奇点早期
技术已经完成了最难的阶段
接下来的重点任务,是工程化与规模化,把它们推向更大规模、更高效应用
几个时间线的预测:
- 2025:能胜任真实认知工作的智能代理出现
- 2026:系统开始自己提出“真正新颖”的科学见解
- 2027:通用机器人走入现实世界
- 2030:个人产出比 2020 年暴增,写代码、做研究、创作艺术的门槛大幅下降
还有一些结论:
-
AI的最大红利,是加速科学,人类的生命质量与寿命的提升将远超历史任何时期
-
“智能+能源”将变得极度充裕,当数据中心与机器人能够自我复制、自我扩张,智力成本可逼近“电价”;这将打破数千年来限制人类进步的两大瓶颈:点子(智能)和把点子实现的能力(能源、自动化)
-
更强AI → 更快科研 → 更强 AI;加上机器人生产机器人、数据中心建更多数据中心,技术进步呈复利式加速
-
大量岗位会消失,但财富增速也会前所未有,但也不用担心,历史表明人类总能创造“看似假却重要”的新工作,且对新工具适应迅速
-
Altman把OpenAI描述为“超级智能研究公司”。目标是把“智力成本降到接近零”(intelligence too cheap to meter),并尽量让奇点过程“平滑、指数、无大波折”地到来
-
未来十年里,AI + 机器人带来爆炸式技术—经济增长;关键在于先搞定对齐,再确保人人都能廉价使用超级智能,从而把巨大利益与潜在风险一起纳入可控轨道
对个人或AI创业者有什么启示
- 把自己定位成“人-AI 协作链中的耦合器”,未来分工重点是是“谁能把AI套进流程、再把流程套进商业”,这对有成熟业务场景的公司有利好
- 围绕“工程化与规模化”做产品,而非单点Demo
- 盯住“数据闭环”而不是模型闭环,所有的用户数据应该是能够通过AI实现一定的数据飞轮效应,这种模式才更容易借助AI进行放大
- Altman 预测2025代理胜任真实认知工作,尽可能的在今年或者明年完成“智能代理”商品化
- 关注或打造“看似假却重要”的新岗位,比如“AI结果审核师”“提示词工程师”
- 多关注目前各种AI工程应用落地的案例,找到适合自己的案例
多智能体策略
Claude团队发布了一个关于多智能体系统的研究报告,原文如下:anthropic.com
他们经过试验评估表明,多智能体系统特别擅长需要同时进行多个独立方向的广度优先查询。
数据表明:多智能体组合,在内部评测中相较单体Claude Opus 4,完成表现提升了90.2%
再强的个人,也比不上有效的“团队协作”,AI也是如此
Claude团队还分享了关于智能体提示词的8个原则,对我们设计智能体,也有很大的启发和参考。
核心关键:提示词策略的核心,是教智能体“用对思路”而不是死记规则
团队重点观察人类专家是怎么做研究的,然后把这些经验总结后写进提示词里,比如:如何拆解问题、如何判断信息质量、什么时候转变搜索方向、什么时候该深入一个点、什么时候该广泛了解更多领域等。
这就是:真正的专家+AI这个放大器,才能形成生产力
这8个原则,整理如下:
1. 理解智能体的决策逻辑
-
核心思路: 把自己当作智能体,弄清它是怎么理解任务、怎么查信息、怎么选工具。
-
操作建议: 用开发工具模拟Agent执行流程,观察它是否重复搜索、词太长、工具选错。
-
对创业者的价值: 像调试程序一样调试Agent行为,有助于排查“为什么答错”这类黑箱问题。
2. 让主控智能体学会“派任务”
-
核心思路: 像项目经理一样分工明确。
-
操作建议: 在提示词中写清每个子任务的目标、输出格式、使用工具及边界。
-
对创业者的价值: 合理拆分任务是实现高效Agent协作的基础,尤其适用于复杂业务流程。
3. 任务越复杂,资源越要匹配
-
核心思路: 简单的任务少派Agent,复杂的任务多分人查。
-
操作建议: 在提示词中预设资源使用上限,比如工具调用次数、智能体数量。
-
对创业者的价值: 控制资源使用,降低不必要的token成本。
4. 工具设计要像做API一样清晰
-
核心思路: 工具功能越明确,Agent执行越高效。
-
操作建议: 每个工具要有清楚的描述、输入格式、输出预期。
-
对创业者的价值: 工具好不好用,直接影响Agent能不能完成任务。
5. 智能体可以自己优化自己
-
核心思路: Claude能看懂失败原因,也能帮你写更好的提示词。
-
操作建议: 给模型一些失败案例,提示它帮你改提示词或工具说明。
-
对创业者的价值: 可以把提示词优化这件事半自动化,省人力。
6. 搜索策略先广再深
-
核心思路: 先扫一圈,再决定深入哪里。
-
操作建议: 引导Agent先用宽泛关键词了解大局,再细查重点方向。
-
对创业者的价值: 提高搜索命中率,减少“查不到信息”的问题。
7. 思考→行动,提升执行质量
-
核心思路: 让Agent先想清楚再动手。
-
操作建议: 开启“延展思维模式”,写出行动策略和中间分析。
-
对创业者的价值: 提升任务执行准确率,特别适用于多轮推理型任务。
8. 并行执行任务,大幅提速
-
核心思路: 同时派出多个智能体、同时调用多个工具。
-
操作建议: 改用并行架构,避免串行带来的延迟。
-
对创业者的价值: 研究类任务提速90%,显著提升用户体验。
如何养成习惯
有研究报告表明:92%的新年目标在1个月内就被抛诸脑后。
所以,只是制定目标或计划,并没有解决根本问题。
美国作家詹姆斯·克利尔才会说:新的目标并不能带来新的结果,新的生活方式才能。生活方式是一个过程,而不是结果。因此,你所有的精力都应该投入到塑造更好的习惯中,而不是追求更好的结果。
好的习惯,才能带来好的生活方式和结果。
习惯是什么?
习惯是重复了足够多的次数后而变得自动化的行为。
简单来说,就是:重复、无意识、低成本
它的意义,不仅仅是机械的重复行为,还是身体的一种节能机制。习惯,还塑造着我们的身份认同和日常存在
好习惯的意义
今天,来聊聊,借助AI,帮助我们养成一个好习惯。
首先,我们需要定义,什么是好习惯?
好习惯是指,那些能够持续为我们的健康、效率、幸福感或个人成长带来积极影响的行为。
按照这个标准:阅读、冥想、运动、早起、写作、思考、做好事等等,都属于好习惯
好习惯如此之重要,是因为它们不仅仅在改变我们的行为,还在潜移默化中塑造我们的自我认知。
每一次我们执行一个积极的习惯,例如进行5分钟的冥想,都是在为“我是一个注重内心平静的人”这一身份投下一票
生活方式本质上是众多习惯的集合,当这些习惯被反复实践,它们不仅改变我们做什么,更重要的是改变我们认为自己是谁。
好习惯是自我提升的复利,这些微小的好习惯一旦建立,便会产生惊人的复利效应
一个每天阅读几页书的习惯,一年下来就能积累可观的知识量;一个每天进行短暂锻炼的习惯,长期坚持就能显著改善健康状况
如何轻松养成好习惯
我们需要用到福格博士提出的:福格行为模型
行为 = 动机 × 能力 × 触发器
-
动机:你想要做这件事的欲望有多强
-
能力:执行这个行为对你来说有多容易
-
触发器:提醒你执行这个行为的信号
只有当动机、能力和提示这三个要素同时存在,并且它们的综合强度越过某个“行动阈值线(Action Line)”时,行为才会真正发生

具体如何用?以养成阅读为例

说说我的实践
以这大半年每天要做的六个习惯为例:早起、冥想、读书/听书、写作、跑步/力量、英语学习
动力是相对好解决的,其次是能力,最后是提示。
重点说说提示锚定策略,为了养成这六个微习惯,每个微习惯,都有对应的提示锚定策略。
早起与六点的手表闹钟锚定,冥想与午睡或小憩时锚定,听书与开车锚定,看书与输入时间锚定,跑步与早起锚定…
按照这些锚定策略,养成一个又一个微习惯的难度,就很低了
哲学家芝诺回顾自己的一生时,曾说:“幸福通过小步骤积累而来,但它本身并不简单。”
上周飞书随笔的一个分享:
朋友圈看到别人健身打卡,激情冲进健身房办年卡,三天后肌肉酸痛再也没去,如何吸取教训?
普通反思: 下次循序渐进,别冲动办卡。
上升到哲学层面: 人的行动不是被“愿望”驱动,而是被“惯性”支撑;不先打造可持续的节奏或机制,再宏大的目标都会变成一次性激情消费。
愿望唤醒你,惯性托举你;缺了后者,前者只是一阵风。
愿你在微小却可重复的动作里,收获宏大而无需催促的改变。