AI的下半场

来自OpenAI研究员姚顺雨的一篇博客分享：

ysymyth.github.io

这张图，告诉我们：传统“刷榜”游戏已进入尾声，AI模型在标准题库上的领先优势正快速趋于满分

具体如下：

结论：AI已经进入“中场休息”

接下来会进入下一个阶段

第二阶段的游戏规则彻底改变：难题不再是“能不能训练出解题模型”，而是“应该让 AI 做什么、怎样衡量真正的进展”

虽然AI已经在围棋、SAT、律师资格考试、IOI/IMO 等人类基准上超越顶尖人类，但对 GDP 或现实生产力的提升仍有限，这就是目前这一阶段最大的问题

下一阶段，谁能提出打破旧假设、衡量真实价值的新评测，谁就可能催生下一个百亿/万亿级公司

那些仍在旧基准上做 5%-level 提升的渐进式方法，极可能被下一代o-series 模型直接“降维打击”。

下半场，需要重新定义AI的价值衡量标准，从”替代性”转向”创造性”

找到那些能真正释放AI潜力的应用场景，而不是简单地套用人类的工作模式

建立更接近实际应用的评测体系，可能需要完全摒弃传统的标准化测试思维

模型越强，提示词越重要

火山的发布会，分享了一张这样的照片：模型越强，提示词越重要

这个结论，与我跟向阳的讨论是一样的

这背后的逻辑：模型越强 → 能力越泛用 → “握方向盘”的提示词就越关键

大致原因，我的推测：

模型越强，指令越容易冲突，因为越强的模型对指令的遵循就越严谨，但提示词写不好，经常会出现各种自相矛盾的指令，让AI执行A，但另外一个指令又不让执行A
模型越强，潜力就越大。但这种潜力，需要更好的提示词来激发。在模型普遍没那么强的时候，好的提示词和普通提示词的差距可能是10倍，但未来的差距也许会变成100倍，甚至1000倍
模型越强，任务的复杂度，会随着我们的目标要求而不断增加，如果提示词缺乏层级与结构，关键信息会被噪声淹没

这里的关键，就是对提示词工程的定义，如果把它定义为“对模型意图与约束的设计”，会越来越重要

长尾收益

ROI，投资回报率 = 收益 / 成本

影响ROI的因素，有两个，与收益成正比，与成本成反比

要想提高ROI，要么提高收益能力，要么降低成本

提高收益往往很难，但降低成本，总会有各种办法

朋友今天分享了下他的一个投放案例

他每年在百度上要投入一些广告，今年发现，跟目标群体相关的长尾流量效果也很好

通过关键词工具和投放后台的推荐系统，持续迭代大量没有竞争的长尾关键词，出价0.5元

这和那些动不动就几块甚至十几块的流量，成本差了很多倍

于是，也终于在百度能有利润了

这确实是一个不错的长尾流量策略案例

虽然量级不大，但算下来，这个策略，也能每年多出个百万左右的利润了

小公司就应该有这样的长尾思维，尽量避免红海

光环效应

看到一个段子

以前投资人对泡泡玛特创始人的评价：创始人学历平平，没正经上过班，说起话来表情平静，没感染力，团队也没精英。

上市后，每一位投资人都提到：王宁性格沉稳、话不多，喜怒不形于色，拥有「消费创业者」的许多优良品格。

你的未来才决定了你的过去

这也是典型的光环效应

就像考上清华的学生容易被夸专注，考得很差的就容易被评价为死读书

本质上是同一个行为，结果不同，评价就不同

我们总是倾向于用结果来重新诠释过程

成功会美化一切，失败也会污名化一切

人们习惯性地寻找因果关系，即使这种因果可能并不成立

所以：

不要过分在意外界评价，这种评价本身就充满了不确定性

真正重要的，是专注于把事情做好，而不是讨好别人

有时候”缺点”恰恰可能成为优势，比如我从小不爱与别人玩，喜欢独处，反而收获了一种不被大人影响的空间

如果有朝一日，因为有了一些成果被夸，也需要保持清醒，毕竟，外部的归因，大概率并不准确

温柔的奇点

blog.samaltman.com

核心结论：奥特曼认为人类已进入温和的奇点早期

技术已经完成了最难的阶段

接下来的重点任务，是工程化与规模化，把它们推向更大规模、更高效应用

几个时间线的预测：

- 2025：能胜任真实认知工作的智能代理出现

- 2026：系统开始自己提出“真正新颖”的科学见解

- 2027：通用机器人走入现实世界

- 2030：个人产出比 2020 年暴增，写代码、做研究、创作艺术的门槛大幅下降

还有一些结论：

AI的最大红利，是加速科学，人类的生命质量与寿命的提升将远超历史任何时期
“智能＋能源”将变得极度充裕，当数据中心与机器人能够自我复制、自我扩张，智力成本可逼近“电价”；这将打破数千年来限制人类进步的两大瓶颈：点子（智能）和把点子实现的能力（能源、自动化）
更强AI → 更快科研 → 更强 AI；加上机器人生产机器人、数据中心建更多数据中心，技术进步呈复利式加速
大量岗位会消失，但财富增速也会前所未有，但也不用担心，历史表明人类总能创造“看似假却重要”的新工作，且对新工具适应迅速
Altman把OpenAI描述为“超级智能研究公司”。目标是把“智力成本降到接近零”（intelligence too cheap to meter），并尽量让奇点过程“平滑、指数、无大波折”地到来
未来十年里，AI + 机器人带来爆炸式技术—经济增长；关键在于先搞定对齐，再确保人人都能廉价使用超级智能，从而把巨大利益与潜在风险一起纳入可控轨道

对个人或AI创业者有什么启示

把自己定位成“人-AI 协作链中的耦合器”，未来分工重点是是“谁能把AI套进流程、再把流程套进商业”，这对有成熟业务场景的公司有利好
围绕“工程化与规模化”做产品，而非单点Demo
盯住“数据闭环”而不是模型闭环，所有的用户数据应该是能够通过AI实现一定的数据飞轮效应，这种模式才更容易借助AI进行放大
Altman 预测2025代理胜任真实认知工作，尽可能的在今年或者明年完成“智能代理”商品化
关注或打造“看似假却重要”的新岗位，比如“AI结果审核师”“提示词工程师”
多关注目前各种AI工程应用落地的案例，找到适合自己的案例

多智能体策略

Claude团队发布了一个关于多智能体系统的研究报告，原文如下：anthropic.com

他们经过试验评估表明，多智能体系统特别擅长需要同时进行多个独立方向的广度优先查询。

数据表明：多智能体组合，在内部评测中相较单体Claude Opus 4，完成表现提升了90.2%

再强的个人，也比不上有效的“团队协作”，AI也是如此

Claude团队还分享了关于智能体提示词的8个原则，对我们设计智能体，也有很大的启发和参考。

核心关键：提示词策略的核心，是教智能体“用对思路”而不是死记规则

团队重点观察人类专家是怎么做研究的，然后把这些经验总结后写进提示词里，比如：如何拆解问题、如何判断信息质量、什么时候转变搜索方向、什么时候该深入一个点、什么时候该广泛了解更多领域等。

这就是：真正的专家+AI这个放大器，才能形成生产力

这8个原则，整理如下：

1. 理解智能体的决策逻辑

核心思路： 把自己当作智能体，弄清它是怎么理解任务、怎么查信息、怎么选工具。
操作建议： 用开发工具模拟Agent执行流程，观察它是否重复搜索、词太长、工具选错。
对创业者的价值： 像调试程序一样调试Agent行为，有助于排查“为什么答错”这类黑箱问题。

2. 让主控智能体学会“派任务”

核心思路： 像项目经理一样分工明确。
操作建议： 在提示词中写清每个子任务的目标、输出格式、使用工具及边界。
对创业者的价值： 合理拆分任务是实现高效Agent协作的基础，尤其适用于复杂业务流程。

3. 任务越复杂，资源越要匹配

核心思路： 简单的任务少派Agent，复杂的任务多分人查。
操作建议： 在提示词中预设资源使用上限，比如工具调用次数、智能体数量。
对创业者的价值： 控制资源使用，降低不必要的token成本。

4. 工具设计要像做API一样清晰

核心思路： 工具功能越明确，Agent执行越高效。
操作建议： 每个工具要有清楚的描述、输入格式、输出预期。
对创业者的价值： 工具好不好用，直接影响Agent能不能完成任务。

5. 智能体可以自己优化自己

核心思路： Claude能看懂失败原因，也能帮你写更好的提示词。
操作建议： 给模型一些失败案例，提示它帮你改提示词或工具说明。
对创业者的价值： 可以把提示词优化这件事半自动化，省人力。

6. 搜索策略先广再深

核心思路： 先扫一圈，再决定深入哪里。
操作建议： 引导Agent先用宽泛关键词了解大局，再细查重点方向。
对创业者的价值： 提高搜索命中率，减少“查不到信息”的问题。

7. 思考→行动，提升执行质量

核心思路： 让Agent先想清楚再动手。
操作建议： 开启“延展思维模式”，写出行动策略和中间分析。
对创业者的价值： 提升任务执行准确率，特别适用于多轮推理型任务。

8. 并行执行任务，大幅提速

核心思路： 同时派出多个智能体、同时调用多个工具。
操作建议： 改用并行架构，避免串行带来的延迟。
对创业者的价值： 研究类任务提速90%，显著提升用户体验。

如何养成习惯

有研究报告表明：92%的新年目标在1个月内就被抛诸脑后。

所以，只是制定目标或计划，并没有解决根本问题。

美国作家詹姆斯·克利尔才会说：新的目标并不能带来新的结果，新的生活方式才能。生活方式是一个过程，而不是结果。因此，你所有的精力都应该投入到塑造更好的习惯中，而不是追求更好的结果。

好的习惯，才能带来好的生活方式和结果。

习惯是什么？

习惯是重复了足够多的次数后而变得自动化的行为。

简单来说，就是：重复、无意识、低成本

它的意义，不仅仅是机械的重复行为，还是身体的一种节能机制。习惯，还塑造着我们的身份认同和日常存在

好习惯的意义

今天，来聊聊，借助AI，帮助我们养成一个好习惯。

首先，我们需要定义，什么是好习惯？

好习惯是指，那些能够持续为我们的健康、效率、幸福感或个人成长带来积极影响的行为。

按照这个标准：阅读、冥想、运动、早起、写作、思考、做好事等等，都属于好习惯

好习惯如此之重要，是因为它们不仅仅在改变我们的行为，还在潜移默化中塑造我们的自我认知。

每一次我们执行一个积极的习惯，例如进行5分钟的冥想，都是在为“我是一个注重内心平静的人”这一身份投下一票

生活方式本质上是众多习惯的集合，当这些习惯被反复实践，它们不仅改变我们做什么，更重要的是改变我们认为自己是谁。

好习惯是自我提升的复利，这些微小的好习惯一旦建立，便会产生惊人的复利效应

一个每天阅读几页书的习惯，一年下来就能积累可观的知识量；一个每天进行短暂锻炼的习惯，长期坚持就能显著改善健康状况

如何轻松养成好习惯

我们需要用到福格博士提出的：福格行为模型

行为 = 动机 × 能力 × 触发器

动机：你想要做这件事的欲望有多强
能力：执行这个行为对你来说有多容易
触发器：提醒你执行这个行为的信号

只有当动机、能力和提示这三个要素同时存在，并且它们的综合强度越过某个“行动阈值线（Action Line）”时，行为才会真正发生

具体如何用？以养成阅读为例

说说我的实践

以这大半年每天要做的六个习惯为例：早起、冥想、读书/听书、写作、跑步/力量、英语学习

动力是相对好解决的，其次是能力，最后是提示。

重点说说提示锚定策略，为了养成这六个微习惯，每个微习惯，都有对应的提示锚定策略。

早起与六点的手表闹钟锚定，冥想与午睡或小憩时锚定，听书与开车锚定，看书与输入时间锚定，跑步与早起锚定…

按照这些锚定策略，养成一个又一个微习惯的难度，就很低了

哲学家芝诺回顾自己的一生时，曾说：“幸福通过小步骤积累而来，但它本身并不简单。”

上周飞书随笔的一个分享：

朋友圈看到别人健身打卡，激情冲进健身房办年卡，三天后肌肉酸痛再也没去，如何吸取教训？

普通反思：下次循序渐进，别冲动办卡。

上升到哲学层面：人的行动不是被“愿望”驱动，而是被“惯性”支撑；不先打造可持续的节奏或机制，再宏大的目标都会变成一次性激情消费。

愿望唤醒你，惯性托举你；缺了后者，前者只是一阵风。

愿你在微小却可重复的动作里，收获宏大而无需催促的改变。