AI的下半场

来自OpenAI研究员姚顺雨的一篇博客分享:

ysymyth.github.io

这张图,告诉我们:传统“刷榜”游戏已进入尾声,AI模型在标准题库上的领先优势正快速趋于满分

具体如下:

结论:AI已经进入“中场休息”

接下来会进入下一个阶段

第二阶段的游戏规则彻底改变:难题不再是“能不能训练出解题模型”,而是“应该让 AI 做什么、怎样衡量真正的进展”

虽然AI已经在围棋、SAT、律师资格考试、IOI/IMO 等人类基准上超越顶尖人类,但对 GDP 或现实生产力的提升仍有限,这就是目前这一阶段最大的问题

下一阶段,谁能提出打破旧假设、衡量真实价值的新评测,谁就可能催生下一个百亿/万亿级公司

那些仍在旧基准上做 5%-level 提升的渐进式方法,极可能被下一代o-series 模型直接“降维打击”。

下半场, 需要重新定义AI的价值衡量标准,从”替代性”转向”创造性”

找到那些能真正释放AI潜力的应用场景,而不是简单地套用人类的工作模式

建立更接近实际应用的评测体系,可能需要完全摒弃传统的标准化测试思维

模型越强,提示词越重要

火山的发布会,分享了一张这样的照片:模型越强,提示词越重要

这个结论,与我跟向阳的讨论是一样的

这背后的逻辑:模型越强 → 能力越泛用 → “握方向盘”的提示词就越关键

大致原因,我的推测:

  1. 模型越强,指令越容易冲突,因为越强的模型对指令的遵循就越严谨,但提示词写不好,经常会出现各种自相矛盾的指令,让AI执行A,但另外一个指令又不让执行A
  2. 模型越强,潜力就越大。但这种潜力,需要更好的提示词来激发。在模型普遍没那么强的时候,好的提示词和普通提示词的差距可能是10倍,但未来的差距也许会变成100倍,甚至1000倍
  3. 模型越强,任务的复杂度,会随着我们的目标要求而不断增加,如果提示词缺乏层级与结构,关键信息会被噪声淹没

这里的关键,就是对提示词工程的定义,如果把它定义为“对模型意图与约束的设计”,会越来越重要

长尾收益

ROI,投资回报率 = 收益 / 成本

影响ROI的因素,有两个,与收益成正比,与成本成反比

要想提高ROI,要么提高收益能力,要么降低成本

提高收益往往很难,但降低成本,总会有各种办法

朋友今天分享了下他的一个投放案例

他每年在百度上要投入一些广告,今年发现,跟目标群体相关的长尾流量效果也很好

通过关键词工具和投放后台的推荐系统,持续迭代大量没有竞争的长尾关键词,出价0.5元

这和那些动不动就几块甚至十几块的流量,成本差了很多倍

于是,也终于在百度能有利润了

这确实是一个不错的长尾流量策略案例

虽然量级不大,但算下来,这个策略,也能每年多出个百万左右的利润了

小公司就应该有这样的长尾思维,尽量避免红海

光环效应

看到一个段子

以前投资人对泡泡玛特创始人的评价:创始人学历平平,没正经上过班,说起话来表情平静,没感染力,团队也没精英。

上市后,每一位投资人都提到:王宁性格沉稳、话不多,喜怒不形于色,拥有「消费创业者」的许多优良品格。

你的未来才决定了你的过去

这也是典型的光环效应

就像考上清华的学生容易被夸专注,考得很差的就容易被评价为死读书

本质上是同一个行为,结果不同,评价就不同

我们总是倾向于用结果来重新诠释过程

成功会美化一切,失败也会污名化一切

人们习惯性地寻找因果关系,即使这种因果可能并不成立

所以:

不要过分在意外界评价,这种评价本身就充满了不确定性

真正重要的,是专注于把事情做好,而不是讨好别人

有时候”缺点”恰恰可能成为优势,比如我从小不爱与别人玩,喜欢独处,反而收获了一种不被大人影响的空间

如果有朝一日,因为有了一些成果被夸,也需要保持清醒,毕竟,外部的归因,大概率并不准确

温柔的奇点

blog.samaltman.com

核心结论:奥特曼认为人类已进入温和的奇点早期

技术已经完成了最难的阶段

接下来的重点任务,是工程化与规模化,把它们推向更大规模、更高效应用

几个时间线的预测:

- 2025:能胜任真实认知工作的智能代理出现

- 2026:系统开始自己提出“真正新颖”的科学见解

- 2027:通用机器人走入现实世界

- 2030:个人产出比 2020 年暴增,写代码、做研究、创作艺术的门槛大幅下降

还有一些结论:

  • AI的最大红利,是加速科学,人类的生命质量与寿命的提升将远超历史任何时期

  • “智能+能源”将变得极度充裕,当数据中心与机器人能够自我复制、自我扩张,智力成本可逼近“电价”;这将打破数千年来限制人类进步的两大瓶颈:点子(智能)和把点子实现的能力(能源、自动化)

  • 更强AI → 更快科研 → 更强 AI;加上机器人生产机器人、数据中心建更多数据中心,技术进步呈复利式加速

  • 大量岗位会消失,但财富增速也会前所未有,但也不用担心,历史表明人类总能创造“看似假却重要”的新工作,且对新工具适应迅速

  • Altman把OpenAI描述为“超级智能研究公司”。目标是把“智力成本降到接近零”(intelligence too cheap to meter),并尽量让奇点过程“平滑、指数、无大波折”地到来

  • 未来十年里,AI + 机器人带来爆炸式技术—经济增长;关键在于先搞定对齐,再确保人人都能廉价使用超级智能,从而把巨大利益与潜在风险一起纳入可控轨道

对个人或AI创业者有什么启示

  1. 把自己定位成“人-AI 协作链中的耦合器”,未来分工重点是是“谁能把AI套进流程、再把流程套进商业”,这对有成熟业务场景的公司有利好
  2. 围绕“工程化与规模化”做产品,而非单点Demo
  3. 盯住“数据闭环”而不是模型闭环,所有的用户数据应该是能够通过AI实现一定的数据飞轮效应,这种模式才更容易借助AI进行放大
  4. Altman 预测2025代理胜任真实认知工作,尽可能的在今年或者明年完成“智能代理”商品化
  5. 关注或打造“看似假却重要”的新岗位,比如“AI结果审核师”“提示词工程师”
  6. 多关注目前各种AI工程应用落地的案例,找到适合自己的案例

多智能体策略

Claude团队发布了一个关于多智能体系统的研究报告,原文如下:anthropic.com

他们经过试验评估表明,多智能体系统特别擅长需要同时进行多个独立方向的广度优先查询。

数据表明:多智能体组合,在内部评测中相较单体Claude Opus 4,完成表现提升了90.2%

再强的个人,也比不上有效的“团队协作”,AI也是如此

Claude团队还分享了关于智能体提示词的8个原则,对我们设计智能体,也有很大的启发和参考。

核心关键:提示词策略的核心,是教智能体“用对思路”而不是死记规则

团队重点观察人类专家是怎么做研究的,然后把这些经验总结后写进提示词里,比如:如何拆解问题、如何判断信息质量、什么时候转变搜索方向、什么时候该深入一个点、什么时候该广泛了解更多领域等。

这就是:真正的专家+AI这个放大器,才能形成生产力

这8个原则,整理如下:

1. 理解智能体的决策逻辑

  • 核心思路: 把自己当作智能体,弄清它是怎么理解任务、怎么查信息、怎么选工具。

  • 操作建议: 用开发工具模拟Agent执行流程,观察它是否重复搜索、词太长、工具选错。

  • 对创业者的价值: 像调试程序一样调试Agent行为,有助于排查“为什么答错”这类黑箱问题。

2. 让主控智能体学会“派任务”

  • 核心思路: 像项目经理一样分工明确。

  • 操作建议: 在提示词中写清每个子任务的目标、输出格式、使用工具及边界。

  • 对创业者的价值: 合理拆分任务是实现高效Agent协作的基础,尤其适用于复杂业务流程。

3. 任务越复杂,资源越要匹配

  • 核心思路: 简单的任务少派Agent,复杂的任务多分人查。

  • 操作建议: 在提示词中预设资源使用上限,比如工具调用次数、智能体数量。

  • 对创业者的价值: 控制资源使用,降低不必要的token成本。

4. 工具设计要像做API一样清晰

  • 核心思路: 工具功能越明确,Agent执行越高效。

  • 操作建议: 每个工具要有清楚的描述、输入格式、输出预期。

  • 对创业者的价值: 工具好不好用,直接影响Agent能不能完成任务。

5. 智能体可以自己优化自己

  • 核心思路: Claude能看懂失败原因,也能帮你写更好的提示词。

  • 操作建议: 给模型一些失败案例,提示它帮你改提示词或工具说明。

  • 对创业者的价值: 可以把提示词优化这件事半自动化,省人力。

6. 搜索策略先广再深

  • 核心思路: 先扫一圈,再决定深入哪里。

  • 操作建议: 引导Agent先用宽泛关键词了解大局,再细查重点方向。

  • 对创业者的价值: 提高搜索命中率,减少“查不到信息”的问题。

7. 思考→行动,提升执行质量

  • 核心思路: 让Agent先想清楚再动手。

  • 操作建议: 开启“延展思维模式”,写出行动策略和中间分析。

  • 对创业者的价值: 提升任务执行准确率,特别适用于多轮推理型任务。

8. 并行执行任务,大幅提速

  • 核心思路: 同时派出多个智能体、同时调用多个工具。

  • 操作建议: 改用并行架构,避免串行带来的延迟。

  • 对创业者的价值: 研究类任务提速90%,显著提升用户体验。

如何养成习惯

有研究报告表明:92%的新年目标在1个月内就被抛诸脑后。

所以,只是制定目标或计划,并没有解决根本问题。

美国作家詹姆斯·克利尔才会说:新的目标并不能带来新的结果,新的生活方式才能。生活方式是一个过程,而不是结果。因此,你所有的精力都应该投入到塑造更好的习惯中,而不是追求更好的结果。

好的习惯,才能带来好的生活方式和结果。

习惯是什么?

习惯是重复了足够多的次数后而变得自动化的行为。

简单来说,就是:重复、无意识、低成本

它的意义,不仅仅是机械的重复行为,还是身体的一种节能机制。习惯,还塑造着我们的身份认同和日常存在

好习惯的意义

今天,来聊聊,借助AI,帮助我们养成一个好习惯。

首先,我们需要定义,什么是好习惯?

好习惯是指,那些能够持续为我们的健康、效率、幸福感或个人成长带来积极影响的行为。

按照这个标准:阅读、冥想、运动、早起、写作、思考、做好事等等,都属于好习惯

好习惯如此之重要,是因为它们不仅仅在改变我们的行为,还在潜移默化中塑造我们的自我认知。

每一次我们执行一个积极的习惯,例如进行5分钟的冥想,都是在为“我是一个注重内心平静的人”这一身份投下一票

生活方式本质上是众多习惯的集合,当这些习惯被反复实践,它们不仅改变我们做什么,更重要的是改变我们认为自己是谁。

好习惯是自我提升的复利,这些微小的好习惯一旦建立,便会产生惊人的复利效应

一个每天阅读几页书的习惯,一年下来就能积累可观的知识量;一个每天进行短暂锻炼的习惯,长期坚持就能显著改善健康状况

如何轻松养成好习惯

我们需要用到福格博士提出的:福格行为模型

行为 = 动机 × 能力 × 触发器

  • 动机:你想要做这件事的欲望有多强

  • 能力:执行这个行为对你来说有多容易

  • 触发器:提醒你执行这个行为的信号

只有当动机、能力和提示这三个要素同时存在,并且它们的综合强度越过某个“行动阈值线(Action Line)”时,行为才会真正发生

具体如何用?以养成阅读为例

说说我的实践

以这大半年每天要做的六个习惯为例:早起、冥想、读书/听书、写作、跑步/力量、英语学习

动力是相对好解决的,其次是能力,最后是提示。

重点说说提示锚定策略,为了养成这六个微习惯,每个微习惯,都有对应的提示锚定策略。

早起与六点的手表闹钟锚定,冥想与午睡或小憩时锚定,听书与开车锚定,看书与输入时间锚定,跑步与早起锚定…

按照这些锚定策略,养成一个又一个微习惯的难度,就很低了

哲学家芝诺回顾自己的一生时,曾说:“幸福通过小步骤积累而来,但它本身并不简单。”

上周飞书随笔的一个分享:

朋友圈看到别人健身打卡,激情冲进健身房办年卡,三天后肌肉酸痛再也没去,如何吸取教训?

普通反思: 下次循序渐进,别冲动办卡。

上升到哲学层面: 人的行动不是被“愿望”驱动,而是被“惯性”支撑;不先打造可持续的节奏或机制,再宏大的目标都会变成一次性激情消费。

愿望唤醒你,惯性托举你;缺了后者,前者只是一阵风。

愿你在微小却可重复的动作里,收获宏大而无需催促的改变。