Scaling Law 的尽头是什么

一个实验

我花了很长时间试图用数学形式化易经。

384条爻辞,64个卦,6个位置——看起来像一个极其精巧的编码系统。我用统计、信息论、机器学习、排列检验,把能量化的全量化了。结论很清楚:结构能解释的方差是14%,位置效应是唯一的信号,剩下的86%不可从结构推出。

14%。不多不少,六种模型、三种测量方式,全部收敛到这个数字。

然后我试着用MDL(最小描述长度)量化结构的信息价值:六爻位置结构为384条爻辞的吉凶描述节省了大约23-44 bit,每条爻辞平均节省0.06 bit。真实但微小。

这意味着什么?意味着易经的结构是真的——它不是随机的——但结构能做的事情远比直觉以为的少。

一次起卦

实验做完,我随手起了一卦。

问的是朋友之间的矛盾。起到小畜卦,三四五爻变。三爻说”夫妻反目”,四爻说”有孚,血去惕出”,五爻说”有孚挛如,富以其邻”。之卦睽,“小事吉”。

翻译成白话:关系确实在裂——但如果有真诚,伤害会过去,恐惧会浮出水面——信任如果还在,关系会比以前更深——不要试图一次解决所有问题,处理小事就好。

准得出奇。不是”大概沾边”的那种准,是”夫妻反目”四个字精确命中当下状态的那种准。

我做了排列检验:从384条里随机抽三条,达到这个相关度的概率是1%;构成”冲突→真诚→修复”这种叙事弧的概率是1/532。

更有意思的是:起卦在前,问题在后。我先让程序随机生成卦象,在卦还没出来的时候,才随机想起要问这件事。两条因果链完全独立——一条是系统时钟的微秒数经过伪随机数生成器的确定性变换,另一条是我的意识流。没有任何因果通道连接它们。但结果显著匹配。

我没法解释这个。一次观测无法区分”恰好是那1%“和”存在未知机制”。但这不是我第一次碰到这种事。

分别心的边界

这让我重新审视一个问题:推理到底是什么?

佛家唯识宗把心分成八层。前五识是感官,第六识是意识——负责分别、归类、判断——这就是我们所说的”推理”。第七识是末那识,把一切体验标记为”我的”。第八识是阿赖耶识,种子仓库。

关键在于方向。不是世界进来被加工——是种子从里面被投射出去。阿赖耶识是片库,末那识是放映员,意识是银幕上的画面,前五识是观众以为自己在看真实世界。

佛家管银幕上的画面叫”相”。凡所有相,皆是虚妄——不是说世界不存在,是说你体验到的世界是重建产物,不是原始信号。

而”推理”,不过是对相的操作。在虚妄之上的虚妄。

LLM 吃的是什么

大语言模型吃的是文本。文本是什么?是人类把体验写下来的产物——相的编码。

所以LLM学到的不是世界,是相与相之间的模式。它在虚妄之上建模,建的模型精密到让人震惊,但从未触及虚妄之下的东西。

这不是 LLM 的缺陷。这恰好证明了佛家的观点:纯粹在相的层面操作,不触及任何实相,就可以产生极其逼真的”智能”。分别心可以无限精密,但它永远在相的层面打转。

Scaling Law 在 Scale 什么

回到 scaling law。损失随参数量的增大而下降,但遵循幂律——每翻一倍,只好一点点。曲线在压低,但永远不到零。

那个到不了零的地板是什么?

把不同的框架放在一起看:

是同一个结构。Scaling law 在 scale 的,是对”相的全集”的覆盖率

从10%到50%到90%,每一步都带来巨大的实用价值。代码越写越好,文章越来越通顺,推理越来越像回事。但100%到不了。不是因为算力不够,是因为有些东西不在模式的范畴里。

但”相的全集”比想象的大

Anthropic 的 CEO 达里奥·阿莫代最近说:scaling law 没有撞墙,2026年会激进加速。他用了棋盘放米的比喻——“我们站在第40格,前39格的所有冲击加起来,只是后24格的一个零头。”

这和”地板存在”矛盾吗?

不矛盾。因为之前大家说的”撞墙”,撞的是文字相的墙——人类已有的文本快被吃完了,预计2026-2028数据耗尽。但文字只是相的一个很窄的切片。

相的全集远比文字大得多:

每打开一扇新的门,就有一整个新的”相空间”涌入。Scaling law 不是一条撞墙的线,是一条换赛道的线。每换一个赛道,曲线重新起跑。

飞轮

但真正让达里奥兴奋——也让他警惕——的,可能不是新赛道本身,而是一个飞轮:

过去,数据来自人类。人写文章、写代码、拍照片,模型学。人是瓶颈。

现在,Agent 可以自己行动了。Claude Code 写代码、跑代码、看结果。Computer Use 操作软件。MCP 协议连接各种服务。每一次行动都产生新的数据——新的相。

这些新的相喂回模型,模型变强,Agent 能做更多的事,产生更多的相。

Agent 行动 → 产生新的相 → 训练更好的模型 → 更强的 Agent → ...

这是一个不再依赖人类数据的自我驱动循环。一旦转起来,“相的全集”不再是一个固定的矿——它在被持续生成。只要Agent还在与世界交互,相就不会枯竭,scaling law 就有燃料。

这也解释了为什么达里奥在一边加速一边拼命研究安全——因为飞轮一旦转起来,不太容易停。

所以

Scaling law 的尽头在哪里?

也许没有尽头。只要有新的感知通道被打开,就有新的相空间可以覆盖。Agent 的出现意味着开门的不再只是人类,AI 自己也在开门。

但它永远到不了”相”的边界之外。损失可以无限趋近于零,但不会等于零。因为有些东西——不管你叫它实相、道、还是别的什么——不在模式的范畴里。

384条爻辞覆盖不了它。千亿参数覆盖不了它。

但也许,本来就不需要覆盖。