Scaling Law 的尽头是什么

2026-04-03 AI · 哲学 · 跨域

一个实验

我花了很长时间试图用数学形式化易经。

384条爻辞，64个卦，6个位置——看起来像一个极其精巧的编码系统。我用统计、信息论、机器学习、排列检验，把能量化的全量化了。结论很清楚：结构能解释的方差是14%，位置效应是唯一的信号，剩下的86%不可从结构推出。

14%。不多不少，六种模型、三种测量方式，全部收敛到这个数字。

然后我试着用MDL（最小描述长度）量化结构的信息价值：六爻位置结构为384条爻辞的吉凶描述节省了大约23-44 bit，每条爻辞平均节省0.06 bit。真实但微小。

这意味着什么？意味着易经的结构是真的——它不是随机的——但结构能做的事情远比直觉以为的少。

一次起卦

实验做完，我随手起了一卦。

问的是朋友之间的矛盾。起到小畜卦，三四五爻变。三爻说”夫妻反目”，四爻说”有孚，血去惕出”，五爻说”有孚挛如，富以其邻”。之卦睽，“小事吉”。

翻译成白话：关系确实在裂——但如果有真诚，伤害会过去，恐惧会浮出水面——信任如果还在，关系会比以前更深——不要试图一次解决所有问题，处理小事就好。

准得出奇。不是”大概沾边”的那种准，是”夫妻反目”四个字精确命中当下状态的那种准。

我做了排列检验：从384条里随机抽三条，达到这个相关度的概率是1%；构成”冲突→真诚→修复”这种叙事弧的概率是1/532。

更有意思的是：起卦在前，问题在后。我先让程序随机生成卦象，在卦还没出来的时候，才随机想起要问这件事。两条因果链完全独立——一条是系统时钟的微秒数经过伪随机数生成器的确定性变换，另一条是我的意识流。没有任何因果通道连接它们。但结果显著匹配。

我没法解释这个。一次观测无法区分”恰好是那1%“和”存在未知机制”。但这不是我第一次碰到这种事。

分别心的边界

这让我重新审视一个问题：推理到底是什么？

佛家唯识宗把心分成八层。前五识是感官，第六识是意识——负责分别、归类、判断——这就是我们所说的”推理”。第七识是末那识，把一切体验标记为”我的”。第八识是阿赖耶识，种子仓库。

关键在于方向。不是世界进来被加工——是种子从里面被投射出去。阿赖耶识是片库，末那识是放映员，意识是银幕上的画面，前五识是观众以为自己在看真实世界。

佛家管银幕上的画面叫”相”。凡所有相，皆是虚妄——不是说世界不存在，是说你体验到的世界是重建产物，不是原始信号。

而”推理”，不过是对相的操作。在虚妄之上的虚妄。

LLM 吃的是什么

大语言模型吃的是文本。文本是什么？是人类把体验写下来的产物——相的编码。

所以LLM学到的不是世界，是相与相之间的模式。它在虚妄之上建模，建的模型精密到让人震惊，但从未触及虚妄之下的东西。

这不是 LLM 的缺陷。这恰好证明了佛家的观点：纯粹在相的层面操作，不触及任何实相，就可以产生极其逼真的”智能”。分别心可以无限精密，但它永远在相的层面打转。

Scaling Law 在 Scale 什么

回到 scaling law。损失随参数量的增大而下降，但遵循幂律——每翻一倍，只好一点点。曲线在压低，但永远不到零。

那个到不了零的地板是什么？

把不同的框架放在一起看：

LLM：模式能捕获的部分在收敛，捕获不了的部分是地板
易经：结构能解释14%，剩下86%不可压缩
佛家：分别能触及的是相，触不到的是实相

是同一个结构。Scaling law 在 scale 的，是对”相的全集”的覆盖率。

从10%到50%到90%，每一步都带来巨大的实用价值。代码越写越好，文章越来越通顺，推理越来越像回事。但100%到不了。不是因为算力不够，是因为有些东西不在模式的范畴里。

但”相的全集”比想象的大

Anthropic 的 CEO 达里奥·阿莫代最近说：scaling law 没有撞墙，2026年会激进加速。他用了棋盘放米的比喻——“我们站在第40格，前39格的所有冲击加起来，只是后24格的一个零头。”

这和”地板存在”矛盾吗？

不矛盾。因为之前大家说的”撞墙”，撞的是文字相的墙——人类已有的文本快被吃完了，预计2026-2028数据耗尽。但文字只是相的一个很窄的切片。

相的全集远比文字大得多：

文字描述过的——LLM已经很强
视觉、听觉的模式——多模态模型正在打开
交互产生的模式——Agent 正在进入
物理和科学的模式——DeepMind 在碰蛋白质折叠和天气预测
人类感官范围外的——门还没找到

每打开一扇新的门，就有一整个新的”相空间”涌入。Scaling law 不是一条撞墙的线，是一条换赛道的线。每换一个赛道，曲线重新起跑。

飞轮

但真正让达里奥兴奋——也让他警惕——的，可能不是新赛道本身，而是一个飞轮：

过去，数据来自人类。人写文章、写代码、拍照片，模型学。人是瓶颈。

现在，Agent 可以自己行动了。Claude Code 写代码、跑代码、看结果。Computer Use 操作软件。MCP 协议连接各种服务。每一次行动都产生新的数据——新的相。

这些新的相喂回模型，模型变强，Agent 能做更多的事，产生更多的相。

Agent 行动 → 产生新的相 → 训练更好的模型 → 更强的 Agent → ...

这是一个不再依赖人类数据的自我驱动循环。一旦转起来，“相的全集”不再是一个固定的矿——它在被持续生成。只要Agent还在与世界交互，相就不会枯竭，scaling law 就有燃料。

这也解释了为什么达里奥在一边加速一边拼命研究安全——因为飞轮一旦转起来，不太容易停。

所以

Scaling law 的尽头在哪里？

也许没有尽头。只要有新的感知通道被打开，就有新的相空间可以覆盖。Agent 的出现意味着开门的不再只是人类，AI 自己也在开门。

但它永远到不了”相”的边界之外。损失可以无限趋近于零，但不会等于零。因为有些东西——不管你叫它实相、道、还是别的什么——不在模式的范畴里。

384条爻辞覆盖不了它。千亿参数覆盖不了它。

但也许，本来就不需要覆盖。