从熵到Epiplexity：计算受限智能的信息重构

1核心问题

三个看似矛盾的问题

我们能从数据中学到比生成过程本身更多的信息吗？
确定性变换能否创造新的有用信息？
能否在不考虑下游任务的情况下评估数据中的可学习内容？

传统信息论（香农熵、柯尔莫哥洛夫复杂度）在这类问题上几乎束手无策，因为它们假设观察者拥有无限计算能力，且无法针对"有用信息"进行度量。

2核心贡献：Epiplexity

Epiplexity（表观复杂度）

一种形式化的信息度量，捕捉计算受限观察者能从数据中学到的内容。它包含数据的结构性内容，同时排除了时间受限的熵（如伪随机数生成器产生的不可预测内容）。

两个关键概念

概念	定义	实例
Epiplexity (S_T) 表观复杂度	计算受限观察者可学习的结构性信息	元胞自动机中的滑翔机模式、洛伦兹吸引子的结构
Time-Bounded Entropy (H_T) 时间受限熵	随机、不可预测的内容	伪随机数生成器输出、混沌系统的不可预测部分

3信息论的三个悖论

悖论 1：确定性变换不能增加信息

传统数据加工不等式认为，对数据进行确定性处理不会增加信息量。

矛盾：模拟元胞自动机或求解洛伦兹方程等确定性过程，确实能产生可学习的新结构（如滑翔机、吸引子）。

悖论 2：信息内容与数据顺序无关

香农熵和柯尔莫哥洛夫复杂度对数据排列顺序不敏感。

矛盾：实际学习中，数据排序（课程学习）对模型学习效果有显著影响。

悖论 3：似然建模只是分布匹配

传统观点认为，似然建模仅匹配训练分布，无法超越数据本身。

矛盾：AlphaZero 仅通过游戏规则和 RL 算法（两者都很简单）就学到了超人类策略，模型规模远大于输入描述。

解决方案：Epiplexity 框架下，这三个"悖论"不再是悖论——计算过程可以创造信息，信息依赖于数据顺序，似然建模可以产生比原始数据生成过程更复杂的程序。

4实际估计方法

1. Prequential 编码（近似方法）

使用神经网络在数据流上的损失曲线来估计 epiplexity：

S_T(X) ≈ min_M [L_M(X) + |M|]

其中 L_M(X) 是模型 M 在数据 X 上的累积损失，|M| 是模型描述长度。

2. Requential 编码（显式方法）

显式编码模型架构和权重，适用于模型蒸馏场景。

3. 基于扩展定律的估计

利用不同计算预算下的性能曲线，推断无限计算极限下的 epiplexity。

5实验验证

1. 元胞自动机（ECA）

某些规则（如 Rule 110）能产生高 epiplexity 的涌现结构（滑翔机）
Epiplexity 随模拟时间增加而增长
可预测初始条件 vs 随机初始条件有显著差异

2. 国际象棋

不同预训练数据源的 epiplexity 与 OOD 泛化性能相关
可帮助识别对泛化最有价值的数据子集

3. 自然语言（OpenWebText）

不同文档的 epiplexity 分布可用于数据选择
过滤低 epiplexity 数据可改善 OOD 性能

4. 课程学习效果

数据排序影响 epiplexity 累积
支持课程学习（curriculum learning）的有效性

6核心洞见

关键结论

计算创造信息：确定性计算过程（如模拟）可以从简单规则中产生复杂、可学习的结构。
数据顺序重要：与香农信息论不同，epiplexity 依赖于数据的呈现顺序，支持课程学习。
模型可以超越数据：似然建模可以产生比数据生成过程本身更复杂的程序（如 AlphaZero）。
数据选择的新基础：Epiplexity 为预训练数据选择、生成和转换提供了理论指导。

实际应用

合成数据生成：识别能产生高 epiplexity 的生成过程
数据筛选：优先选择高 epiplexity 的数据子集进行训练
课程设计：优化数据呈现顺序以最大化学习效果
OOD 泛化预测：使用 epiplexity 估计预测模型在新任务上的表现

7理论背景对比

理论	假设	局限性	Epiplexity 改进
香农信息论	统计分布无限精度	忽略计算成本无法区分结构/噪声	引入时间限制分离结构信息
柯尔莫哥洛夫复杂度	通用图灵机无限计算	不可计算忽略计算资源	时间受限版本可实际估计
MDL 原则	模型选择	针对固定数据不指导数据选择	数据选择框架动态评估数据价值

8作者信息

研究团队

Marc Finzi*, Shikai Qiu*, Yiding Jiang* （共同一作）

Pavel Izmailov, J. Zico Kolter, Andrew Gordon Wilson

🏫 卡内基梅隆大学 (CMU) · 🏫 纽约大学 (NYU)

从熵到 Epiplexity