论文解读 · 信息论 · 2026.03

从熵到 Epiplexity

计算受限智能的信息重构

From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence

📄 arXiv:2601.03220 📅 2026年1月 🎓 CMU & NYU
查看原论文 →
← 返回报告列表

1核心问题

三个看似矛盾的问题

  1. 我们能从数据中学到比生成过程本身更多的信息吗?
  2. 确定性变换能否创造新的有用信息?
  3. 能否在不考虑下游任务的情况下评估数据中的可学习内容?

传统信息论(香农熵、柯尔莫哥洛夫复杂度)在这类问题上几乎束手无策,因为它们假设观察者拥有无限计算能力,且无法针对"有用信息"进行度量。

2核心贡献:Epiplexity

Epiplexity(表观复杂度)

一种形式化的信息度量,捕捉计算受限观察者能从数据中学到的内容。它包含数据的结构性内容,同时排除了时间受限的熵(如伪随机数生成器产生的不可预测内容)。

两个关键概念

概念 定义 实例
Epiplexity (ST)
表观复杂度
计算受限观察者可学习的结构性信息 元胞自动机中的滑翔机模式、洛伦兹吸引子的结构
Time-Bounded Entropy (HT)
时间受限熵
随机、不可预测的内容 伪随机数生成器输出、混沌系统的不可预测部分

3信息论的三个悖论

悖论 1:确定性变换不能增加信息

传统数据加工不等式认为,对数据进行确定性处理不会增加信息量。

矛盾:模拟元胞自动机或求解洛伦兹方程等确定性过程,确实能产生可学习的新结构(如滑翔机、吸引子)。

悖论 2:信息内容与数据顺序无关

香农熵和柯尔莫哥洛夫复杂度对数据排列顺序不敏感。

矛盾:实际学习中,数据排序(课程学习)对模型学习效果有显著影响。

悖论 3:似然建模只是分布匹配

传统观点认为,似然建模仅匹配训练分布,无法超越数据本身。

矛盾:AlphaZero 仅通过游戏规则和 RL 算法(两者都很简单)就学到了超人类策略,模型规模远大于输入描述。

解决方案:Epiplexity 框架下,这三个"悖论"不再是悖论——计算过程可以创造信息,信息依赖于数据顺序,似然建模可以产生比原始数据生成过程更复杂的程序。

4实际估计方法

1. Prequential 编码(近似方法)

使用神经网络在数据流上的损失曲线来估计 epiplexity:

ST(X) ≈ minM [LM(X) + |M|]

其中 LM(X) 是模型 M 在数据 X 上的累积损失,|M| 是模型描述长度。

2. Requential 编码(显式方法)

显式编码模型架构和权重,适用于模型蒸馏场景。

3. 基于扩展定律的估计

利用不同计算预算下的性能曲线,推断无限计算极限下的 epiplexity。

5实验验证

1. 元胞自动机(ECA)

2. 国际象棋

3. 自然语言(OpenWebText)

4. 课程学习效果

6核心洞见

关键结论

  1. 计算创造信息:确定性计算过程(如模拟)可以从简单规则中产生复杂、可学习的结构。
  2. 数据顺序重要:与香农信息论不同,epiplexity 依赖于数据的呈现顺序,支持课程学习。
  3. 模型可以超越数据:似然建模可以产生比数据生成过程本身更复杂的程序(如 AlphaZero)。
  4. 数据选择的新基础:Epiplexity 为预训练数据选择、生成和转换提供了理论指导。

实际应用

7理论背景对比

理论 假设 局限性 Epiplexity 改进
香农信息论 统计分布
无限精度
忽略计算成本
无法区分结构/噪声
引入时间限制
分离结构信息
柯尔莫哥洛夫复杂度 通用图灵机
无限计算
不可计算
忽略计算资源
时间受限版本
可实际估计
MDL 原则 模型选择 针对固定数据
不指导数据选择
数据选择框架
动态评估数据价值

8作者信息

研究团队

Marc Finzi*, Shikai Qiu*, Yiding Jiang* (共同一作)

Pavel Izmailov, J. Zico Kolter, Andrew Gordon Wilson

🏫 卡内基梅隆大学 (CMU)  ·  🏫 纽约大学 (NYU)

相关资源