diff options
Diffstat (limited to 'docs/method/READING.md')
| -rw-r--r-- | docs/method/READING.md | 58 |
1 files changed, 58 insertions, 0 deletions
diff --git a/docs/method/READING.md b/docs/method/READING.md new file mode 100644 index 0000000..12561a3 --- /dev/null +++ b/docs/method/READING.md @@ -0,0 +1,58 @@ +# 项目阅读清单 — EP 训练平衡态 Transformer(含模拟硬件路线) + +按学习顺序排列。主线七篇是看懂本项目的最小集;支线按需。每篇标注"为什么读"。 +读完主线后直接读内部文档:`METHODS.md`(系统现状)→ `FINDINGS.md`(发现编年史)。 + +## 主线(必读,按顺序) + +1. **Equilibrium Propagation** — Scellier & Bengio 2017, arXiv:1602.05179 + 一切的起点:free phase / nudged phase / 局部对比更新。读到能背出两相结构为止。 +2. **EP ≡ BPTT** — Ernoult et al. 2019, arXiv:1905.13633 + EP 为什么算的是真梯度、以及代价(自由相必须收敛 + β→0)。本项目的"有效域"概念源头。 +3. **Scaling EP(对称 nudging)** — Laborieux et al. 2021, arXiv:2006.03824 + ±β 居中差分消一阶偏差;EP 第一次上 CIFAR。我们对比读出的基本形态。 +4. **Holomorphic EP** — Laborieux & Zenke 2022, arXiv:2209.00530 + 复平面 N 点 / 振荡相位 → 有限 β 精确梯度。我们的估计器与硬件锁相故事的理论根。 + (重要预期管理:本项目实测其"振荡"形态在白噪声下才是必需品,干净数字环境 N=2 即可。) +5. **AEP:非保守系统的 EP** — arXiv:2602.03670 + 反对称修正 −(J−Jᵀ)(z−z*):把 nudged 线性化从 J 翻成 Jᵀ,使 Q≠K 的真 attention 可 EP。 + 本项目最重要的外部方法。我们的扩展:共模跟踪线性化(见 METHODS §4.3)。 +6. **CET:Convergent Energy Transformer** — Høier, Kerjan, Scellier, ICLR'26 AM workshop(OpenReview: Qrfml76eWJ) + 能量式(互易、tied-value)attention 的 EP 训练,我们入场前的 SOTA。我们复现过(cet_mvp.py), + 也是"互易让步"硬件路线(Phase-0)的配方。 +7. **DEQ:Deep Equilibrium Models** — Bai et al. 2019, arXiv:1909.01377 + 平衡态架构家族总纲:权重共享不动点网络匹配显式 transformer。我们的 thick 块即 DEQ 式块。 + +## 稳定性支线(理解我们的控制律) + +- **Jacobian 正则稳定平衡模型** — Bai et al. 2021, arXiv:2106.14342:λ 惩罚的出处。 +- **monDEQ** — Winston & Kolter 2020, arXiv:2006.08591:结构保证唯一不动点;我们的 mono 消融。 +- **FRE-RNN(Toward Practical EP)** — arXiv:2508.11659:反馈调节谱半径;我们 res 驱动 controller 的精神前身 + (注意我们的发现:非正规雅可比下谱半径是错误信号,必须用残差——METHODS §5)。 + +## 硬件支线(模拟实现路线) + +- **模拟电路 EP** — Kendall et al. 2020, arXiv:2006.01981:EP 上模拟硬件的开山提案。 +- **物理学习网络实物演示** — Dillavou et al. 2022, Phys. Rev. Applied:真电阻网络的对比局部学习。 +- **Ising 机 EP** — Laydevant et al. 2024, Nature Communications:租来的物理(D-Wave)也能发——先例。 +- **Agnostic physics-driven learning** — Scellier et al. 2022, arXiv:2205.15021:不需要电路模型的 EP。 +- 对照组:**Physics-aware training(PNN)** — Wright et al. 2022, Nature:物理前向 + 数字反传(我们不走的路)。 +- 电路理论经典:**伴随网络** — Director & Rohrer 1969(IEEE Trans. Circuit Theory):Jᵀ 的物理构造。 + +## 优化器支线(硬件友好优化器之争) + +- **Why Transformers Need Adam(Hessian 异质性)** — NeurIPS 2024。 +- **SGD-SaI** — arXiv:2412.11768:初始化定每块 lr → SGDM 追平 AdamW(我们 EP-SaI 的原型,实测只赎回部分)。 +- **Do We Need Adam?(RL 阶段纯 SGD + 0.02% 稀疏更新)** — Mukherjee et al., arXiv:2602.07729(UIUC Hao Peng 组)。 +- Lion — arXiv:2302.06675:sign 更新 = 固定幅度脉冲编程(硬件视角)。 + +## 语料与背景 + +- **TinyStories** — arXiv:2305.07759:小模型可以写连贯故事;我们阶梯语料与"能看"demo 规模设定的依据。 +- Universal Transformer — arXiv:1807.03819:权重共享深度的先例。 + +## 内部文档(读完主线后) + +1. `~/ept/METHODS.md` — 系统全貌:架构、估计器、控制律、规模法则、硬件翻译与 BOM。 +2. `~/ept/FINDINGS.md` — 编年史:每个失败、验尸与修复("墙"的证伪、闸门、噪声战役)。 +3. 代码:`~/ept/lt_ep_code/`(备份);活跃实验在 timan1:/tmp/lt_ep/。 |
