loss 损失值表示当前预测和目标的差距。损失越大,反向传播回来的误差信号通常越强。
W1 / W2 权重矩阵权重决定层间连接强度。梯度范数越大,本轮训练中该参数被更新的幅度倾向越大。
tanh 激活梯度穿过 tanh 时会乘以导数。输入落在饱和区时,导数变小,底层梯度会衰减。
传播顺序动画从 loss 往输入方向播放,展示链式法则如何逐层复用局部梯度。
节点、梯度范数和播放顺序来自 fixture.json;pytest 使用同一份 fixture 验证手写反向传播。