Fisher信息矩阵（Fisher Information Matrix, FIM）

一、原理

Fisher信息矩阵是统计学中衡量观测数据对未知参数所含信息量的关键工具。其核心思想是：参数估计的精度与数据中蕴含的信息量直接相关。具体来说：

敏感度度量：当参数发生微小变化时，对数似然函数的梯度变化越大，说明数据对该参数越敏感，信息量越大。
Cramér-Rao下界：Fisher信息矩阵的逆给出了无偏估计的最小可能方差（即Cramér-Rao下界），估计量的方差无法低于此下界。
信息几何：在参数空间中，FIM定义了局部度量，反映了概率分布的几何结构。

二、公式推导

假设概率模型参数为 $\theta \in \mathbb{R}^d$ ，观测数据 $X$ 的分布为 $p(X; \theta)$ ，对数似然函数为 $\ell(\theta) = \log p(X; \theta)$ 。

定义式：

单个观测的Fisher信息矩阵元素为：

$I_{ij}(\theta) = \mathbb{E}\left[ \left( \frac{\partial \ell}{\partial \theta_i} \right) \left( \frac{\partial \ell}{\partial \theta_j} \right) \Big| \theta \right]$ 即梯度向量的外积期望。

等价形式（正则条件下）：

$I_{ij}(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \ell}{\partial \theta_i \partial \theta_j} \Big| \theta \right]$ 即负的海森矩阵期望，适用于对数似然函数二阶可导的情况。

独立同分布（i.i.d.）样本：

若有 $n$ 个独立观测，总Fisher信息矩阵为单次观测的 $n$ 倍：

$I_n(\theta) = n \cdot I(\theta)$

三、应用场景

1. 参数估计与统计推断

Cramér-Rao下界：评估估计量的效率。若估计量方差达到该下界，则为有效估计量（如MLE在大样本下渐近有效）。
置信区间：利用FIM计算参数估计的协方差矩阵，构建置信区间。

2. 实验设计优化

最大化信息量：设计实验条件（如传感器位置、测量时间），使FIM行列式最大化，从而降低参数估计的不确定性。
主动学习：选择对模型参数信息增益最大的样本进行标注。

3. 机器学习与优化

自然梯度下降：在参数空间中，用FIM的逆调整梯度方向，使更新步长在分布空间保持等距，加速收敛。 $\theta_{t+1} = \theta_t - \eta \cdot I^{-1}(\theta_t) \nabla_\theta \mathcal{L}$
二阶优化方法：近似牛顿法中的海森矩阵（如K-FAC算法）。

4. 贝叶斯统计

Jeffreys先验：构造无信息先验 $p(\theta) \propto \sqrt{\det I(\theta)}$ ，具有参数变换不变性。

5. 信息几何

在流形上定义黎曼度量，用于概率分布空间的几何分析（如KL散度的局部近似）。

四、实例说明

例1：正态分布的Fisher信息矩阵

设 $X \sim N(\mu, \sigma^2)$ ，参数 $\theta = (\mu, \sigma^2)$ ：

对数似然函数： $\ell(\theta) = -\frac{(x-\mu)^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2)$
计算梯度并求期望，得到：

$I(\theta) = \begin{pmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{pmatrix}$

例2：逻辑回归模型

参数为权重向量 $w$ ，对数似然梯度为 $\nabla_w \ell = (y - \sigma(w^T x))x$ ，FIM为：

$I(w) = \mathbb{E}\left[ \sigma(w^T x)(1 - \sigma(w^T x)) xx^T \right]$ 用于自然梯度下降或模型不确定性估计。

五、性质总结

半正定性：FIM始终为半正定矩阵，对称。
协变性：参数变换 $\phi = g(\theta)$ 时，FIM按张量规则变换： $I(\phi) = J^T I(\theta) J$ ，其中 $J$ 为雅可比矩阵。
KL散度关联：两分布 $p_\theta$ 和 $p_{\theta+\delta}$ 的KL散度二阶近似为 $\frac{1}{2} \delta^T I(\theta) \delta$ 。

六、代码示例（Python）

计算正态分布参数的Fisher信息矩阵：

import numpy as np
from scipy.stats import norm

# 定义参数
mu = 0.5
sigma = 1.0
n_samples = 1000

# 生成数据
data = np.random.normal(mu, sigma, n_samples)

# 计算Fisher信息矩阵
score_mu = (data - mu) / sigma**2
score_sigma = ((data - mu)**2 - sigma**2) / sigma**3

I_mu = np.mean(score_mu**2)
I_sigma = np.mean(score_sigma**2)
I_mixed = np.mean(score_mu * score_sigma)

FIM = np.array([[I_mu, I_mixed], [I_mixed, I_sigma]])
print("Estimated Fisher Information Matrix:\n", FIM)

通过Fisher信息矩阵，我们能够量化参数估计的不确定性、优化实验设计，并提升机器学习模型的训练效率。它是连接统计学、信息论和优化理论的重要桥梁。