模型证据
在贝叶斯统计和机器学习中,模型的证据(Model Evidence),通常记为,是指在给定模型的参数和结构的情况下,观测数据出现的概率。
它可以通过对模型的所有可能参数进行积分来计算:
其中,是在参数为时数据的似然函数,是参数的先验分布。
模型的证据在模型选择和比较中起着重要作用。例如,在比较不同的模型时,可以根据它们的证据大小来选择最优的模型。证据越大,说明模型对数据的解释能力越强。
然而,在实际应用中,计算模型的证据通常是非常困难的,因为需要对参数空间进行高维积分。因此,常常使用一些近似方法来估计模型的证据,如变分推断、马尔可夫链蒙特卡罗(MCMC)方法等。
模型证据下界
模型证据下界(Lower Bound of Model Evidence)通常在贝叶斯统计和机器学习中使用,特别是在变分推断(Variational Inference)的背景下。
在一些概率模型中,我们希望计算模型的证据(Model Evidence),即,其中是观测数据。然而,直接计算模型证据通常是困难的,因此我们使用变分推断来近似它。
变分推断的目标是找到一个最优的变分分布,使得它尽可能地接近真实的后验分布,其中是潜在变量。通过优化变分分布,我们可以得到一个下界,即模型证据下界。
具体来说,模型证据下界可以表示为:
其中,表示关于变分分布的期望。
模型证据下界的作用是提供了一个对模型证据的近似,并且可以用于比较不同模型的优劣。通过最大化模型证据下界,我们可以同时优化模型的参数和变分分布,从而提高模型的性能。
变分推断估计模型的证据
假设表示一系列可观测数据集,为一系列隐变量。用表示联合概率,为条件概率,为证据(即数据或可观测变量的概率密度)。
贝叶斯推理需要求解条件概率,然而对很多模型而言,计算是很困难的,即:
变分推断的目标是找到一个概率密度函数来近似,要得到最佳的,需要优化以下式子:
其中散度表示两个分布之间的差异。
将贝叶斯定理代入上式可得:
因为(与无关),所以可得到:
又因为散度始终大于等于,即,进一步可得:
这里就得到了为什么叫证据下界,即公式左边是证据的对数形式,右边是其下界。
综上,我们有:
其中(Evidence Lower Bound)即模型证据下界。在使用变分推断时,通常首先要计算。计算需要写出联合概率密度和,带入公式后分别求对数,再分别求期望。在期望计算完之后,针对具体的变分参数求偏导,并令偏导为,即可得到变分参数的更新公式。在实际公式推导过程中,关键点在于如何求期望,其计算往往需要用到指数分布族的性质,即将期望计算转化为求导计算。