最近因科研工作需要,把EM重新过了一遍。
特点
- 迭代算法
- 每次迭代分为E步(求期望),M步(求极大)
- 用于含有隐变量的概率模型参数的极大似然估计或极大后验估计
注:如果模型中仅有观测变量,那么仅需极大似然估计或贝叶斯估计即可。
要点
含有隐变量的概率模型的数据表示为,在这里,
是观测变量,
是隐变量,
是模型参数。EM算法通过迭代求解观测数据的对数似然函数
的极大化,实现极大似然估计。每次迭代包括两步:E步,求期望,即求
关于
的期望:
我们称之为Q函数,这里是参数的第
次的估计值;M步,求极大,即极大化Q函数得到参数的新估计值:
在构建EM算法时,最重要的是定义Q函数。每次迭代中,EM算法通过极大化Q函数来增大对数似然函数。
===================
EM算法在每次迭代后均提高观测数据的似然函数值,即
在一般条件下EM算法是收敛的,但不能保证收敛到全局最优。
===================
EM主要还是应用于含有隐变量的概率模型的学习。高斯混合模型的参数估计是EM算法的一个重要应用,隐马尔科夫模型的非监督学习也是EM算法的一个重要应用。