本文是对条件随机场的简单介绍,主要基于 Conditional Random Fields: An Introduction [pdf] 这篇文章,作者是 Hanna M. Wallach。
为什么用 CRF 做序列标注
HMM 定义联合概率分布
一个解决办法是避免对全体
它的优点是:条件概率放松了 HMM 的独立性假定;全局归一化避免了 MEMM 的 label bias 问题。
CRF 的无向图模型
给定一个观测序列,定义在标签序列上的 log-linear 分布。
在无向图
在序列(即线性链)中,马尔可夫性质是指每个
CRF 条件随机场
令
其中
例如,可以定义
最大熵
从有限的训练数据估计概率分布,最大熵原则:从不完全信息中得出的概率分布应当使熵最大化(在服从给定的约束的前提下)。
在这里,给定的约束就是:每个特征函数在模型分布上的期望应当等于在数据上观测到的期望。
参数的最大似然估计
对于训练数据
取对数,得到 对数似然
对参数分量求微分,
其中
这个优化问题没有分析解,可以通过迭代的方法求近似解。
矩阵计算
给定观测序列,计算标签序列的概率时,我们希望计算归一化因子
动态规划
在估计参数时,我们希望对每个观测序列计算各个特征函数的期望,可以利用动态规划,类似于 HMM 的前向后向算法,具体过程此处从略。