科学网

 找回密码
  注册

tag 标签: 条件随机场

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

Mean Field Variational Inference终于在我的大马尔科夫网上work了
duskwaitor 2019-1-7 19:08
我在 Brown University CS242 homework 5上 花了大概20天(当然是业余时间)左右,虽然结果仍然遗留了一个小尾巴,但对Mean field variational inferece在MRF/CRF上如何应用,算有一个清晰深入的认识,同时也学到一些小trick,比如如何解决计算exp(x)和log(x)时内存溢出的问题,同时发现原来CRF/MRF在多标签分类问题上还可以这样玩。 总之收获很多,名校的homework是非常值得一做的。 然后回过头再看PairwiseMarkov随机场求解代码,很快发现虽然参数估计的公式没有错,但代码实现上有bug,于是赶紧修改过来。 运行时候发现总出现内存溢出警报,发现是exp(x)时候,当x是800+时,计算结果infinite,后来使用CS242的小trick,logsum的实现方式如下: import math def logsum(x): m = max(x); x = x-m; res = m + np.log(sum(np.exp(x))); return res 在将概率规范化时候如下操作 xi_prob_tmp=np.exp(xi_prob_tmp-self.logsum(xi_prob_tmp)) 完美解决内存溢出问题,爽到飞起来。 然后在4000个左右节点的MarkovNet上运行Mean Field Variational Inference,收敛速度非常快,基本上10次迭代内就能得到一个稳定结果,如下: 卡壳了将近2个月,终于有进展了。 下面该考虑Mean Field Variational Inference和SGD结合,去学习模型参数了。
个人分类: 文本挖掘|2831 次阅读|0 个评论
比较6种算法在图片中的实体识别效果
duskwaitor 2019-1-1 19:19
Brown University CS242 homework 5很有趣,相关链接如下: http://cs.brown.edu/courses/cs242/assignments/ 该Homework给了一个toy 的图片特征数据集,然后让学生把算法填充完整,进而预测每张图片上出现的实物类型(数据集1上一共有13种实物类型,诸如人、马、牛、羊、山峰、飞机等等,数据集2上一共23种实物类型),显然这是一个多标签预测问题,该任务中用到了三种类型的因素: 1. unary potential : 实物类型s是否出现; 2. pairwise potential:实物类型s和实物类型t是否共现; 3. feats potential:实物类型s和第k种特征的关系; 一共使用了6种算法进行多标签预测,分别是: 1. indenpendent 2. logistic 3. Markov Random Field(精确推导版本的SGD) 4. Conditional Random Field(精确推导版本的SGD) 5. Markov Random Field(Mean Field Approximation版本的SGD) 6. Conditional Random Field(Mean Field Approximation版本的SGD) 结果如下 顺便解释一下,上面这张图,横坐标是测试样本中给定出的已经观测到的标签的数量,每个样本总共有13个标签,可以看出: 1. 当给出的标签数量越多的时候,MRF效果有明显提升,CRF效果略有提升,但无论MRF如何提升,距离CRF总还5个百分点的差距,毕竟MRF没有用到观测特征,这是怎么补充可观测标签都无法弥补的损失; 2. logistic仅考虑unary potential和feats potential,不考虑标签之间的共现信息,所以即便给出同一张图片中的其他标签,对它预测剩余标签的准确率仍然没有任何帮助; 3. independent模型只考虑unary potential,这个模型没有使用任何对预测结果有价值的信息,所以结果和随机猜测是一个效果,AUC在0.5左右; 4. CRF/MRF用了两个版本来学习模型参数,分别是精确SGD版本/近似SGD版本,近似版本使用Mean Field Variational Inference,可以看出两个版本下CRF/MRF随标签数量增多,模型表现的变化趋势是一致的,但就同一种模型来说,精确版本和近似版本求参在模型表现上差了约10个百分点。 再说下另外一件事,就是参数学习的迭代过程,在CRF/MRF近似版本的学习过程中,会出现negtive LogLikelihood降低到0以下,然后收敛的现象,虽然从训练出来的模型的表现来说,效果尚可,但negtive LogLikelihood降低到0以下始终觉得很诡异,不知道是否是Mean Field Variational Inference的正常现象,另外值得一提的是,在跑MRF时候,如果在每次更新的theta参数下Mean Field Approximation都跑20次迭代,那么最终学习结束后negtive LogLikelihood降低到0以下,但如果我将Mean Field Approximation的迭代结束条件限制为Evidence Lower bound的改变量小于某阈值,那么negtive LogLikelihood会在0以上收敛,而且收敛时negtive LogLikelihood的值和CRF精确解时negtive LogLikelihood的值类似,好奇怪的现象。 最后还有一个收获,就是从图片中抽取的可观测特征都是用连续值来表示的,其应用这些连续值特征的方式就是将标签类别Xs与该特征Yk用权重r_sk来表示。 后记:一直以来我都很好奇在CRF中怎么使用连续值,虽然之前知道这种将标签类别Xs与某特征Yk之间关系用权重r_sk来表示,进而在CRF中使用连续特征的做法,但后来在Coursera PGM课程的Assignment 7中,我发现将该连续值的特征离散化,进而将每个离散值与类别Xs之间分配一个r_sk能够取得更好的效果,那有没有比这个还好的应用连续特征的方法呢?现在还没有看到,从这个例子中知道对于连续特征,大家通用的做法就是简单将标签类别Xs与该特征Yk用权重r_sk来表示,虽然这种做法还有很大的提升空间。
个人分类: 乱评一气|3730 次阅读|0 个评论
文献阅读笔记(21)-条件随机场用于信息抽取
FangliXie 2014-7-21 22:05
条件随机场用于信息抽取 随机场 (RF) 在 概率论 中, 由 样本空间 Ω = {0, 1, ..., G − 1} n 取样构成的 随机变量 X i 所组成的 S = { X 1 , ..., X n }。若对所有的ω∈Ω满足 均成立,则称π为一个随机场。( 定义没太懂 ) 马尔可夫随机场 (MRF) 马尔可夫随机场对应一个无向图 G = (V, E). 无向图上的每一个节点 v ∈ V 对应一个随机变量 y_v, 两个相邻的节点 u,v 分别对应随机变量 y_u,y_v, 且 y_u,y_v 之间有概率依赖关系 P(y_u|y_v), 并服从马尔可夫性 .( 马尔可夫性 : 离当前因素比较遥远 ( 这个遥远要根据具体情况自己定义 ) 的因素对当前因素的性质影响不大 .) 最大团 若无向图 G 一个节点集合中任意两个结点 {u,v} 均有连接 , 则该集合称为团 C, 若团 C 不能加入任意节点且同时满足均有连接的约束 , 则该团称为最大团 . 条件随机场 (CRF) 设 G=(V,E) 是一个无向图 , 是以 G 中节点 v 为索引的随机变量 Y_v 构成的集合 , 在给定 X 的条件下 , 如果每个随机变量 Y_v 服从马尔可夫属性 , 即 , 则 (X,Y) 就构成一个条件随机场 , 定义中并 不要求 X 和 Y 具有相同结构 . 线性条件随机场 (L-CRFs) L-CRFs 是最常见的随机场 . 它采用链式无向图结构 , 如下图所示 , 图中的团由点和边组成.在一阶链式结构图中 , 最大团仅包含相邻的两个节点 , 即是图G 中的边 . 二维条件随机场模型 (2D-CRFs) 该模型是一个特殊的条件随机场模型 , 它的图结构可以表示为一个二维的网格结构 , 如图所示 , 其中 X 是观测序列随机变量 ,Y 是标签序列随机变量 ,Y i , j是 Y 在位置 ( i , j ) 上的元素.由于二维条件随机场图结构的团集合是由顶点和边组成 , 所以它的条件分布和线性条件随机场是一样的. 信息抽取过程 训练阶段 主要是通过对样本进行训练 , 得到抽取模型的过程 , 包括以下三个过程 :( 1 ) 利用 VIPS 对样本网页进行分块; ( 2 ) 人工对网页分块进行重要度进行标注 , 然后通过对已标注的网页分块样本进行学习 , 得到分块重要度模型; ( 3 ) 将重要的信息块作为样本 , 利用二维条件随机场进行训练 , 从而得到对应的二维条件随机场抽取模型. 抽取阶段 就是利用训练阶段得到的模型对网页进行抽取 , 步骤如下 :( 1 ) 利用 VIPS 对网页进行分块; ( 2 ) 利用训练得到的分块重要度模型对网页分块进行重要度标注; ( 3 ) 判断网页分块重要度级别 , 并对结果利用训练得到的二维条件随机场模型进行抽取. 参考文献 吴秦 , 胡丽娟 , 梁久祯 . 基于分块重要度和二维条件随机场的 Web 信息抽取 _ 吴秦 . 南京大学学报 ( 自然科学 ),2014, 卷缺失 (1):79-85.
个人分类: 科研笔记|3755 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 01:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部