学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(21)-条件随机场用于信息抽取

已有 3219 次阅读 2014-7-21 22:05 |个人分类:科研笔记|系统分类:科研笔记|关键词:学者| 条件随机场

条件随机场用于信息抽取

随机场(RF)

概率论中, 由样本空间Ω = {0, 1, ..., G − 1}n 取样构成的随机变量Xi 所组成的S = {X1, ..., Xn}。若对所有的ω∈Ω满足.pi(.omega)>0.均成立,则称π为一个随机场。(定义没太懂

马尔可夫随机场(MRF)

马尔可夫随机场对应一个无向图 G = (V, E).无向图上的每一个节点vV对应一个随机变量y_v,两个相邻的节点u,v分别对应随机变量y_u,y_v,y_u,y_v之间有概率依赖关系P(y_u|y_v),并服从马尔可夫性.(马尔可夫性:离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不大.)

最大团

若无向图G一个节点集合中任意两个结点{u,v}均有连接,则该集合称为团C,若团C不能加入任意节点且同时满足均有连接的约束,则该团称为最大团.

条件随机场(CRF)

G=(V,E)是一个无向图,Image(171)是以G中节点v为索引的随机变量Y_v构成的集合,在给定X 的条件下,如果每个随机变量Y_v服从马尔可夫属性,Image(172), (X,Y)就构成一个条件随机场,定义中并不要求XY具有相同结构.

线性条件随机场(L-CRFs)

L-CRFs是最常见的随机场. 它采用链式无向图结构,如下图所示,图中的团由点和边组成.在一阶链式结构图中,最大团仅包含相邻的两个节点,即是图G中的边.

二维条件随机场模型(2D-CRFs)

该模型是一个特殊的条件随机场模型,它的图结构可以表示为一个二维的网格结构,如图所示,其中X是观测序列随机变量,Y是标签序列随机变量,Y,j是Y在位置(,)上的元素.由于二维条件随机场图结构的团集合是由顶点和边组成,所以它的条件分布和线性条件随机场是一样的.

信息抽取过程

训练阶段  主要是通过对样本进行训练,得到抽取模型的过程,包括以下三个过程:()利用VIPS对样本网页进行分块;()人工对网页分块进行重要度进行标注,然后通过对已标注的网页分块样本进行学习,得到分块重要度模型;()将重要的信息块作为样本,利用二维条件随机场进行训练,从而得到对应的二维条件随机场抽取模型.

抽取阶段  就是利用训练阶段得到的模型对网页进行抽取,步骤如下:()利用VIPS对网页进行分块;()利用训练得到的分块重要度模型对网页分块进行重要度标注;()判断网页分块重要度级别,并对结果利用训练得到的二维条件随机场模型进行抽取.

 

参考文献

[1] 吴秦,胡丽娟,梁久祯.基于分块重要度和二维条件随机场的Web信息抽取_吴秦[J].南京大学学报(自然科学),2014, 卷缺失(1):79-85.




https://m.sciencenet.cn/blog-719488-813545.html

上一篇:文献阅读笔记(20)-基于同层网页相似性的去噪方法
下一篇:文献阅读笔记(22)-基于主题相关性判定的信息提取方法

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-2-5 08:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部