博文

面向信息检索的排除词识别研究

已有 5506 次阅读 2008-2-25 19:41 |个人分类:信息检索|关键词:学者

[摘要] 本文针对信息检索中存在的词语排除关系问题，给出排除词的定义并说明排除词在信息检索中的作用。笔者指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的，然后描述了排除词的识别方法，并给出识别的结果，最后在实际的信息检索平台上进行了排除词词库的应用测评。

[关键词] 信息检索中文信息处理交集型歧义除词识别伪歧义

1 引言

中文自动分词是中文信息处理的基础研究内容之一，其中面临的两大难题便是切分歧义和未登录词问题。在今后一段时间里，对切分歧义的相关研究包括：基于Web和专业领域核心词表的分词歧义穷尽式调研，非受限的通用分词歧义表构造、各领域的常用分词歧义表构造等。其中，交集型歧义切分字段又占全部歧义切分字段的绝大多数[1]。对交集型歧义切分的研究主要集中于各种消歧算法的设计上，目前已有的方法主要是基于各种统计和规则进行的[2]，如基于词概率[3]、词的Bi-Gram模型[4]、Bayes分类器[5]等方法。同时，研究者还将消歧算法用于构建消歧实例库，在自动分词时调用切分实例或规则进行中文的分词[1][5]。这些方法对提高中文信息检索的质量起到一定的提升作用。

本文将说明在信息检索中存在的一种特殊的准交集型歧义切分现象，即，词语排除关系现象，给出了排除词的定义与排除词在信息检索中的作用。笔者指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的，然后描述了排除词的识别方法、排除词词库的建立方法和步骤，最后在实际的信息检索平台上进行了排除词词库的应用测评。

2 排除词及其在信息检索中的作用

2.1 几个相关概念

先给出几个相关的说明如下：

Ω: 中文字符串集合；

S : 中文字符串，S=c₁c₂，…，c_n，即SÎΩ；

Ψ : 分词词典，用于中文分词；

T : 已分词的训练语料。

下面给出与交集型切分歧义相关的基本基本定义。

定义1：交集型歧义切分字段。对于字符串S，S=c₁c₂，…，c_n，SÎΩ，S=c₁c₂，…，c_n为汉字，如果存在整数I₁,i₂,…,i_m，j_1,j₂,…,j_m,满足：

(1) SÏΨ；

(2) W1=C_I1…C_j1,W₂=C_I2…C_J2, W_M=C_IM…C_JM，且w₁、w₂、…、w_mÎΨ，且中不存在包含w₁、w₂、…、w_m的词；

(3) w₁、w₂、…、w_m构成相互交叉，即：

1=i₁<i₂<j₁<j₂,i₂<j₂<j₃,i₃<i₄<j₃<j_4,...,i_m-2<i_m-2<j_m-2<j_m-2,i_m-1<i_m<j_m-2<j_m=n；

则称字符串S为交集型歧义切分字段（Overlapping ambiguity string，OAS）^[1]。

例如，字符串“日本体育”，其中“日本”、“本体” 、“体育”均为词，并构成交叉，因此“日本体育”是一个交集型歧义切分字段。

定义2：伪交集型歧义切分形式。对于给定的交集型歧义切分字段S，对于某一形式“c₁/…/ w_i/…/c_n”，其在T上的出现概率，即：p(c₁/…/ w_i/…/c_n|T)，低于给定阈值θ，则称该切分形式，即：“c₁/…/ w_i/…/c_n”为S在T上的伪交集型歧义切分形式，其中w_i为伪交集型歧义切分形式下的词语之一。

例如，“市政府”虽然存在两种不同的切分形式“市/政府”和“市政/府”，但在训练语料中，切分形式为“市/政府”，而p(市政/府|T)=0<θ，因此，“市/政府”为市政府”在T上的伪交集型歧义切分形式。识别出伪交集型歧义切分形式后，分词系统就可以采用查表的方式直接确定分词形式,而不再参与后续的分词处理过程[6]，即歧义消解通过直接查表即可实现^[7]。

定义3：准交集型歧义切分字段。对于交集型歧义切分字段S，若S为复合词，且S可加入到词表Ψ，此时，S将不再是严格定义下的交集型歧义切分字段。则将S称为准交集型歧义切分字段（Quasi overlapping ambiguity string，QOAS）。

例如，“人民法院”开始不在词表Ψ中，其中“人民”、“民法”、“法院”均为词，并构成交叉，因此“人民法院”是一个交集型歧义切分字段。但“人民法院”为复合词，可将“人民法院”加入词表Ψ中，此时，“人民法院”不再是交集型歧义切分字段，而是准交集型歧义切分字段。显然，若将“人民法院”从词表Ψ中删除，则“人民法院”又成为交集型歧义切分字段。

定义4：排除词。对于给定的准交集型歧义切分字段S，存在伪交集型歧义切分形式，即c₁/…/ w_i/…/c_n，则称w_i与S构成排除关系，即w_i与S互称排除词（Mutually exclusive words，MEW）。例如“电脑科学”为准交集型歧义切分字段，存在伪交集型歧义切分形式“电/脑科/学”，因此“脑科”与“电脑科学”构成排除关系，即，“脑科”为“电脑科学”的排除词。同理，“民法”为“人民法院”的排除词。

2.2 排除词在信息检索中的作用

（1）全文索引时降低索引膨胀率

当全文检索系统后台采用的是词索引时，通常情况下，系统会对词语所有出现的位置进行索引，例如，对“动机”建立词索引时，会将“电动机”、“永动机”等关键词的文档列入到索引中，这样以来，当用户检索“动机”时，自然返回结果中会包含“电动机”、“永动机”等不相关的文档。若事先建立排除词词典，在对排除词建立索引时，考虑类似“动机”与“电动机、永动机”等排除关系，即在该排除词词典的干预下，可以过滤这种语义不相符的索引,降低了索引膨胀率。

另外，在进行词索引时，若进行自动分词，借助于排除词词典，可加快分词质量和速度,这是基于记忆的伪交集型歧义切分处理过程^[7]。

（2）信息检索中的缩检作用

利用排除词词典可以排除与查询式不相关的结果，如：检索“脑科”，排除包含“电脑科学”的结果，检索“个性化学习”，排除包含“化学”的结果，这样起到缩检作用，并提高检准率。

（3）信息检索中的扩检作用

当信息检索系统返回给用户的结果过少，有些系统会对查询式进行解析，重新进行检索。例如，用户将“基本体操”作为检索词进行文档检索时返回结果很少，若用户希望得到更多相关结果，此时，一般的全文检索系统会对检索词进行字面折分，如将“基本体操”拆分为：“基本、本体、体操”作为新的查询式重新进行查询，返回包含有“基本”、“本体”或“体操”的文档。实际上，含有“本体”的文档和用户的实际需求是不符合的。在排除词词典的控制下，则可避免这种语义不相符的情况发生。

3 排除词识别方法

3.1 最大准交集型歧义切分字段识别

前面提到，只有当S被认定为复合词时，交集型歧义切分字段S与w_i才有可能构成排除关系。在没有上下文约束的情况下，复合词S的正确切分形式不包括切分为“c₁/…/ w_i/…/c_n”的情形，例如“发展中国家”可以切分为“发展中/国家”，“发展中”对“国家”起限定作用，但不可切分为“发展/中国/家”。在有上下文约束的情况下，复合词S有可能与周围的字符再次发生新的交叉关系。例如，句子“这反映了我国的Ｒ＆Ｄ活动在发展中国家居中等水平”，其中“发展中国家”与后续字符“居”、“中”、“等”再次交叉，构成交集型歧义，即，“发展中国家居中等”也是交集型歧义切分字段，其正确切分形式为“发展中国家/居/中等”。而在句子“致力于把个性化高品质的设计和一流的工业体系配套有效结合来发展中国家居产业。”中，“发展中国家居”为交集型歧义切分字段，其正确切分形式为“发展/中国/家居”。

由此可以看出，在有上下文约束下，即真实文本中，只有当包含准交集型歧义切分字段S的句子能切分出复合词S时，才能进一步进行排除词的识别。若该准交集型歧义切分字段与周围字符发生交叉，即成为交集型歧义切分字段，则需要进行歧义消解处理。若该准交集型歧义切分字段S不再与任何字发生新的交叉关系，则称该准交集型歧义切分字段为最大准交集型歧义切分字段，笔者借用最大交集型歧义切分字段的定义（Maximal overlapping ambiguity string，MOAS）^[1]，给出准交集型歧义切分字段的具体定义如下。

定义5：最大准交集型歧义切分字段。设为准交集型歧义切分字段，满足：

（1） s _max=c_i…c_j(1<i<j<n)，且s _max Î S；

（2） s _max为交集型歧义切分字段；

（3） s中不存在包含s _max 的更大的交集型歧义切分字段；

则称s _max 为 s 的最大准交集型歧义切分字段（Maximal quasi overlapping ambiguity string，MQOAS）。

例如在句子“论法国会计模式对中国会计制度改革的借鉴意义”中，“法国会计”为准交集型歧义切分字段，“法国会”为交集型歧义切分字段，但“法国会计”涵盖了“法国会”，同时不为任何交集型歧义切分字段所包含，因此“法国会计”是最大准交集型歧义切分字段。

识别最大准交集型歧义切分字段的意义在于：由于最大准交集型歧义切分字段不再与周围任何字符发生新的交叉关系，具有一定的独立性，因此，可以将它们从上下文环境中分离出来^[1]，直接做为排除规则，加入到排除词词典中，从而实现前面所提到的功能。

3.2 排除词识别方法

根据MQOAS的来源不同，将MEW识别分为两类，即基于关键词词典的MEW识别方法与基于语料库的MEW识别方法，下面将详细描述这两种识别方法。

（1）基于关键词词典的MEW识别方法

该方法以关键词词典为基础，具体描述如图1所示。首先，依据语料库从关键词词典中识别出所有MQOAS，即识别出的MQOAS全部为关键词词典中的词语，在这里，笔者利用全切分的方法进行MQOAS的识别^[2]；然后，对每个MQOAS，在分词训练语料T上进行检索该MQOAS，若T上存在该MQOAS，则进行切分形式统计，对于其中某一切分形式“c₁/…/ w_i/…/c_n”，其在T上的出现概率，即：p(c₁/…/ w_i/…/c_n|T)，低于给定阈值θ，则认为w_i与该MQOAS构成排除词关系，并保存该结果；若在T上不存在该MQOAS，则进行手工切分，人工判别得到排除词，并保存结果。

（2）基于语料库的MEW识别方法

该方法以语料库为基础，具体描述如图2所示。首先依据分词词典，在中文语料上利用全切分方法识别出所有最大交集形歧义MOAS；然后对每个MOAS，判别当前MOAS是否为复合词，在这里，复合词的判别可以人工判别或采用统计方法进行辅助判别；若为复合词，则在分词训练语料T上进行检索该MOAS，若T上存在该MOAS，则进行切分形式统计，对于其中某一切分形式“c₁/…/ w_i/…/c_n”，其在T上的出现概率，即：p(c₁/…/ w_i/…/c_n|T)，低于给定阈值θ（本文称改阈值为伪歧义判别阈值），则认为w_i与该MOAS构成排除词关系，并保存该结果；若在T上不存在该MOAS，则进行手工切分，人工判别得到排除词，并保存结果。

4 排除词识别结果与应用

4.1排除词识别结果

本文所用的关键词词典为CSSCI关键词词库，共包括489144条关键词。分词词典有两种，一个是人民日报分词词典^[8]，约10万词，另一个是Nju分词词典，约14万词。本文根据分词训练语料的规模，设置伪歧义判别阈值的经验值为θ=0.05。

（1）基于关键词词典的MEW识别结果

基于词典的方法是采用CSSCI关键词词典，分词训练语料为人民日报1998年1~6月标注语料。将识别的结果分为三字词、四字词、五字词及其他等四种情形进行统计分析，结果如表1所示。从CSSCI关键词词典中识别出MQOAS的数量为58,228条，识别出MEW共16,964条，MEW占MQOAS的比率为29.13%。随着词长的变化，MEW占MQOAS的比率越在30%附近上下浮动。MQOAS、MEW的识别结果分布情况如图3所示。可以看出，MEW主要集中在四字词和五字词中出现。

（2）基于语料库的MEW识别结果

基于语料库的方法中，分别对人民日报2000年数据（约1200万汉字）与1995-2001年数据（约7.2亿汉字）做了测试，在识别MEW过程中，识别出的MAOS情况如表2所示。

由表2可以看出，词典规模、语料库规模对识别MAOS都产生影响。Nju切分词典规模大于人民日报切分词典规模，识别出来的MAOS是前者少于后者。随着语料库规模的增大，MAOS的数量也在增加。由于识别出的MAOS规模较大，因此笔者目前只对MAOS的高频部分，即高频最大交集型歧义字段（High Frequent maximal overlapping ambiguity string，HF-MOAS）进行识别。本文设置的频率阈值为50，即当HF-MOAS在中文语料中的频率超过50时，才进行后续的MEW识别。表3给出了排除词识别结果样例。

4.2排除词词库的应用

笔者针对经济日报1983-2003年语料进行了缩检测试。测试方法为：从排除词词库中随机选取100条排除词记录，将排除词作为检索词，如“本体”，进行全文检索，考察缩检效果。测试结果为：缩检前，这100个查询词返回的文档总数为425350条，平均返回文档数为425，但缩建后，返回文档总数变为28753，平均返回文档数变为29，参见图4。很明显，排除词起到了明显的缩检作用，提高了检准率。

5 结语

排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的，文本给出排除词识别的两种方法，即基于关键词词典的识别方法与基于语料库的识别方法。利用这两种方法构建了排除词词库，并在实际的信息检索平台上进行了排除词词库的应用测评，结果表明排除词起到了明显的缩检作用，提高了检准率。

进一步的工作主要包括：（1）进一步提高排除词识别的自动化程度，例如，当训练语料中不包含MQOAS或MOAS时，如何自动获取MQOAS或MOAS的伪歧义切分形式，如何完全自动化地判断MOAS是否为复合词等。（2）排除词词典的进一步推广应用，例如在在信息检索中利用排除词词典，对查询式进行记忆式的解析。

参考文献：

1 孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语分词中的作用,中文信息学报,1999,13(1):27-34.

2 李斌,陈小荷,方芳等.基于语料库的高频最大交集型歧义字段考察,中文信息学报,2006,20(1):1-6.

3 刘挺.歧义字段的最大概率切分算法.语言工程.北京：清华大学出版社,1997:182-187.

4 陈小荷.用基于词的二元模型消解交集型分词歧义,南京师范大学学报(社会科学版),2004,(6):109-113.

5 Mu Li, Jianfeng Gao, Changning Huang et al. Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation. In: Proceedings of the Second SIGHAN Workshop on Chinese Language Processing. Sapporo, Japan, 2003:1-7.

6 赵铁军,吕雅娟,于浩等.提高汉语自动分词精度的多步处理策略,中文信息学报,2001,15(1):13-18.

7 孙茂松,邹嘉彦.汉语自动分词研究评述,当代语言学,2001,3(1):22-32.

8 http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/Source_Code

/Chapter_8/Lexicon_full_2000.zip.Accessed:2006,4,20.

注：本文发表于《现代图书情报技术》2007年第2期。

转载本文请联系原作者获取授权，同时请注明本文来自章成志科学网博客。
链接地址：https://m.sciencenet.cn/blog-36782-16296.html

上一篇：基于知识空间的智能信息检索模型研究
下一篇：王国裕教授报告几点摘要与随想

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

面向信息检索的排除词识别研究

2 排除词及其在信息检索中的作用

2.1 几个相关概念

2.2 排除词在信息检索中的作用

3 排除词识别方法

3.1 最大准交集型歧义切分字段识别

3.2 排除词识别方法

4 排除词识别结果与应用

4.1排除词识别结果

4.2排除词词库的应用

5 结语

当前推荐数：0

发表评论评论 (2 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

面向信息检索的排除词识别研究

2 排除词及其在信息检索中的作用

2.1 几个相关概念

2.2 排除词在信息检索中的作用

3 排除词识别方法

3.1 最大准交集型歧义切分字段识别

3.2 排除词识别方法

4 排除词识别结果与应用

4.1排除词识别结果

4.2排除词词库的应用

5 结语

当前推荐数：0

发表评论 评论 (2 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

发表评论评论 (2 个评论)