博文

基于双序列比对的中文术语语义相似度计算工具箱

已有 5183 次阅读 2013-9-22 09:41 |系统分类:科研笔记|关键词:学者| 中文, 工具箱

针对中文术语的语义相似度计算问题，文献[1][2]首先用数学语言对其进行了描述，然后仔细分析了求解该问题的传统计算方法，结果发现传统计算方法大都做了一个隐式假设：组成两个术语的原子术语的顺序必须大体一致。换句话说，传统计算方法并没有考虑原子术语顺序的差异对构建两个术语的原子术语间对应关系质量的影响。为克服这个问题，通过类比分析，文献[1][2]认为可将该问题看作一个全局双序列比对问题，因而引入生物信息学领域中著名的全局双序列比对算法（NW算法）。理论及实验研究均表明，在绝大多数情况下，该方法优于传统方法，或至少与传统方法的效果相当。

为了进一步促进情报分析的发展，现将我们开发的中文术语相似度计算工具箱公布于此(PSASimilarity.rar)，该工具包括相应的源代码、原理描述文档以及使用的资源——同义词词词林扩展版（词林电子版来源于网上，应该是哈工大信息检索研究室将其开源的，在此感谢哈工大信息检索研究室所做的工作）

如果大家使用了这个工具箱，也请大家引用以下文献：

[1] 徐硕, 朱礼军, 乔晓东, 薛春香, 2010. 基于双序列比对的中文术语语义相似度计算的新方法. 情报学报, Vol. 29, No. 4, pp. 701-708.

[2] Shuo Xu, Lijun Zhu, Xiaodong Qiao, and Chunxiang Xue, 2009. A Novel Approach for Measuring Chinese Terms Semantic Similarity based on Pairwise Sequence Alignment. Proceedings of the 5th International Conference on Semantics, Knowledge and Grid (SKG), pp. 92-98

转载本文请联系原作者获取授权，同时请注明本文来自徐硕科学网博客。
链接地址：https://m.sciencenet.cn/blog-611051-726829.html

上一篇：第二届数据密集型智能及知识国际研讨会征稿
下一篇：MySQL重命名表名及列名

收藏分享

当前推荐数：2 推荐人：章成志 纪雪梅

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

徐硕

扫一扫，分享此博文

xiaohai2008的个人博客分享 http://blog.sciencenet.cn/u/xiaohai2008

博文

基于双序列比对的中文术语语义相似度计算工具箱

当前推荐数：2 推荐人：章成志 纪雪梅

该博文允许注册用户评论请点击登录评论 (2 个评论)

徐硕

全部作者的其他最新博文

全部精选博文导读

相关博文

xiaohai2008的个人博客分享 http://blog.sciencenet.cn/u/xiaohai2008

博文

基于双序列比对的中文术语语义相似度计算工具箱

当前推荐数：2 推荐人： 章成志 纪雪梅

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

徐硕

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：2 推荐人：章成志纪雪梅

该博文允许注册用户评论请点击登录评论 (2 个评论)