科学网

 找回密码
  注册

tag 标签: 中文分词

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]中文分词和词性标注:为拓展工业场景应用夯基
adully2010 2020-7-10 08:21
中文分词和词性标注:为拓展工业场景应用夯基 “部分居民生活水平”这样简单的中文短语,人类理解起来没有丝毫困难。但把这一短语交给机器,是理解成“部分/居民/生活/水平”,还是“部/分居/民生/活水/平”,却着实是个问题。 在7月5日-10日举行的自然语言处理(NLP)领域顶级学术会议 ACL 2020上,来自创新工场大湾区人工智能研究院的两篇入选论文,正是针对中文自然语言处理的类似问题,各自提出了“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”,将外部知识(信息)创造性融入分词及词性标注模型,有效剔除了分词“噪音”误导,大幅度提升了分词及词性标注效果。 “中文的分词和词性标注是自然语言处理的基本任务,对于后续的应用和任务处理非常重要。”两篇论文的作者之一、创新工场大湾区人工智能研究院执行院长宋彦告诉《中国科学报》,对于文本分类、情感分析、文本摘要、机器翻译等,分词和词性标注是不可或缺的基本“元件”。 记忆神经网络刷新中文分词新高度 宋彦介绍,在工业场景中,对中文的分词和词性标注有非常直接的诉求,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。 中文分词目的是在中文语句的字序列中插入分隔符,将其切分为词。例如,“我喜欢音乐”,在机器中将被切分为“我/喜欢/音乐”。 然而,中文语言因其特殊性,在分词时面临着两个主要难点。一是歧义问题,一是未登录词问题。 “由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。”宋彦说。例如机器对前文“部分居民生活水平”的理解;再如“他从小学电脑”,正确的分词是“他/从小/学/电脑”,但在机器里会划分出“小学”这种歧义词。 未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词,例如经济、医疗、科技等领域的专业术语或者社交媒体上的新词,或者是人名。“这类问题在跨领域分词任务中尤其明显。”宋彦表示。 在论文中,宋彦等人提出了“基于键-值记忆神经网络的中文分词模型”。该模型利用“n元组”提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解,并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。 在“部分居民生活水平”这句话中,该模型通过神经网络,学习哪些词对于最后完整表达句意的帮助更大,进而分配不同的权重。像“部分”、“居民”、“生活”、“水平”这些词都会被突出,但“分居”、“民生”这些词会被降权处理,从而预测出正确的结果。 为了检验该模型的分词效果,论文进行了严格的标准实验和跨领域实验。实验结果显示,该模型在5个数据集上均达了最好的成绩。 “双通道注意力机制”有效剔除“噪音”误导 宋彦指出,中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。 在词性标注中,歧义仍然是个老大难的问题。在以往的标注工作中,使用外部自动工具获取句法知识是主流方法。在这种情况下,如果模型不能识别并正确处理带有“杂音”的句法知识,很可能会被不准确的句法知识误导,做出错误的预测。 针对这一问题,宋彦等人在论文中提出了一个“基于双通道注意力机制的分词及词性标注模型”。该模型将中文分词和词性标注视作联合任务,可一体化完成。 模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。 例如对“他马上功夫很好”这句话,该模型通过识别该句话的语境和上下文特征,对“马上”二字进行分开识别成“马/上”,而不是识别成“马上”。 “这样一来,那些不准确的、对模型预测贡献小的上下文特征和句法知识就能被识别出来,并被分配小的权重,从而避免模型被这些有‘噪音’的信息误导。”宋彦说。 该模型在5个数据集的表现也都超过前人的工作,得到了较好的效果。 推动中文分词和词性标注技术开源 据了解,中文分词在中国科研领域已经有几十年的历史。最初的中文分词是基于词典构建,词典的好坏会直接影响到最后分析的效果。如果某个新词在词典里没有,那么模型是死活都分不出来的。 “这意味着,词典和分词两件事情中间始终有一条鸿沟,尽管词典可以编撰得非常全面,但在分词的时候,因为每一句话都有上下文语境,往往会产生多种不同的切分方法,从而无法有效地在当前语境下对分词结构进行恰当的指导。”宋彦说。 从2003年开始,分词方法出现了新的突破。研究人员提出了打标签的方式,通过给每一个字打词首、词尾、词中的标签,不再需要构建词典,大幅度提升了未登录词的机器理解效果。 2014年左右,深度学习和神经网络开始被广泛应用到中文分词中,打标签的模型从之前的浅层学习变成了深度学习,但算法本质没有发生变化,所以提升作用并不太大。 近两年,学界开始研究怎么在打标签的过程中加入外部知识和信息。“我们的两篇文章就是沿着这个路径,用记忆神经网络的方式记录对分词结果有影响的n元组,并引入对词性标注有影响的句法知识,将分词结果和自动获得的知识衔接起来,既发挥了神经网络的优势,也把知识的优势用上,实现了分词技术上小而有效的改进和突破。”宋彦说。 宋彦表示,做此项研究的目的是主要为了拓展其工业场景的应用,正确的分词能够平衡应用开发的效率和性能,同时方便人工干预及(预)后处理。 而这也是创新工场人工智能工程院的努力方向之一。据悉,创新工场AI工程院成立于2016年,旨在衔接科技创新和行业赋能,做嫁接科研和产业应用的桥梁,为行业改造业务流程、提升业务效率。 AI工程院下设北京总部、南京研究院和大湾区研究院。在大湾区研究院,下设信息感知和理解实验室,专注于对自然语言处理(NLP)领域的研究。宋彦本人也有超过15年的NLP领域的科研经验。 目前,这两篇论文的分词和词性标注工具都已经开源,对应的代码和模型向公众开放,以方便学者提升相关领域科研效率和场景应用。 相关论文信息:https://www.aclweb.org/anthology/2020.acl-main.734/ https://www.aclweb.org/anthology/2020.acl-main.735/
个人分类: NLP|1 次阅读|0 个评论
Lucene 6.0 配置,整合mmseg4j分词器
linqy 2017-10-19 16:00
Lucene具有很好的索引和检索功能,但是对中文的分词较差,mmseg中文分词效果好,因此两者结合起来,效果较好。 下面进行相关的配置: github地址:https://github.com/chenlb/mmseg4j-from-googlecode 官方博客地址:http://blog.chenlb.com/category/mmseg4j 其中 pom.xml配置: dependency groupId com.chenlb.mmseg4j / groupId artifactId mmseg4j-solr / artifactId version 2.3.0 / version exclusions exclusion groupId org.apache.solr / groupId artifactId solr-core / artifactId / exclusion / exclusions / dependency 进行mmseg分词的具体代码(java): import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.TextField; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.index.IndexWriterConfig.OpenMode; import org.apache.lucene.index.Term; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TermQuery; import org.apache.lucene.search.TopDocs; import org.apache.lucene.store.Directory; import org.apache.lucene.store.RAMDirectory; import com.chenlb.mmseg4j.analysis.ComplexAnalyzer; public class LuceneTest { static Analyzer analyzer = null ; static Directory directory = null ; static String text = CSDN.NET - 全球最大中文IT社区,为IT专业技术人员提供最全面的信息传播和服务平台 ; static String text1 = 京华时报1月23日报道 昨天,受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。 ; public static void main(String[] args) throws Exception { analyzer = new ComplexAnalyzer(); directory = new RAMDirectory(); IndexWriterConfig iwConfig = new IndexWriterConfig(analyzer); iwConfig.setOpenMode(OpenMode.CREATE_OR_APPEND); IndexWriter iwriter = new IndexWriter(directory, iwConfig); ListString list = new ArrayListString(); list.add(text); list.add(text1); for (String item : list) { Document doc = new Document(); doc.add( new TextField( text , item, Field.Store.YES)); iwriter.addDocument(doc); } iwriter.close(); DirectoryReader ireader = DirectoryReader.open(directory); IndexSearcher searcher = new IndexSearcher(ireader); Query q = new TermQuery( new Term( text , 西伯利亚 )); System.out.println(q); TopDocs tds = searcher.search(q, 10 ); System.out.println( ======size: + tds.totalHits + ======== ); for (ScoreDoc sd : tds.scoreDocs) { System.out.println(sd.score); System.out.println(searcher.doc(sd.doc).get( text )); } } } 参考: http://blog.csdn.net/joker233/article/details/51909833
个人分类: Lucene|3248 次阅读|0 个评论
[转载]中文分词器mmseg4j在JAVA中直接使用实例
linqy 2017-10-18 11:08
所使用的mmseg4j版本为1.8.5.下载地址 http://code.google.com/p/mmseg4j/ 将jar导入工程后,编写代码: import java.io.File; import java.io.IOException; import java.io.StringReader; import com.chenlb.mmseg4j.ComplexSeg; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MMSeg; import com.chenlb.mmseg4j.Seg; import com.chenlb.mmseg4j.Word; public class Fenci { public static void main(String[] args) throws IOException{ String txt = ; txt = 那个好看的笑容里面全是悲伤,他在行尸走肉的活着,他的故事悲伤的像一场没有结局的黑白电影,他是她小说里的主角, 她懂他,他爱过她,她不知道自己是爱他的的外表,还是爱他的故事,还是爱他身上的那个自己。; File file = new File(/home/jianglu/下载/mmseg4j/data);//词典的目录 Dictionary dic = Dictionary.getInstance(file);//建立词典实例,与比较老的版本中不相同。不能直接new。 Seg seg = null; // seg = new SimpleSeg(dic); seg = new ComplexSeg(dic); MMSeg mmSeg = new MMSeg(new StringReader(txt), seg); Word word = null; while((word = mmSeg.next())!=null) { if(word != null) { System.out.print(word + |); } } } }
个人分类: mmseg|1626 次阅读|0 个评论
mmseg4j: 中文分词
seawan 2012-6-4 19:50
http://code.google.com/p/mmseg4j/ 这是一个96年发表的分词算法 的一个实现。算法页面: http://technology.chtsai.org/mmseg/ 下载试了试,对古文的效果也不错。估计使用自定义的词典后效果更好。 =============随便跳了两段话,直接在命令行中分词的结果==================== mmseg4j-complex高上玉皇本行經髓一卷共3頁 高 | 上 | 玉皇 | 本行 | 經 | 髓 | 一卷 | 共 | 3 | 頁 mmseg4j-complex撰人不詳。約出於元代。一卷,收入《道藏》洞真部本文類。此篇摘錄《 高上玉皇本行經》之要旨,係該經縮寫本。刪去原經中關於玉帝修道證果故事和玉皇大神咒 文,保留玉帝化身演說清靜解脫之道,以及世人誦經功德。篇末附"傳經源流",內稱至正四 年(1344)劉處源受此經于毗陵道士,可見本篇約出於元代。 撰 | 人 | 不 | 詳 | 約 | 出 | 於 | 元代 | 一卷 | 收入 | 道藏 | 洞 | 真 | 部 | 本 文 | 類 | 此 | 篇 | 摘 | 錄 | 高 | 上 | 玉皇 | 本行 | 經 | 之 | 要旨 | 係 | 該 | 經 | 縮 | 寫 | 本 | 刪 | 去 | 原 | 經 | 中 | 關 | 於 | 玉帝 | 修道 | 證 | 果 | 故事 | 和 | 玉皇 | 大 | 神 | 咒文 | 保留 | 玉帝 | 化身 | 演 | 說 | 清 | 靜 | 解 | 脫 | 之道 | 以及 | 世人 | 誦 | 經 | 功德 | 篇 | 末 | 附 | 傳 | 經 | 源流 | 內 | 稱 | 至 | 正 | 四年 | 1344 | 劉 | 處 | 源 | 受 | 此 | 經 | 于 | 毗 | 陵 | 道士 | 可 | 見 | 本 | 篇 | 約 | 出 | 於 | 元代
个人分类: tm|4404 次阅读|0 个评论
香港城市大学揭春雨副教授学术报告通知(自然语言处理相关)
timy 2011-9-13 21:58
学术报告通知 学术报告一 1. 时 间 : 9 月22 日 下午 3:00 2. 地 点 : 经管院41 5 3. 报告名称 : 基于语料库比较的术语自动识别方法 及其应用于文学比较研究 4. 报告提纲 本讲座讲述一种基于语料库比较的术语自动识别方法,我们在香港法律语料上的试验证明其有效性,进而展示此方法的基本思想在文学比较研究上的一个成功应用,就是简单的李白杜甫诗歌文本比较就能给出若干非常有趣的发现。 学术报告二 1. 时 间 : 9 月26 日 下午 3:50 2. 地 点 : 经管院 614 3. 报告名称 : 中文信息处理概览 4. 报告提纲 本讲座旨在对中文信息处理领域做一个入门性概览,简介在不同语言学层面上(例如字词句等)所涉的主要问题,然后集中介绍讲者多年所从事的若干研究论题,包括汉语自动分词、自动术语识别、句法分析和机器翻译等,作者及其研究小组在若干相关国际性学术评测中名列前茅。 揭春雨诗歌赏读 1. 时 间 : 9 月21 日 晚上 7 : 00 2. 地 点 : 经管院 105 3. 活动介绍 这次活动将以讲者的作品选例为基础,交流现代汉诗创作和欣赏,也会评介一些相关基本概念和时论,希望对大学生们提升诗歌以及相关艺术的鉴赏水平有所助益。讲者近年借学术之便在若干大学举行类似活动,场次反响热烈,超乎预想,希望这次也能让同学们广有所得。特别欢迎有创作趣向者参与及讨论。 附:报告人简介 揭春雨博士,副教授, 1964 年生于雷州半岛, 1985 年毕业于清华计算机系,是较早从事中文信息处理学术特别是汉语自动分词的先行者之一,曾在社科院和香港城市大学攻读语言学硕士,后留学卡内基梅隆( Carnegie Mellon )大学,又转赴英国谢菲尔德 (Sheffield) 大学师从自然语言处理界学术大师维尔克斯 (Yorick Wilks) 教授,获计算机博士学位,回香港城市大学任教至今,为博、硕士导师,获终身教职,在国际会议学术刊物上发表论文近百篇,学术兴趣包括计算语言学、计算术语学、机器翻译和计算诗学等。更多信息请参见揭春雨副教授个人主页: http://personal.cityu.edu.hk/~ctckit/ 。 欢迎校内外各界人士参加! 南京理工大学经济管理学院 信息管理系 二零一一年九月十三日
个人分类: 自然语言处理|7189 次阅读|0 个评论
知识抽取中的停用词处理技术
huabolin 2008-10-24 13:13
知识抽取中的停用词处理技术 化柏林 ( 中国科学技术信息研究所,北京 100038) (发表于《现代图书情报技术》2007年第8期) 【摘要】 在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。 知识抽取中的停用词处理技术
个人分类: 知识抽取|4644 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 06:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部