科学网

 找回密码
  注册

tag 标签: 一体化医学语言系统

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

一体化医学语言系统(UMLS)
xupeiyang 2010-11-23 08:20
一体化 医学语言系统( Unified Medical Language System; UMLS) http://www.nlm.nih.gov/research/umls/ ) UMLS( Unified Medical Language System)是美国国立医学图书馆(NLM)自1986年起研究和开发的一体化医学语言系统。   UMLS是计算机化的情报检索语言集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工具,而且是实现跨数据库检索的词汇转换系统,它可以帮助用户在联接情报源,包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中对其中的电子式生物医学情报作一体化检索。   UMLS包括四个部分:超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(Information Sources Map)和专家词典(SPECIALIST Lexicon)。其中超级叙词表是生物医学概念、术语、词汇及其涵义、等级范畴的广泛集成。语义网络则是为建立概念术语间相互错综复杂关系而设计的,是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具。   UMLS的语义网络不仅运用了常规的语义控制手段,如语义等级、属分、相关关系控制,而且在语义规范和语义关系分析、延伸等多方面有许多创新。 http://www.nlm.nih.gov/cgi/mesh/2011/MB_cgi National Library of Medicine - Medical Subject Headings 2011 MeSH MeSH Descriptor Data Return to Entry Page Standard View. Go to Concept View ; Go to Expanded Concept View MeSH Heading Unified Medical Language System Tree Number L01.453.245.945.800 Annotation CATALOG: use NAF entry Scope Note A research and development program initiated by the NATIONAL LIBRARY OF MEDICINE to build knowledge sources for the purpose of aiding the development of systems that help health professionals retrieve and integrate biomedical information. The knowledge sources can be used to link disparate information systems to overcome retrieval problems caused by differences in terminology and the scattering of relevant information across many databases. The three knowledge sources are the Metathesaurus, the Semantic Network, and the Specialist Lexicon. Entry Term Metathesaurus Entry Term UMLS See Also Subject Headings See Also Terminology as Topic Allowable Qualifiers CL EC ES HI IS LJ MA OG SD SN ST TD UT History Note 92 Date of Entry 19920327 Unique ID D017432 MeSH Tree Structures Information Science Information Services Documentation Vocabulary, Controlled Current Procedural Terminology Diagnostic and Statistical Manual of Mental Disorders Healthcare Common Procedure Coding System International Classification of Diseases Logical Observation Identifiers Names and Codes Subject Headings + Systematized Nomenclature of Medicine Unified Medical Language System http://www.gopubmed.org/web/gopubmed/1?WEB1mOWEB10O00d000j10020001000h00100090000 UMLS and ontology 109 documents semantically analyzed Top Years Publications ‍ 2006 15 ‍ 2009 13 ‍ 2008 13 ‍ 2007 13 ‍ 2003 13 ‍ 2004 7 ‍ 2005 7 ‍ 2010 5 ‍ 2001 5 ‍ 2000 5 ‍ 2002 3 ‍ 1998 3 ‍ 1995 2 ‍ 1999 1 ‍ 1997 1 ‍ 1994 1 ‍ 1993 1 ‍ 1992 1 Top Countries Publications ‍ USA 57 ‍ France 12 ‍ Germany 9 ‍ United Kingdom 7 ‍ China 3 ‍ Spain 3 ‍ Italy 3 ‍ Sweden 2 ‍ Greece 2 ‍ Canada 2 ‍ Netherlands 1 ‍ Australia 1 ‍ Japan 1 ‍ Croatia 1 ‍ New Zealand 1 ‍ South Korea 1 ‍ Brazil 1 ‍ Denmark 1 1 2 3 Top Cities Publications ‍ Bethesda 9 ‍ New York City 7 ‍ Stanford 5 ‍ Freiburg 5 ‍ Rennes 5 ‍ Pittsburgh 5 ‍ Seattle 4 ‍ Cambridge 3 ‍ Houston 3 ‍ Beijing, China 2 ‍ Boston 2 ‍ Thessaloniki 2 ‍ Kansas City 2 ‍ Pavia 2 ‍ Manchester, United Kingdom 2 ‍ Paris 2 ‍ Cincinnati 1 ‍ Wageningen 1 ‍ Miami 1 ‍ Sydney 1 1 2 3 1 2 Top Journals Publications ‍ Amia Annu Symp Proc 16 ‍ Stud Health Technol Inform 15 ‍ Proc Amia Symp 10 ‍ J Biomed Inform 7 ‍ Bmc Bioinformatics 6 ‍ Pac Symp Biocomput 5 ‍ Method Inform Med 5 ‍ Bioinformatics 3 ‍ Proc Annu Symp Comput Appl Med Care 3 ‍ Nucleic Acids Res 2 ‍ Yearb Med Inform 2 ‍ Comp Funct Genomics 2 ‍ Conf Proc Ieee Eng Med Biol Soc 2 ‍ Comput Biol Med 2 ‍ Artif Intell Med 2 ‍ J Am Med Inform Assn 2 ‍ Bmc Med Inform Decis Mak 1 ‍ Adv Exp Med Biol 1 ‍ J Biomed Semantics 1 ‍ J Integr Bioinform 1 1 2 1 2 3 ... 16 Top Terms Publications ‍ Language 58 ‍ Humans 57 ‍ Knowledge 54 ‍ Medication Systems 42 ‍ Evaluation Studies as Topic 28 ‍ Genes 26 ‍ Computational Biology 25 ‍ Gene Ontology 22 ‍ Algorithms 20 ‍ Medicine 14 ‍ Anatomy 14 ‍ Anatomy 14 ‍ Nature 13 ‍ Database Management Systems 12 ‍ Foundations 11 ‍ mannosyl-oligosaccharide 1,2-alpha-mannosidase activity 11 ‍ Systems Integration 11 ‍ Genomics 10 ‍ Animals 10 ‍ Genome 9 1 2 3 ... 16 1 2 3 ... 18 Top Authors Publications ‍ Burgun A 6 ‍ Bodenreider O 6 ‍ Schulz S 5 ‍ McCray A 4 ‍ Lussier Y 4 ‍ Rosse C 4 ‍ Marquet G 3 ‍ Cantor M 3 ‍ Mejino J 3 ‍ Brinkley J 3 ‍ Fieschi M 3 ‍ Shah N 2 ‍ Maglaveras N 2 ‍ Bratsas C 2 ‍ Koutkias V 2 ‍ Kaimakamis E 2 ‍ Bamidis P 2 ‍ Mosser J 2 ‍ Cimino J 2 ‍ Ceusters W 2 1 2 3 ... 18
个人分类: 知识组织|10618 次阅读|0 个评论
MetaMap程序是如何把生物医学文本有效地匹配到一体化医学语言系统的超级词表的
zilu85 2008-10-12 08:35
文摘 :一体化医学语言系统( UMLS )是生物医学领域里面最大的词表,可以用在诸如年决策支持系统、病历管理、信息检索和数据挖掘之中。如何利用 UMLS 成为目前的重要话题。本文介绍了 MetaMap 程序是如何把生物医学的文本与 UMLS 中的超级词表( MetaThesaurus )相匹配,换言之,就是在生物医学文本中发现超级词表中的概念的方法。 MetaMap 使用知识密集型的方法:包括了符号、自然语言处理和计算语言学等技术。除了应用于信息检索和数据挖掘, MetaMap 是美国国立医学图书馆( NLM )的初步标引系统( indexing initiative system )的基础之一,这个标引系统应用于图书馆半自动和全自动的生物医学文献标引。 概述 目前,把自然语言的文本与生物医学知识库(包括 MeSH 词表和 UMLS )进行匹配的技术得到了长足的发展,例如 MicroMeSH , CHARTLINE CLARIT 等等。 MetaMap 的算法 MetaMap 是一个把生物医学文本与 UMLS 超级词表中的概念匹配起来的程序,该程序可以设置很多参数,这些参数用于控制 MetaMap 的输出以及内部运行(如单词变形的程度、是否忽略超级词表中含有常见词的字串,是否考虑字母的顺序等等)。 1 .切分 任一文本都被切分成简单的名词短语,这样就限定了下一步处理的范围,匹配的工作也更加易于管理。使用专家系统中的最小承诺切分器对文本进行浅显句法分析 ,对于在专家词典中没有唯一标签的单词,该切分器使用 Xerox 句子成分标签器标出句子结构(如名词、动词)。例如,对于 ocular complication of myasthenia gravis (重症肌无力的眼部并发症),切分器发现两个名词短语: ocular complication 和 of myasthenia gravis 经过简单的句法分析,将 ocular complication 分为 ,指明了 complication 是短语的中心部分( head ),对于标为介词、连词、限定词的单词,以后的处理将忽略之。 2 .产生变形体 对于每一个短语,利用专家词典以及同义词补充数据库中的知识,产生这些短语的变形体。所谓变形体包括这个短语本身(称之为发源词)以及首字母缩写词、缩写词、同义词和词源变异词,这些词的组合,最后是词形和拼写变形体。其基本过程如下图所示(不包括词形变异计算和拼写变异计算,为了提高效率,这些计算最后进行)。对于 ocular 这个发源词的变形体产生如下图: Ocular{ , 0=} Eye{ ,2=s} Eyes{ ,3=si} Optic{ ,4=ss} Ophthalmic{ ,4=ss} Ophthalmia{ ,7=ssd} Oculus{ ,3=4} Oculi{ ,4=di} 这些变形体按照其生成的过程按照树状结构排列,每一变形体后面跟着该变形体的词性,然后是对其与发源词的距离以及过程评分。例如,第一行 ocular (形容词)的距离评分为 0 ,过程为空( )。因为它本身就是发源词。同理,名词 ophthalmia 与发源词的距离为 7 ,其过程为 ssd ,即它是发源词 ocular 的同义词 eye 的同义词 ophthalmic 的词源变形 。 3 .检索候选词 经过检索超级词表,检索到包含有至少一个变形体的候选字串集合,可以通过参数来控制此检索过程,如 stop_large_n 参数可以排除对超级词表中出现 2000 次以上的单字母变形体和出现 1000 次以上的双字母变形体。另外,如果可能的话,还可以通过使用特殊的小型索引来提高候选词检索的效率。 4 .候选词的评价 对每一个超级词表候选词的评价首先是计算出与输入的短语词相匹配的候选词,然后用 4 种指标的加权平均组成的语言学评价函数计算输入短语与候选词之间的匹配程度,这 4 种指标是:中心度( centrality ),即包含中心词;变形情况( variation ):距离倒数的平均值;覆盖面( coverage )和内敛度( cohesiveness )。后两个指标用于测量候选词与文本的匹配程度和有多少个片段。最后按照匹配程度排列这些候选词。 上面的例子中,短语 ocular complication 的 9 个候选词如下图所示。如果候选词不是表达该概念的优选词,用括号把优选词显示出来。需要注意的是,所有用户文本中 complication 相对应的候选词的评分都要比 ocular 的高,这是因为 complication 是短语的中心词。 5 .建立匹配 把含有短语中相连的各个部分的候选词组合起来,就完成了完整的匹配。完整匹配的强度计算与候选匹配的计算一样。评分最高的完整匹配代表了 MetaMap 对原始短语的最优的表达。也就是说,对于 ocular complication 短语,其最高评分的完整匹配是 ocular 与 complication 或者 ocular 与 complication specific to antepartum or postpartum 组合。对于 complication 匹配过程说明了 MetaMap 的最大问题,即含义模糊的问题。两个概念都含有 complication 字串, MetaMap 无法区分之。这个问题在下面一部分可以得到部分的解决。 数据维护 每一次 UMLS 改版, MetaMap 都要更新其数据库文件,包括预先计算变形词表、语义类型和 MeSH 树状结构号的信息,以及按照超级词表中含有的单词的字串索引。需要力量最多的就是创建单词索引文件。采用 4 种方式过滤超级词表中的文件(主要是 MRCON )。 (1) 手工过滤 超级词表中的少量字串会引起问题,需要在进行其它过滤前将其手工过滤掉。如数字、单个字母、特殊的例子如 periods for menstruation (月经期间) 和含义模糊。幸运的是超级词表的设计者制定了可禁止的同义词的理念,即不能完整表达自己本身的字串或者缩写或者非正式的字串。超级词表中大多数可以导致出现问题的含义模糊都被标上可禁止字串。上面例子中提到的与 complication 匹配的 complication specific to antepartum or postpartum 就是因为没有被标上可禁止的例子。以后版本中会解决这个问题。 (2) 词汇过滤 词汇过滤是最温和的过滤。就是去掉实际上与表示某一概念的字串相同的字串,造成实际上相同的字串的情况包括: ² 不必要的附加说明。 ² 超级词表多义词指示符 ² NEC/NOS 变异 ² 字法通用:如对有逗号的字串进行重排,除非字串好像是用连词或介词的存在而决定的。 ² 大小写变异。 ² 连字符变异。 ² 拥有 词汇过滤就是根据上述标准对某一概念的所有字符串进行规范化,对每一组字串去掉其它的,仅保留一个字串。 (3) 类型过滤 除了滤除可禁止同义词,还可以根据术语语义类型( term type , TTY )排除一些术语。一般排除的类型包括缩写、过时的或某一种内部结构(如在 LOINC 中的实验检测描述, LOINC 是超级词表组成成分之一)。 (4) 句法过滤 最后一种过滤是指一种对超级词表字串本身的切分程序。由于一般的 MetaMap 处理包括了对文本中发现的简单名词短语的匹配,超级词表字串如果过于复杂不见得达到较好的匹配。这样要把含有一个以上的简单短语的字串也去掉。由于合成短语(含有正常格式的介词短语)很容易处理,所以这样的合成短语不被去除。 由于 MetaMap 既可用于高密度的语义处理,也可用于浏览,为此建立了三种不同过滤程度的数据模式: ² 严格模式:所有上述的三种过滤都用上。这种选择最适合准确度要求高的语义处理。严格模式包括英语超级词表(共 1 , 339 , 479 字串)中的 706 , 593 ( 53% )的字串。 ² 中度模式:包括了手工、词汇和类型过滤,但是没有句法过滤。这种方式适合将输入文本作为一个整体来看待而不是分为简单的短语。中度模式包括了 982 , 447 个字串( 73% )。 ² 宽松模式:只有手工和词汇过滤,采用这种模式可以获得全部的超级词表的字串,适用于浏览。宽松模式包括了 1 , 146 , 962 ( 86% )的超级词表字串。 超级词表的可用资源:略。 应用:略。
个人分类: 生物医学文本挖掘|13280 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 20:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部