科学网

 找回密码
  注册

tag 标签: 共现

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

MeSHy:Mining unanticipated PubMed information
zilu85 2020-7-13 16:41
T. Theodosiou et al. / Journal of Biomedical Informatics 44 (2011) 919–926 The basic assumption is that the terms that have almost the same probability of being observed within the results of a query and also in the entire PubMed database (excluding the results of the query) do not contain important information specific to the documents related to the query 基本假设是:一个词在检索结果文献集中被观察到的概率,如果与其在整个数据库(排除掉检索到文献集)中出现的概率无异的话,那么这词就不会包含重要的信息,这个信息的重要性是相对于与检索策略相关文献来说的。 用“jamia ”检索所有发表在美国医学信息学会杂志的文章,结果是这样的: ' jamia ' 3328 PubMed documents | MeSHy | cite us | code | contact us | BAT cave pair MeSH 1 MeSH category MeSH 2 MeSH category MeSH 1 - MeSH 2 score PMID(order):year 1 Pediatric Nurse Practitioners Named Groups (6) Pediatricians Pediatric Nurse Practitioners - Pediatricians 8.110 28339689(689): 2 Whole Genome Sequencing Whole Exome Sequencing Whole Genome Sequencing - Whole Exome Sequencing 8.110 30535356(381): 3 Zika Virus Zika Virus Infection Zika Virus - Zika Virus Infection 8.110 28449047(647): 4 Cancer Survivors Survivorship Cancer Survivors - Survivorship 7.417 26714765(923): 5 Electronic Nicotine Delivery Systems Vaping Electronic Nicotine Delivery Systems - Vaping 7.417 28505280(641): 6 Cloud Computing Information Science (3) Semantic Web Cloud Computing - Semantic Web 7.012 29648604(507): 7 phenomycin Chemical and Drugs (1) Big Data phenomycin - Big Data 6.724 29126253(562): 8 Patient Generated Health Data Survivorship Patient Generated Health Data - Survivorship 6.501 26714765(923): 会不会太重视罕见词了呢?
个人分类: 生物医学文本挖掘|3003 次阅读|0 个评论
共现分析乱弹(2)
zilu85 2012-8-11 11:14
2.聚类结果的判读问题 如何判读共现聚类分析的结果,或者具体地说,系统聚类的树状图中区分类的相似性阈值到底选多少?私下里认为:应当遵循一个“局部最优化”的原则。 以某个学科(如物理学)当前的研究结构的分析为例,我们对其高被引论文做了同被引聚类分析或者高频主题词的共现聚类分析,其结果反映了这个学科活动的实际状况,这是毋庸置疑的,但是我们要记住,我们也只是从一定程度上或者一定侧面上了解和表现了这个对象。对于这个学科的专家而言,多年的学习和研究在他们的脑子里已经形成了这个学科的知识框架结构,你偏要说你的共现分析结果是客观的,正确的,其实可能是武断的。我们和专家一样都是站在不同的角度看一个问题,何况我们毕竟是为人家服务的,“做事不由东,累死也无功”。 局部最优,就是强调在聚类的小范围内是合理的,最先聚集到一起的论文和词是有显著意义的,在树状结构图中最底层的几个小类是可以称作一个研究方向或者热点的;而在大范围上,不要通过聚类树状图说物理科学的研究主要分成几个大的部分,这几个大的部分又包括几个小的部分,......。就是说,遵循自下而上的原则,越往上其合理性就越差。你可以尝试对一组数据用不同的相思系数和不同类间距离的计算方法(如最大最小平均距离等),其小类是比较稳固的,大类则是多变的。 因此,在共现分析的具体实践中,除了在决定类数和解读聚类结果中保持“局部最优”的理念之外,还应当注意选择侧重局部最优的聚类算法,而不必追求全局参与的聚类算法。
个人分类: 文献计量学|4405 次阅读|0 个评论
共现分析乱弹(1)
热度 1 zilu85 2012-8-9 10:33
既然是乱弹,就是胡说八道,胡思乱想,经不起推敲。大家看了一笑置之,不要当真啊。 从1995年我发表第一篇高被引论文的同被引聚类分析论文算起,到今天已经将近20年了,越来越多的人对这个方法感兴趣,自己积累的经验也越来越多,一些感觉上的东西也逐渐发芽长大,但是,又没有经过仔细的推敲考证,所以就胡乱谈谈。 1.共现的种类 共现分析如果从历史上看,应该是先提出了引文耦合和同被引的概念,但是最先实践中使用的是同被引分析,其后(?)又有了合著和共词分析,可以共现分析的项目越来越多,虽然还有共句子、共文摘的分析,但是基本上限定在书目文献数据库中的文献记录的范围内。从文献记录的角度来讲,我认为可分为篇内共现和篇间共现两种。篇内共现,是指在一篇文章内同一字段中共同出现的条目,如著者共现,著者单位共现,关键词/主题词共现,和引文共现(即同被引)等,也就是说,只有是同一字段中出现一个以上的条目,就存在着共现的现象。篇间共现,则是两篇论文之间相同字段之间出现的相同的条目,典型的就是引文耦合,在两篇论文的引文字段中存在着相同的条目。其余的,如主题词的篇间共现,就是以前提出的主题词链;著者的篇间共现则是一个著者写了多少篇论文了,可见,篇间共现有的意义大一些,有的则意义小一些。人类思维的习惯就是东西多了就要对其进行一番整理和归类,整理归类之后,对问题的认识就能清晰一些。这个篇内和篇间的提法,是从共现形成的角度来区分共现的类型的,如果能从诸多共现的功能或者所反映出来的内容来进一步整理,则更有实践意义。当然,最好是理论和实践意义兼顾。
个人分类: 文献计量学|4049 次阅读|1 个评论
感兴趣的另类小软件
热度 5 zilu85 2010-9-24 11:44
tagxedo: www.tagxedo.com ,应该是词频统计的,没打开。 wordle: www.wordle.net ,应该是词频统计可视化,但是也没打开。通过这个学到一个新词,词云, word cloud。 vosviewer: http://www.vosviewer.com/ ,这个是共现可视化。 CiteSpace: http://cluster.cis.drexel.edu/~cchen/citespace/ ,这个目前在国内很流行,可是说明书不好,具体的内部算法(如突发词,前沿的定义)也是一家之言,如果你认可这种算法,就放心地用。 TI.exe: http://www.leydesdorff.net/software/chinese/index.htm ,共现分析软件,来自 Loet Leydesdorff 的网站,甚至有中文版,没用过。 BIBEXCEL : http://www8.umu.se/inforsk/Bibexcel/ 共现矩阵生成软件,在科学网的博客里已经介绍很多了。 gCLUTO: http://glaros.dtc.umn.edu/gkhome/cluto/gcluto/download ,双向聚类分析。 Cluster: http://bonsai.hgc.jp/~mdehoon/software/cluster/,聚类分析
个人分类: 休闲|7912 次阅读|6 个评论
文献共现分析入门
热度 1 zilu85 2010-2-3 08:46
1. 分类号、主题词与关键词 在信息管理领域中,对文献内容的标识主要采用分类语言和主题语言。 分类语言,也称分类法,是用分类号来表达主题概念,这些分类号来自于事先编制好的分类表,而分类表则是依据知识原有的体系结构将主题概念组织排列成为类目体系(如图书馆里采用的《中国图书馆图书分类法》),比如将医学知识分为医学总论、预防医学、中医学、基础医学和临床医学等几个大类别,临床医学有进一步分为内科、外科、妇科、儿科等更细的类目,如同一棵大树,将医学知识逐级分支、细化。信息管理人员在处理文献时,首先分析文献的主要内容,然后在分类表中找到对应的类目后赋予其相应的分类号。图书馆的读者在查询相应类别的图书或者文章的时候就可以沿着知识分类的体系找到对应的类目,由此找到相关主题的文献。 主题语言是一种用比较规范了的文字直接表达主题概念的标引语言。主题语言可以进一步分为标题词、单元词、主题词、关键词等,其中最常见的是主题词和关键词。主题词就是一些以概念为基础的、经过规范化的词和词组,而关键词则是从文献的题目、正文或摘要中抽出的能表征文献主题内容的具有实质意义的词语。二者最大的区别就是主题词是规范化的,一个概念只能对应与一个主题词,一个主题词只能对应一个概念;而关键词则是来自于作者的自然语言,在不同的文献中,一个概念可以有不同的表达方式(如一种药物在不同作者的论文中可以用其商品名、化学名和常用名),有时一个关键词可能表达多个概念(如P53可以是基因或者蛋白)。 2.频次排序分析 对作者、期刊和引文的统计分析,可以帮助我们从一个侧面了解某个研究主题的状况;而主题词和关键词作为文献数据库中反映论文的主要观点的标识,对其汇总和统计分析,则可以直接反映出研究的结构和趋势。 对于这些指标的分析中,我们比较常用的统计分析技术就是频次排序技术。就是将被统计的对象(如作者、期刊和主题词)都按照它们出现的频次从高到低排序,由此发现其中的规律。如布拉德福定律就是将期刊按照发表相关论文的数目从高到低排列,洛特卡定律的研究也是把作者按照发表论文的数目从高到低排列,由此发现了集中-离散的规律。 对于主题词或者关键词,也可以采用这种技术进行分析。例如,我们可以从PubMed数据库中检索到所有有关胃癌治疗的相关文献记录,抽取每篇论文的主题词,然后进行频次统计(如表10-5)。 这些主题词是所检索时间段内(本例为2009年 9月13日检索的最近5年的胃癌治疗文献)出现频次最多的主题词,如胃肿瘤的手术治疗、胃肿瘤的药物治疗、联合化疗方案的应用、胃切除的方法、胃肿瘤的病理等,这些都是当前胃癌研究人员最为关注的主题,因此也是近一阶段研究的热点。 表1 胃癌/治疗高频主题词列表(部分) 序号 关键字段 出现频次 百分比% 累计百分比% 1 Stomach Neoplasms / surgery 1440 9.7813 9.7813 2 Stomach Neoplasms / drug therapy 1324 8.9933 18.7746 3 Antineoplastic Combined Chemotherapy Protocols / therapeutic use 651 4.4220 23.1966 4 Gastrectomy / methods 366 2.4861 25.6827 5 Stomach Neoplasms / pathology 354 2.4046 28.0872 6 Stomach Neoplasms / therapy 328 2.2280 30.3152 7 Adenocarcinoma / drug therapy 321 2.1804 32.4956 8 Adenocarcinoma / surgery 289 1.9630 34.4586 9 Gastrectomy 214 1.4536 35.9122 3. 共现分析 通过对高频主题词的词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些主题词按照出现频次由高到低的排列还不能表现出这些高频主题词之间的联系,因此我们可以采用共现分析的技术来进一步挖掘这些主题词之间的联系。主题词的共现分析是根据主题词在同一篇论文中共同出现的次数来表示主题词之间的联系。一般认为,如果两个主题词频繁在同一篇论文中同时出现,往往表明这两个主题词之间具有比较密切的联系。这就是共现分析的理论基础。 在MEDLINE数据库中存储的每一条纪录都被标引10个左右的主题词以及相应的副主题词,尽管在同一篇文章中出现的主题词之间没有明确的关系,但是我们还是可以通过分析这些主题词出现的具体情形(如检查每个主题词的副主题词)而推理出这些主题词之间的关系。例如,如果MEDLINE数据库的一篇文献记录中有x疾病的病因和Y药的副作用这两个主题词,人们自然会想到Y药引起了x病。通过查看原文就可以验证疾病和药物之间这种关系的有效性。因此,我们可以认为这些关系具有语义学上的意义。 对于代表研究热点的高频主题词统计它们共现次数后,可以形成一个高频主题词的共现矩阵。如表2。其中的行和列的数字代表主题词,与表1中的主题词序号对应,如1代表的是Stomach Neoplasms/surgery;矩阵中对角线的数字代表该主题词出现的总次数,非对角线上的数字表示的是两个主题词共同出现的次数,如1号与2号主题词共同在60篇论文中出现,1号与3号主题词共同在38篇文献中出现。这些数据经过适当的计算后转换为相关系数,成为相关矩阵后,就可以显示出高频主题词之间的亲疏程度,为进一步分析做好了准备。 表2 主题词共现矩阵(局部) 1 2 3 4 5 6 7 8 9 1 1440 60 38 351 178 6 13 289 150 2 60 1324 616 13 141 0 320 12 53 3 38 616 651 10 89 27 193 11 42 4 351 13 10 366 29 4 3 64 0 5 178 141 89 29 354 31 13 38 26 6 6 0 27 4 31 328 0 2 12 7 13 320 193 3 13 0 321 12 20 8 289 12 11 64 38 2 12 289 38 9 150 53 42 0 26 12 20 38 214 4. 聚类分析 获得了相似矩阵之后,我们可以将其输入到统计分析软件(如SAS,SPSS等),选择相应的模块进行聚类分析(cluster analysis)。 我们经常说:物以类聚,人以群分,聚类分析是一种重要的人类行为。它是指将物理或抽象对象的集合分组,使其成为由类似的对象组成的多个类的分析过程。从数据的角度讲,聚类是通过计算分类对象在各个属性上的相似程度,将对象分类到不同的类或者簇的过程,使得同一个类中的对象有很大的相似性,不同类间的对象有很大的相异性。聚类与分类的不同在于聚类所要求划分的类预先是未知的。 以使用SPSS进行聚类分析为例,可以选择Analysis-Classify-Hierarchical过程,经过设置相应的参数后,对胃癌治疗的高频主题词共现矩阵进行分析,最后获得该研究领域高频主题词的共现聚类分析树图(如图1)。 首先对聚类树图的结构进行分析。聚类树图中的最左边的一列标号(Label)和数字(Num)代表着高频主题词,由于采用的是系统聚类法的凝聚聚类算法,因此,最初每一个主题词都是单独的一个类,通过计算每一对主题词之间的相似性,首先是2号和3号主题词聚集成为一个类,然后它们又合7号主题词合成为一个类。图中最上方的带有数字的标尺表示分类对象之间的距离。随着被分类的对象(主题词)之间的聚类越来越大,距离最终所有的主题词都成为一个类,我们可以根据需要在不同的距离水平上分割整个聚类树图,通过树图的结构我们可以看到,所有的主题词大致可以分为三个部分:由2、3、7号词组成的一个类别(A),由1、4、8、5、9号主题词组成的一个类别(B),和由6号词单独组成的一个类别(C)。 对各个类别主题词之间语义关系的分析。基于凝聚聚类算法的原理,对聚类分析结果的语义分析也采用了自下而上的步骤。即首先获取各个小类的含义,然后把各个小类的含义组合成为大类的含义。具体而言,就是首先从每个小类中关系最近的两个主题词着手,分析二者之间的语义关系,获得该类的种子概念,在种子概念的基础上,根据同类别中其他主题词与该种子的距离,逐次加入主题词,丰富该类别的内容,一般而言,距离比较远的主题词往往是该核心的相关因素,如具体的应用或者影响因素。本例中,对于3个高频主题词的类别中的主题词进行具体的语义分析,可以发现: 在A类中,Stomach Neoplasms/drug therapy,胃肿瘤/药物治疗(2)与 Antineoplastic Combined Chemotherapy Protocols/therapeutic use,抗肿瘤联合化疗方案/治疗应用(3)组合在一起表明的是对胃肿瘤采用联合化疗,加上Adenocarcinoma/drug therapy,腺癌/药物治疗(7)表明这一类主要是关于胃腺癌的联合化疗的主题。 图1 胃癌治疗高频主题词聚类分析结果(部分) 在B类中,Stomach Neoplasms/surgery,胃肿瘤/手术 (1) 与Gastrectomy / methods,胃切除/方法(4)表明是关于胃肿瘤外科手术切除治疗的主题,同样,Adenocarcinoma/surgery,腺癌/手术(8)也是说明主要是针对胃腺癌的手术切除治疗,Stomach Neoplasms/pathology,胃肿瘤/病理则是说明这种疗法会受到不同的病理类型的影响。这一类别最边缘的主题词Gastrectomy,胃切除(9)没有副主题词,则是表示对胃切除的概述,是对上述主题的强化,由于与其他主题词距离比较大,也可以忽略不计。 C 类则是单独一个单词,Stomach Neoplasms/therapy,胃肿瘤/治疗(6)则表示的是对各种治疗方法的概述性研究主题。 综上,我们可以总结出目前胃癌治疗研究的主要方向有三个:(1)胃癌胃腺癌的联合化疗,(2)胃腺癌的手术切除治疗(包括病理因素的影响),(3)胃肿瘤各种治疗方法。 通过对特定领域或者学科的高频主题词的共现聚类分析,我们就可以客观地反映出当前该领域研究的热点。其他表现文献内容的标识(如关键词、分类号)等,也可以用于此类分析。此外,一些表现文献外部特征的标识,如作者、引文等等,也可以进行共现分析,如作者的合著分析、引文的同被引分析、作者的同被引分析,这些都可以为展示某一学科领域里科学研究获得的结构和特点提供手段。这些分析的方法都是基于共现的聚类分析,其原理都是大同小异的。
个人分类: 生物医学文献计量学|22574 次阅读|8 个评论
癌症症状的嵌套结构:共现分析在症状管理的应用
zilu85 2009-12-1 11:45
目标: 尽管很多癌症患者经历了多种症状的同时出现,但是大多数研究都侧重于对单一症状的分析。进一步讲,少量的分析症状在病人身上共现的研究也是使用诸如因子分析之类的方法,这类的方法要有个关于数据如何构建在一起的先验假设。为了突破这个限制,我们使用了网络可视化的方法来探究症状在病人身上共现的情况,然后利用专业知识选择并构造出测量指标来分析结果并使其具有实际意义。 方法 :我们对报告具有18种症状的11种癌症的665例患者的数据进行了二次分析。分析其总的(各类型癌症)和三种最常见类型的癌症,使用下面三个步骤: (1)尝试可视化分析: 使用对分网络的单模态映射( bipartite and one-mode network projections ) 来探索症状如何在病人身上共现的。 (2)定量分析: 对通过可视化技术观察到的模式利用下列方法进行分析:(a)病人间症状重复程度,(b)使用网络模块分析症状聚集的程度,(c)根据凝聚聚类方法对症状进行聚类,(d)根据共现次数最多的症状来分析症状的嵌套程度,以分析症状集的不同规模。 (3)对结果的有效性分析 :通过与同规模和分布的随机网络相比较,评估上述计量指标统计显著性。 结果:结果显示,如果症状在文献中典型报道过,这些症状不会在不同的类别中出现。这些症状更倾向于在一个嵌套结构中共现,存在着一个在很多病人中共现的很小的症状集合,和在少量病人中共现的大量症状集合。【少量的症状组合在大量的病人中出现,大量的症状组合在少量的病人中出现】进而言之,尽管不同类型的癌症其症状频次是不同的,但是在三种最常见的癌症中其总的嵌套模式是一致的。 结论: 结果表明:(1)与明确的聚类不同,癌症症状以一种嵌套的形式共现。(2)探索性网络分析显示病人和症状之间的复杂关系,避免了先验假设,因而比较有价值。(3)新的方法来定量评估共现数据的重复程度和嵌套结构。(4)进行系统设计中,通过解决症状共现的复杂性来帮助症状管理。本研究的局限性在于只分析了一个数据集,将来的研究将尝试在其他类似的数据库中再现结果。 【转译自2009年美国医学信息学年会会议论文 作者:Suresh K. Bhavnani等 单位:Center for Computational Medicine Bioinformatics, Michigan Institute for Clinical and Health Research 标题: The Nested Structure of Cancer Symptoms: Implications for Analyzing Co-occurrence and Managing Symptoms 】
个人分类: 临床信息学|3560 次阅读|0 个评论
利用本体为基础的文本挖掘方法从MEDLINE文摘中抽取生物学关系抽取并应答查询
zilu85 2008-10-14 02:14
生物学文本数据存储量的急剧增长使得造成了人类方便有效地获取所需信息上的困难。问题的出现是由于大多数信息都隐含在无结构或者半结构的文本中,这些文本计算机无法轻易地理解。 本文介绍了一个基于本体的生物学信息抽取与查询应答系统( Biological Information Extraction and Query Answering , BIEQA ),该系统首先通过对一组存储在生物学本体中的概念进行文本挖掘,然后应用自然语言处理技术和共现分析技术挖掘出概念间可能的生物学关系。系统用文本挖掘方法将每一对生物学概念间频繁出现的生物学关系抽取出来。挖掘出来的关系都标有成员隶属程度的模糊值,该值等于该关系出现频次占整个文献集合中关系频次的比例,称作模糊生物学关系。把从文本集合中抽取出来的模糊生物学关系与其他诸如关系中出现的生物学条目等相关信息存储于数据库中。 数据库与问询处理模型集成在一起。查询处理模型带有界面,指导用户生成不同精确度的正规检索策略。 Biological relation extraction and query answering from MEDLINE abstracts using ontology-based text mining Muhammad Abulaish and Lipika Dey Data Knowledge Engineering Volume 61, Issue 2 , May 2007, Pages 228-262
个人分类: 生物医学文本挖掘|4856 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-14 04:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部