T. Theodosiou et al. / Journal of Biomedical Informatics 44 (2011) 919–926 The basic assumption is that the terms that have almost the same probability of being observed within the results of a query and also in the entire PubMed database (excluding the results of the query) do not contain important information specific to the documents related to the query 基本假设是:一个词在检索结果文献集中被观察到的概率,如果与其在整个数据库(排除掉检索到文献集)中出现的概率无异的话,那么这词就不会包含重要的信息,这个信息的重要性是相对于与检索策略相关文献来说的。 用“jamia ”检索所有发表在美国医学信息学会杂志的文章,结果是这样的: ' jamia ' 3328 PubMed documents | MeSHy | cite us | code | contact us | BAT cave pair MeSH 1 MeSH category MeSH 2 MeSH category MeSH 1 - MeSH 2 score PMID(order):year 1 Pediatric Nurse Practitioners Named Groups (6) Pediatricians Pediatric Nurse Practitioners - Pediatricians 8.110 28339689(689): 2 Whole Genome Sequencing Whole Exome Sequencing Whole Genome Sequencing - Whole Exome Sequencing 8.110 30535356(381): 3 Zika Virus Zika Virus Infection Zika Virus - Zika Virus Infection 8.110 28449047(647): 4 Cancer Survivors Survivorship Cancer Survivors - Survivorship 7.417 26714765(923): 5 Electronic Nicotine Delivery Systems Vaping Electronic Nicotine Delivery Systems - Vaping 7.417 28505280(641): 6 Cloud Computing Information Science (3) Semantic Web Cloud Computing - Semantic Web 7.012 29648604(507): 7 phenomycin Chemical and Drugs (1) Big Data phenomycin - Big Data 6.724 29126253(562): 8 Patient Generated Health Data Survivorship Patient Generated Health Data - Survivorship 6.501 26714765(923): 会不会太重视罕见词了呢?
目标: 尽管很多癌症患者经历了多种症状的同时出现,但是大多数研究都侧重于对单一症状的分析。进一步讲,少量的分析症状在病人身上共现的研究也是使用诸如因子分析之类的方法,这类的方法要有个关于数据如何构建在一起的先验假设。为了突破这个限制,我们使用了网络可视化的方法来探究症状在病人身上共现的情况,然后利用专业知识选择并构造出测量指标来分析结果并使其具有实际意义。 方法 :我们对报告具有18种症状的11种癌症的665例患者的数据进行了二次分析。分析其总的(各类型癌症)和三种最常见类型的癌症,使用下面三个步骤: (1)尝试可视化分析: 使用对分网络的单模态映射( bipartite and one-mode network projections ) 来探索症状如何在病人身上共现的。 (2)定量分析: 对通过可视化技术观察到的模式利用下列方法进行分析:(a)病人间症状重复程度,(b)使用网络模块分析症状聚集的程度,(c)根据凝聚聚类方法对症状进行聚类,(d)根据共现次数最多的症状来分析症状的嵌套程度,以分析症状集的不同规模。 (3)对结果的有效性分析 :通过与同规模和分布的随机网络相比较,评估上述计量指标统计显著性。 结果:结果显示,如果症状在文献中典型报道过,这些症状不会在不同的类别中出现。这些症状更倾向于在一个嵌套结构中共现,存在着一个在很多病人中共现的很小的症状集合,和在少量病人中共现的大量症状集合。【少量的症状组合在大量的病人中出现,大量的症状组合在少量的病人中出现】进而言之,尽管不同类型的癌症其症状频次是不同的,但是在三种最常见的癌症中其总的嵌套模式是一致的。 结论: 结果表明:(1)与明确的聚类不同,癌症症状以一种嵌套的形式共现。(2)探索性网络分析显示病人和症状之间的复杂关系,避免了先验假设,因而比较有价值。(3)新的方法来定量评估共现数据的重复程度和嵌套结构。(4)进行系统设计中,通过解决症状共现的复杂性来帮助症状管理。本研究的局限性在于只分析了一个数据集,将来的研究将尝试在其他类似的数据库中再现结果。 【转译自2009年美国医学信息学年会会议论文 作者:Suresh K. Bhavnani等 单位:Center for Computational Medicine Bioinformatics, Michigan Institute for Clinical and Health Research 标题: The Nested Structure of Cancer Symptoms: Implications for Analyzing Co-occurrence and Managing Symptoms 】
生物学文本数据存储量的急剧增长使得造成了人类方便有效地获取所需信息上的困难。问题的出现是由于大多数信息都隐含在无结构或者半结构的文本中,这些文本计算机无法轻易地理解。 本文介绍了一个基于本体的生物学信息抽取与查询应答系统( Biological Information Extraction and Query Answering , BIEQA ),该系统首先通过对一组存储在生物学本体中的概念进行文本挖掘,然后应用自然语言处理技术和共现分析技术挖掘出概念间可能的生物学关系。系统用文本挖掘方法将每一对生物学概念间频繁出现的生物学关系抽取出来。挖掘出来的关系都标有成员隶属程度的模糊值,该值等于该关系出现频次占整个文献集合中关系频次的比例,称作模糊生物学关系。把从文本集合中抽取出来的模糊生物学关系与其他诸如关系中出现的生物学条目等相关信息存储于数据库中。 数据库与问询处理模型集成在一起。查询处理模型带有界面,指导用户生成不同精确度的正规检索策略。 Biological relation extraction and query answering from MEDLINE abstracts using ontology-based text mining Muhammad Abulaish and Lipika Dey Data Knowledge Engineering Volume 61, Issue 2 , May 2007, Pages 228-262