menmen的个人博客分享 http://blog.sciencenet.cn/u/menmen

博文

发现未知的已知:过去、现在和未来

已有 674 次阅读 2021-9-10 15:14 |系统分类:科研笔记

Neil R.Smalheiser, Department of Psychiatry, University of Illinois at Chicago

译注:杜建,北京大学健康医疗大数据国家研究院


企业微信截图_16312560493674_副本.png

注:图片来源于Google,侵删



编者按


科学出版物的海量剧增凸显了基于文献的知识发现( Literature-based Discovery, LBD)的重要性,它对加速知识获取和研究发展进程非常有益。


LBD的先驱是信息学家Don R. Swanson (1924-2012),他创立的情报学方法——基于非相关文献的知识发现——为情报研究和信息检索开辟了新的领域,于2000年获得了美国情报科学与技术学会(ASIST)最高成就奖。


伊利诺伊大学芝加哥分校的Neil R. Smalheiser教授与Don是多年挚友,曾在JDIS撰文重议Don的科学贡献并讨论了LBD未来的发展方向。温故知新,这篇文章为LBD提供了更广阔的研究视角。


01 未知的已知


科学哲学家Karl Popper认为人类存在于三个世界中——第一世界是客观的现实的世界,即自然世界,也是科学家试图了解的世界;第二世界是科学家的精神世界,例如科学家的思想和智力活动;第三世界主要是指科学家的知识成果,例如承载着科学发现、模型、观点、论断、主张等知识的科学出版物。就像人类无法完全了解自然世界(第一世界)一样,Don认为,人们同样无法完全了解第三世界。知识就在那里(例如正式发表),但还是会由于这样那样的原因而无法被人获知。


比如Thomas Royen撰写了一篇证明高斯相关不等式的论文,当这项成就难以被认可时,他选择在《远东理论统计杂志》这本不起眼的期刊上发表,这跟装进瓶子扔到海里有什么区别呢!


02 如何发现未知的已知


Don提出,通过寻找非相关文献之间的“桥接”,可为挖掘“未知的已知”提供路径。如果在一组文献集中包含“A影响B”,而在另一组文献集中包含“B影响C”,那么就有理由假设“A影响C”。连接A与C的B,被称为“隐特征“


Don注意到以雷诺氏病生理改变作为中间词,可将以鱼油和雷诺氏病为主题词分别检索到的两组原本无联系的文献联系起来,得出摄入鱼油或许可以缓解雷诺病的某些症状;通过饮食中镁元素的文献集与偏头痛的文献集,Don又指出镁元素可能具有预防或治疗偏头痛的作用。这些推断都在后来的临床研究中得到了验证。


 · 译者注 · 

Don提出的方法已成为一种医学科研范式,那知识发现和科学发现有何区别?

笔者认为,Knowledge discovery是数据驱动的,是计算科学家的主要工作;Scientific discovery是实验驱动的,是实验科学家的主要工作


知识发现,可以有两种理解。一种含义是:将信息碎片组合成一个新整体,代表新的/有希望的/令人惊讶的研究方向,或者提供潜在的变革性或突破性的见解或洞察。另一种含义是:分析和综合现有数据,以推测新的、而且能预测的到的日常信息。例如,基于人口普查数据库,通过名字猜测性别。目前,面向分类型预测任务的机器学习就属于这一类别。


所有用于知识发现的系统算法中都涉及通过其共享的“隐特征”(implicit features)将不同的文献集或实体联系起来。这里主要有两个过程:一是单向过程,称为开放式发现或假设生成过程;二是双向过程,称为封闭式发现或假设检验过程。对应的方法分别为单节点搜索和双节点搜索。


单节点搜索,即从一个待解决的问题出发,例如前列腺癌的治疗(C), 寻找一系列可能治疗前列腺癌的药物(A),以及A为什么能治疗C的机制(B)。


 · 译者注 · 

笔者认为这本身更像是一个科学发现的过程,似大海捞针,计算复杂度很高,认知复杂度(如何挑出更有可能的假设)也很高,直接生成一个假设(就像爱因斯坦说的提出一个问题)何其困难!单节点搜索最关键的局限性可能并非技术局限性,而是社会学局限性:单节点搜索旨在帮助正在寻找新假设的研究者——但大多数研究者已经拥有大量的潜在假设和发现,他们的目标不是找到更多的新假设,而是确定现有假设中最有可能的那个假设。


而双节点搜索策略的重要性体现在:

1.  研究者已经有了将A和C关联起来的假设(或初步实验发现),但没有任何已发表的文章对其进行了明确研究。

2.  研究者在讨论A的文章集和讨论C的文章集之间进行双节点搜索,并寻找共有的B词。

3.  目的是对B词列表进行排序以找出最相关和最可能的链接,并研究A与C相关联的可能机制。


03 知识发现的新方向


(1)唤醒被忽略的科学发现——


 · 译者注 · 

笔者结合Don教授发表的另一篇文章,认为“镁元素可以预防或减轻偏头痛”这一知识发现成果实际上早已有记载,但这一科学发现被人们忽略了,是Don教授用情报学的方法唤醒了这一科学发现。这也是科学文献挖掘中的“睡美人文献”的案例。


(2)挖掘哪些研究正在挑战甚至否定当前普遍被接受的知识主张——


 · 译者注 · 

笔者认为,重要的突破性(0到1)科研创新不是无中生有的,也不是发现了一个新现象,或在一流期刊出了一篇好论文,而是在目前科学领域的基础上,对现有的理论和技术有大幅度革新(产生研究范式革新)。在现有范式框架内,提出一个新假设,能证实它,只是渐进性(1-100)研究;无法证实它(即试验得不到期待的结果),甚至能证伪它(得到阴性结果),才更重要,这是孕育变革性研究的源泉。

开发文本挖掘工具以识别对共识性认识的否定并帮助研究者确定哪些有望被研究是有价值的。例如,我们注意到在试管中Argonaute蛋白会与DNA结合,但研究者只是简单地认为它与活细胞内的RNA结合。其中部分原因是,人们认为Argonaute存在于细胞质中,而DNA只存在于细胞核中。但是,Argonaute的确在细胞核中有功能,并且确实有报道说染色体外DNA在细胞核和细胞质中均存在。因此,Argonaute能够结合DNA的想法并不荒谬,相反,非常值得研究(Biol Direct, 2014)。目前,生物医学领域已建立了一个生物医学否定语句数据库(http://bionot.askhermes.org/),可以对其进行挖掘以识别那些在多个文档中均为否定的知识主张。


(3)重视对领域离群值和边缘地带等非共识性信息的发现——


一线科学家可以敏锐地意识到所在领域哪些分支是“主流”并且处在火热研究中,哪些分支则是边缘性的。边缘性主题要么是由于太新,要么是科学家不感兴趣或者认为不可信,亦或者是一些非全职研究人员在探索这些话题。


最初,基于文献的发现技术试图进行文献间的链接,但并不关心这些链接主要涉及文献的核心还是边缘。Don的第一个习惯是过滤掉每篇文献中并未被频繁提及的B词,这意味着他专注于文献的核心。相比之下,美国海军实验室医学情报学家Kostoff等人认为,一两个领域边缘地带中的低频词有时可能更有希望找到那些有趣而意外的链接。


例如,淀粉样蛋白或tau蛋白聚合体得到了深入的研究,并在影响力很大的期刊以及专注于衰老和阿尔茨海默病的期刊上发表。相比之下,肠道微生物(即所谓的微生物群)的研究并不是阿尔茨海默病的主流话题,至少现在还不是。一些标准技术比如诸如文本挖掘、摘要和聚类,以及引用分析可以帮助识别哪些文章、主题、关键词和概念是给定领域的核心研究,而哪些位于边缘。


基于文献的知识发现的最大需求,也是最大的挑战和价值在于,识别当前被忽视的研究领域,并结合其它信息,能够识别出未来值得科学界探索的新兴前沿,而不是研究开始变热之后对其进行检测。


总之,大数据时代的到来为我们提供了海量公开可用的数据集,这些数据集为“基于文献的知识发现”提供了丰富的资源,并可以作为机器学习方法的训练集。此外,主要的大数据技术包括关联数据集和整合异构数据集(包括电子病历和数据仓库)。这两种技术都越来越容易利用当前的可计算资源来处理,并且这两者都是获取用于知识发现的“隐信息”的基础。本文中讨论的新方向(例如,非共识性信息、否定式共识、检测被忽略的科学发现等)超出了A-B-C模型的范围,并有望开启一个新领域。



图片参考文献(点击题目即可直达原文)
Neil R. Smalheiser (2017). Rediscovering Don Swanson: The Past, Present and Future of Literature-based Discovery, Journal of Data and Information Science, 2(4),43-64.






https://m.sciencenet.cn/blog-3422014-1303670.html

上一篇:他们、她们和TA们:不同性别认同的人如何在社交网络上描述自我?
下一篇:开放获取优势是否真实存在?

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-11-30 17:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部