前言: 国内爆发新型冠状(以下简称新冠)病毒肺炎,传染源从武汉蔓延到全国各地甚至世界不少国家,确诊人数指数级攀升,多省市启动一级响应警报,形势十分严峻。不少中外从事流行病研究的专家通过各种数学模型协助预测疫情发展情况,国内也已经启动专项研究针对新冠病毒疫苗和特效药物。本文针对当前形势给出科研建议和一个框架性研究方案,来自在国外相关领域的科研工作者,旨在抛砖引玉,供国内一线研究专家参考,为抗击疫情贡献自己一份菲薄的力量。 存在的紧迫问题: 新冠病毒感染不同个体的症状表现不一,有的人症状十分轻微,很快康复,有的却成为重症甚至死亡,表现型差异极大。当前确诊+疑似病例早已过万,且指数级增长,但是治愈的总数字只有100+,全国各地普遍医用人力物力都不足,尤其在武汉,大量疑似患者无法得到及时诊断,大量确诊患者无法得到及时救治,因此存在一个迫需解决的问题:是否能够借助计算机人工智能算法(或机器学习算法)依据确诊患者的临床表型(问诊,物理或/和化学检验),危险因素暴露史,自身基础疾病,感染病毒特征等,1)预测临床发展症状 (轻度、中度、和重度,甚至死亡),2)预测影响临床症状的主要危险因素。日前香港大学病毒学家金冬雁教授在知识分子采访中讲 ,“据我了解核酸诊断已成瓶颈,都做不过来。诊断方面比如说结合胸部X光,用有效的办法找出那些真正的中症、重症、高危的病人,集中起来去救治,把稀缺的医疗资源留给他们。” 新冠病毒感染后的临床表现差异很可能跟一些临床数据密切相关,比如已知跟年龄关系就很大,死亡患者中最小的是36岁,多数是老人。除了依靠临床X光透射,还有一个更智能快捷的方法进行感染症状预测:如果通过分析已知临床数据,建立数学预测模型,并对公众开放,让人们可以实现自我预测,同时也可以让医院医生对患者分级。 研究意义: 这个研究结果对缓解当前治疗资源普遍不足具有重要意义: 1)从已知数据来看,感染后死亡率并不高,被病毒感染的绝大部分是轻症患者,这个预测模型有助于正常人群对自身对病毒的抵御力有一个初步的判断,缓解紧张情绪; 2)可以让攀升数量最快(参见全国疫情趋势图 )、有感冒症状却得不到及时诊治的疑似患者进行自我评估,根据结果跟医生沟通; 3)最重要的是,可以帮助医院和医生实现分级精准医疗,从大量疑似和确诊人群中筛选出最需要救治的感染者,把有限的资源优先用于真正的重症患者。能否对资源有效利用,关系到我们能否在跟新冠病毒的战役中取得先机,从而彻底战胜这次肺炎感染。 研究方案: 我们手头没有数据,无法进行具体研究,但是有条件拿到这些数据资源的一线研究人员,可以依此快速建立模型。概要如下: (一) 研究结果: 开发两个基于人工智能技术的预测模型: a) 模型I采用大众可以自我诊断的表型数据比如,年龄,性别,相关病史,血压,心率,抽烟与否,喝酒与否,疑似病毒暴露史等等,具体选择哪些特征表型由最终表现最好的模型决定,准确率相对低一些; b) 模型II除了使用模型I的基础数据作为候选特征,还结合一些医院临床体检指标,比如各种生化指标,可能的传染代数,等等,用于医生精准医疗,准确率相对高一些。 c) 模型III在模型I和II的基础上,加个体病毒感染滴度,病毒分子多态或病毒亚型(病毒分子序列)。 (二) 产品形式: 在荣之联iCloud(或其他云平台)建立人工智能病毒感染临床预后模型, a) 为模型I建立网页表单,用于普通公众通过网页输入相关数据进行自我评估; b) 为模型II或模型III建立后台分析模块以及通用API接口,给专科医生提供疑似和确诊患者分级治疗和预后判断。 (三) 遗传数据: 有可能一些常用的临床表型数据就有足够高的准确率判定临床预后。如果有条件,遗传数据(以SNP基因型数据为主)的关联分析除了用于找出关键遗传变异位点辅助预后判断以外,更有助于发现更多的药物研发靶点。 a) ACE2 是新冠和SARS病毒的共同攻击人类的靶基因 ,位于X染色体,根据Rossa等发表文章 , ACE2 基因的多态位点跟SARS感染后症状没有发现显著相关。但该结果只代表ACE2基因跟SARS的关系,考虑到感染后临床预后表现有可能跟免疫强弱有关,其他免疫相关基因应该也在考虑之中,具体基因列表可以参考InnateDB 。此外,病毒攻击过程往往有众多基因参与,所有已知的参与病毒攻击的基因都应该考虑进来,参见GeneOntology term: viral life cycle 。 b) 基因型关联分析除了要考虑年龄、性别、人种亚种等常见相关因素以外,还要排除一些特定强干扰因素,比如,病毒变异度,要同时测量待测基因和新冠病毒的基因型数据,判定病毒的变异程度。 (四) 机器学习 :机器学习分析部分可以采用常规分析流程:样本分Training,Validation,和Independent test组;数据归一化预处理;算法选择;特征筛选;最优参数选择;多个机器学习算法预测整合。也可以考虑采用深度学习算法。 (五) 模型优化: 随着临床数据的增多,逐步优化和增加模型的预测能力。 (六) 医疗数据保密 :所有临床输入数据整理后首先确定一个随机种子数字并记录下来,然后去除ID信息并通过乱序排列打乱患者记录次序,采用新的虚拟ID整合各个临床数据库的信息。双盲设计:整理数据着不参与分析,分析者只能面对去除ID后乱序以后的数据。 本文作者: 目前在耶鲁大学从事复杂遗传疾病计算生物学科研,之前在中国科学院微生物研究所从事真菌生物信息学研究三年。 相关团队: 耶鲁大学医学院精神科专家以及美国NCI资深生物信息学专家。我们的团队在2018年国际Dream Challenge竞赛中获得两项第一名(OmicsEngineering团队): https://www.synapse.org/#!Synapse:syn15665609/wiki/583248 https://www.synapse.org/#!Synapse:syn15665609/wiki/583249 产权申明: 用人工智能预测感染人群的临床结果的数据分析,同时也寻找被感染个体临床预后极差的危险因素。 成果归国内合作单位 ,我们可提供技术支持(电子邮件:xinyu.zhang@yale.edu)。 参考文献 1. http://zhishifenzi.blog.caixin.com/archives/220451#more . 2. https://3g.dxy.cn/newh5/view/pneumonia_peopleapp?from=timelineisappinstalled=0 3.Xu, X., et al., Evolution of the novel coronavirus from the ongoing Wuhan outbreak and modeling of its spike protein for risk of human transmission. SCIENCE CHINA Life Sciences, 2020. 4.Letko, M.C. and V. Munster, Functional assessment of cell entry and receptor usage for lineage B β coronaviruses, including 2019-nCoV. bioRxiv, 2020. 5.Chiu, R.W.K., et al., ACE2 Gene Polymorphisms Do Not Affect Outcome of Severe Acute Respiratory Syndrome. Clinical Chemistry, 2004. 50 (9): p. 1683-1686. 6. https://www.innatedb.com/redirect.do?go=resourcesGeneLists . 7. http://www.informatics.jax.org/vocab/gene_ontology/GO:0019058 .
研究方案指的是解决科学问题的详细方案,是研究思路的具体落实,需要从方法,路线,实验手段,关键技术等方面进行说明。如果说基金的摘要是脸面,可以给评审专家留下深刻的第一印象,那么研究方案就是双手,当你拥有一双勤劳灵巧的双手,就会让专家们相信你有能力完成所要研究的实验内容。 研究方案和技术路线要认真对待,写的太简单或者是错漏百出,作为评审人会觉得申请人所提到的理论研究不切实际,又或者是认为申请人对于这块研究是不甚了解的,所以仅用简单几句话来形容是十分不妥的,需要认真对待。但是也要掌握好度,不要太具体化,不能暴露过多“技术细节”,一不小心就容易出漏洞,关键是不能让评审专家抓住小尾巴! 研究方案和技术路线的撰写 一定要紧紧围绕研究内容 ,切忌出现研究方案与研究内容脱节,也就是实施研究方案后并不能回答研究内容要解决的问题,因此要注意研究内容与研究方案的一致性。 好的研究方案是能够让审阅人清晰的了解研究内容将通过哪几个方面的实验分析去完成,预期用到的方法和理论基础、需要的实验流程、用于分析的样品数量和分析位点等,所以这些方面尽可能写详细一些,以免得到“研究方案不具体”、“技术路线粗略”、“关键仪器设备不落实”等评语。 另外,这研究方案和技术路线也 与经费预算紧密相关 的,做多少分析才能预算多少经费,如果不一一对应,评审专家还会给出“分析/试验内容与经费预算不匹配”的评语。所以在进行实验方案的设计时,需要给出实施研究内容的具体的方案和流程,一定要与基金各个部分的内容相联系和统一,并且方法需要注意正确性和统一性。 重要的是,研究方案和技术路线最好要做一个图表,因为审批专家们都很忙,没有那么多耐心细致的看一大段一大段枯燥的文字描述。所以一个好的技术路线图,胜过大段的文字描述,仅从图中就可将各个研究内容和研究步骤之间的关系看的清清楚楚。 技术路线图的制作需要简单明了 ,切忌内容上有错漏,或者过于复杂以及没有逻辑性,这样也会让审稿人理不清头绪。图片的制作也不能耍绚耍酷,要尽量整洁、美观大方、配色合适,在结构上不要头重脚轻或者左右不平衡出现。 在美观方面,大家可以在以下几个方面仔细考虑,看看如何制作和进一步改善自己的流程图: l 要不要外框? l 外框选择直角还是圆角? l 使用箭头还是直线? l 如果使用箭头的话,用单线箭头还是立体箭头? l 实线还是虚线? l 是否某些部分需要加粗? l 图片设定为彩色的还是黑白的? l 技术路线图中除文字外是否加入图片? 美捷登:Lauren 本文由美捷登编辑原创,转载请注明来自美捷登科学网博客,并附美捷登微信二维码 欢迎关注我们的微信