基于大数据的新冠肺炎风险评估与预测 华中科技大学 5G联创行业应用开发实验室 1.从硬性围堵到隐性预防 始于2019年12月的新冠肺炎传染病大爆发事件是2003年SARS传染病暴发以来最大规模的全球性传染病突发事件,被中国政府和全球多个国家定义为重大危机事件。截止2020年3月7日,已经造成全球超过十万人感染,其中我国已累计超过八万人感染,累计超过三千人死亡 。 我国政府于1月下旬开始采取了包括封城、全国性的医疗资源调度和医护人员支援等前所未有的措施。尽管这些措施在短时间内有效地抑制了病毒的传播和扩散,但是这些措施均不可能成为长期政策执行。此外,超过一个月的封锁也对经济和民生造成了严重影响。目前,新冠肺炎在我国部分地区和国外尚未清零。随着各省市复工复产的逐步开展,新冠肺炎的区域性传染将有很大可能会再度出现,如何采集更加先进、积极和隐蔽的手段对病毒的传播和扩散进行有效的隐性预防、预测、控制和追踪对确保复工复产的顺利开展,确保我国今年经济目标的实现至关重要。 由于新冠肺炎病毒强大的传染性、长潜伏期和高死亡率, 采用大数据和最新的信息技术对新冠肺炎的传染轨迹、扩散速度、接触人群等重要信息进行建模和数据分析对政策制定、防范措施设计和应对措施及建议具有重要意义 。 2.预测模型分类与性能比较 目前已有大量数学模型可对不同传染病扩散和传播进行预测和建模。具体来说,目前主流的传染病模型主要可以分为三类: 经典传染病传播模型、基于深度学习的传染病传播模型和其他模型 。 2.1 经典传染病传播模型 传染病的建模有很长的研究历史, 经典传染病传播模型包括SI、SIR、SEIR、SIRQ等模型 ,这些模型都是在分类的类别上进行修改从而适应于不同的传染病进行建模。例如,钟南山院士团队于2020年2月27日发表在Journal of Thoracic Disease期刊上的论文(参见参考文献 )采用了改进的SEIR(susceptible-exposed-infected-removed,即疑似-暴露-感染-治愈)模型对新冠肺炎传染病全国的蔓延情况进行了预测。其改进的SEIR模型主要采用了从2020年1月16日到1月25日总共10天的数据,对2月1日至4月15日的数据进行了预测。具体地,通过综合考虑总人口、死亡率、潜伏期等因素估算出了每日与感染人群密切接触的人总数、每日可能携带病毒的人数和感染人群中死亡和康复的概率等重要参数,采用7天为潜伏天数的中位数和3%的死亡率,文献 给出了新冠肺炎传染病在三个主要爆发省份,湖北、广东和浙江,的预测新增确认人数。我们将钟院士团队论文的SEIR模型复现如图1所示。 图1. 参考文献 中SEIR模型预测的每日新增确诊人数 表1. 参考文献 中模型预测的每日新增确诊人数和真实新增人数的误差比较 我们初步分析认为参考文献 中构建的SEIR模型可从下列几个方面进行改进: (1) 模型参数的精度可进一步改善 。如论文中直接假设在1月23日之前人均接触人数为15人,1月23日之后人均接触人数为3人; (2) 由于政策和外部情况变化, 模型需要手工分段设计和估算参数 。如表1所示,文献 和真实数据的差距非常大,其主要原因是在应对措施的不断出台和更新的情况下(包括1月23日,对武汉市采取了“封城”措施,2月12日,对新增确诊人数统计的订正,以及随着疫情的发展,核酸检查试剂的供应逐渐满足需求等等),许多更新的政策和多种环境因素对模型参数地影响并没有在模型中得到考虑; (3)疫情数据统计方法的调整以及前期的确诊困难等原因导致 数据存在更新滞后问题 ,进而使模型估计出现偏差。 基于上述思考,我们对文献 的模型做了如下改进: (1) 在建模过程中引入更多不可忽略的实际因素 ,如医院的收治能力变化、不同患病人群传染率不同等等; (2) 借助启发式算法推断模型的各个参数 ,尽可能得到良好的模型参数来降低模型输出与实际数据间的误差; (3) 分析选用现有数据中相对更具可靠性的数据对模型进行拟合 ,尽可能减小输入数据端的误差对模型预测造成的影响。 改进后的预测模型生成的每日新增数和累计新增数结果如图2和图3所示。具体结果如表2所示,我们的结果与真实数据相关性 图2. 改进模型预测的每日新增确诊人数 图3. 改进模型预测的累计确诊人数 表2. 改进后模型预测的每日新增确诊人数 尽管我们的模型在预测精度上有所提高,但是 现有SEIR模型普遍具有如下缺陷 : (1)由于缺少对空间维度的建模,SEIR无法准确分析疫情的空间扩散情况,更无法跟踪病毒的传播位置和路径; (2)模型的准确度高度依赖参数、初始值以及基础表达式,在复杂多变的实际情况中缺乏灵活性,容易出现较大偏差。 2.2 基于深度学习的传染病传播模型 最近随着深度学习方法的出现和普及,大量及与深度学习的时空预测模型不断涌现出来。例如在文献 中,除了采用SEIR模型对病毒的扩散进行了预测之外, LSTM方法也被用与训练病毒传染和扩散模型 。具体地,文献采用2003年4月到6月的SARS-CoV累计确诊感染数计算出每日新确诊病例数,并用插值法调整未更新或者数据更新异常的日期数据。通过设置长度为三天的滑动窗口,得到一系列的时间数据序列。使用所得到的数据序列作为LSTM模型的训练输入,循环训练500次,保存训练后的LSTM模型。再将2020年1月22日到2月7日在全国范围内新冠肺炎感染的人数输入到已经训练好的LSTM模型中,并对2月7号之后80天进行预测。为了防止过拟合,文献 采用了包含一个全连接层的最简单的LSTM模型。 在下面的图4中,我们对文献 中的LSTM模型进行了复现,除了复现原论文的曲线之外,我们还给出了如果增加了2020年2月7到3月6日的最新数据后的曲线,模型对3月6号后80天的预测数据。除此之外,在图5中,我们还是用同样的方法给出了采用武汉市每日的新增数据对新冠肺炎感染的人数进行的预测结果。 图4 全国新增新冠肺炎人数预测 图5. 武汉新增新冠肺炎人数预测 表3. 文献 所采用的LSTM数据预测出的数据和真实新增数据之间的误差 图4和图5考虑的数据集总结如下: SARS Dataset: Mar. 17-Jul. 11, 2003 Dataset 1: Jan. 26-Mar. 6, 2020 (wuhan) Dataset 2: Jan. 26-Feb. 11, 2020 (wuhan) Dataset 3: Jan. 26-Mar. 6, 2020 (China) Dataset 4: Jan. 26-Feb. 11, 2020 (China) 图4和图5的具体解释如下: l 图4中“ Predicted result with dataset 3 ” 预测了3月7日到5月25日(共80天)全国的新增人数变化,输入数据集为Dataset 3,即2020年1月26日到3月6日中国全国每日新冠肺炎每日新增人数。 l 图4中“ Predicted result with dataset 4 ”是对原文的复现,预测了2月12号到5月1日(共80天)全国的新增人数变化,输入数据集为Dataset 4,即2020年1月26日到2月11日中国全国每日新冠肺炎每日新增人数。 l 图5中“ Predicted result with dataset 1 ” 预测了3月7日到5月25日(共80天)武汉的新增人数变化,输入数据集为Dataset 1,即2020年1月26日到3月6日中国武汉每日新冠肺炎每日新增人数。 l 图5中“ Predicted result with dataset 2 ”预测了2月12号到5月1日(共80天)武汉的新增人数变化,输入数据集为Dataset 2,即2020年1月26日到2月11日中国武汉每日新冠肺炎每日新增人数。 我们可以观察到, LSTM能够很好地预测新增人数的整体趋势,但是并不能预测出由于国家政策实施等因素导致的某段时间新增人数的突然增多 ,主要原因有以下几点: l 使用LSTM进行预测,模型对于某一参数的变化并不敏感; l 03年SARS数据集数据量太少,对模型训练不够精确,这也是为什么不直接采用新冠肺炎数据集进行训练的主要原因之一。 2.3 其他模型 除了上述的SEIR和深度学习以外,还有其他模型也被用于预测病毒的扩散和传播。一类被广泛使用的模式是 复合群体模型 ,该类模型考虑了人类移动模式对传染病传播的影响,通过人群间的流动进行耦合而形成复杂的系统,适用于研究不同地区之间病毒的传播情况。例如Watts等人在文献 中将人群看作多层结构,不同层级之间互相流动,建立了层级结构的复合群体模型。Cross等人在文献 中建立了11×11方格模型,个体可以移动到相邻群体,而群体内部则动态采用SIR或是SIRS等基础模型。Hufnagel等人在文献 里建立了随机复合群体模型,通过将世界上500个大城市看作复合群体,每个群体采用SIR模型描述,对SARS的全球流行进行了预测。虽然复合模型在一些应用中取得了很好的效果。但是一般来说, 复合群体模型对不同群体之间的迁移数据要求非常高。任何原始数据的细微缺陷可能导致预测模型产生很大的误差 。 此外,近几年来 基于网络的微观模型 也快速发展,有针对于诸如随机网络,规则网络(元胞自动机、CA)、小世界网络、无标度网络等理想网络的模拟,也有基于现实网络数据进行的建模分析。具体来说, Halloran等人在文献 中根据真实数据,构造了2000人的社区,研究发生天花攻击时各种对策的效果,Milne等人在文献 对澳大利亚一个3万人的城镇进行了建模,采用真实的家庭、学校、医院等场所的设置,描述了流感的接触、传播过程,还有研究者构造了更大规模的网络模型,Eubank等人在文献 中开发了EpiSimS系统,构造了大城市级别的人际接触模型。虽然基于网络的微观模型能够建立较为真实的场景,但是对原始数据要求极高,需要大量的真实的社会环境数据。此外, 最终的模型也十分复杂,具有很多的属性特征,建模难度大。随着模型规模的扩大,其运行所需的计算量也会变得相当庞大 。考虑到这些因素,该方法难以短期内快速的做出对疫情的准确预测。 3.总结 目前新冠肺炎在部分国家仍处于上升期,诸多迹象显示新冠肺炎将在未来相当长的时间存在。因此做好新冠肺炎的预防和检测并及时发现和处理可能成为未来相当长时期的研究重点。 本文采用目前已经公布的公开数据集对模型进行了初步预测 ,期望能够对后续基于大数据的病毒扩散和预防起到积极的作用。 参考文献 Zifeng Yang, Zhiqi Zeng, Ke Wang, Sook-San Wong, Wenhua Liang, Mark Zanin, Peng Liu, Xudong Cao, Zhongqiang Gao, Zhitong Mai, Jingyi Liang, Xiaoqing Liu, Shiyue Li, Yimin Li, Feng Ye, Weijie Guan, Yifan Yang, Fei Li, Shengmei Luo, Yuqi Xie, Bin Liu, Zhoulang Wang, Shaobo Zhang, Yaonan Wang, Nanshan Zhong, Jianxing He, “Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions” Journal of Thoracic Disease, no. 2, vol. 12, Feb 2020. Watts D , Muhamad R , Medina D , et al. Multiscale, resurgent epidemics in a hierarchical metapopulation model . Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(32):p. 11157-11162. Cross P C , Johnson P L F , Lloyd-Smith J O , et al. Utility of R0 as a predictor of disease invasion in structured populations . Journal of The Royal Society Interface, 2007, 4(13):315-324. Hufnagel L , Brockmann D , Geisel T . Forecast and control of epidemics in a globalized world . Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(42):p.15124-15129. Halloran, M. E. Containing Bioterrorist Smallpox . Science, 2002,298(5597):1428-1432. Milne G J , Kelso J K , Kelly H A , et al. A Small Community Model for the Transmission of Infectious Diseases: Comparison of School Closure as an Intervention in Individual-Based Models of an Influenza Pandemic . PLoS ONE, 2008, 3(12):e4005-. Eubank, Stephen Guclu, Hasan Kumar, Sritesh Marathe, Madhav Toroczkai, Zoltan Wang, Nan. (2004). Modeling Disease Outbreaks in Realistic Urban Social Networks . Nature, 2004, 429(6988): 180-184.
有了这东西,作文还怎么判啊? 印象 之前给学生上课的时候,我介绍过利用循环神经网络,仿照作家风格进行创作的机器学习模型。 不过,那模型写出来的东西嘛…… He went over to the gate of the café. It was like a country bed.“Do you know it’s been me.”“Damned us,” Bill said.“I was dangerous,” I said. “You were she did it and think I would a fine cape you,” I said.“I can’t look strange in the cab.”“You know I was this is though,” Brett said.“It’s a fights no matter?”“It makes to do it.”“You make it?”“Sit down,” I said. “I wish I wasn’t do a little with the man.”“You found it.”“I don’t know.”“You see, I’m sorry of chatches,” Bill said. “You think it’s a friend off back and make you really drunk.” 我的评价是: 望之,不似人语。 因为这种限制,人们并没有把“机器写作”当成一回事儿。 总觉得机器要写成那种以假乱真的高度,可能还需要等上很久远的一段时间。 然而,这世界变化快。 工具 早上,我尝试了一个新工具。 一个在线编辑器界面里,输入或长或短的一段话,然后按一下 Tab 键。 后面的内容,机器就帮你 自动 逐步填充。 填充的过程里,系统每次给你3个备选方案,这样你可以控制写作思路的走向。 当然,你也可以根本不管其他选项,一直走默认路径。机器照样文思泉涌。 最后生成的文章,是这个样子的。 其中,第一段落是我自己随便瞎写的。后面高亮段落,都是电脑模型自己编出来的。 不但标点符号、语法修辞用得有鼻子有眼儿,就连我那段里根本没有提到过的创始人,都跳了出来长篇大论。 尝试 你可以在我的公众号“玉树芝兰”(nkwangshuyi)后台回复“aiwrite”,查看这个智能写作编辑器的链接。 不知道你尝试过后的感觉是什么。 反正我觉得,以后学校里的英文写作课,怕是没有办法判作业了。 原本需要学生花半个小时完成的任务,现在他可以轻点几下按键,就能搞定交差。 更要命的是,从原理来讲,查重系统面对这种作品,是无效的。 因为这 并非抄袭 。 机器每一次的“创作”,几乎都能保证是全新的。 原理 你一定想知道这背后的原理吧? 其实,在我们之前的教程里,我多次给你介绍过它。就是目前最火的自然语言模型架构——Transformer。 (上图来自于经典之作“Attention is All You Need”) 我们详细介绍过使用方法的 BERT ,当初用的就是这种技术,才产生了野蛮霸榜的效果。 不过咱们用的这个编辑器,底层并不是 BERT ,而是我们之前提及的 GPT 2。 大多数人提到它的时候,介绍往往不是那么正面。 并不是因为 GPT 2 这种技术不够好。而是因为它“ 太好了 ”。 好到足够让人眼馋。 好到开发者决定, 不开放 训练数据集、代码、甚至模型参数…… 要知道,在当今这样一个 开源开放 的趋势下,这么做会招致多少非议。 当时 OpenAI 做出这种决定和解释,有人便认为是出于饥饿营销的目的,赚眼球。 但是,你刚刚自己尝试过语言生成模型的威力之后,还会保持这么单纯的想法吗? 威胁 仅举一例。 互联网上,假新闻是一个非常严重的问题。 原先,用机器造假新闻出来,成本固然低,但专业人士还是很容易通过语言特征和统计规律来识别的。 而一旦,假新闻不但生产成本低廉,分分钟可搞定,还完全具备了真新闻的语言特征,要分辨出来,就不容易了。 假新闻有可能多点大规模爆发,因 从众 和 沉默螺旋 等社会心理机制,对大众轻易造成误导。 面对这种潜在威胁,我们真的已有完善的应对之策吗? 正因为这种威胁实际存在,数据伦理才愈发成为重要的研究课题。 如果你做数据科学研究,这个方向大有可为。 魔盒 风险是显著的。 而技术的进步与发展,真的能够因为一家机构决定“不开放模型”的举措,就能停滞吗? 当然不会。 OpenAI 因为压力,不断释放出更为强大的开源模型。目前开放的预训练模型版本,达到了 774M 个参数。距离完全版本模型的释放,也就是临门一脚的事儿了。 曾经,普通人即便拿到了这种开源工具,也需要一定的门槛,才能使用。 然而“有好事者”,在整合包装了若干种主流的 Transformer 模型之后,降低了 GPT2 机器写作的门槛。 于是,就有你看到的这个编辑器了。 波澜 我把 GPT2 自动写作的结果,发到了朋友圈。 惊艳之余,小伙伴想到的,主要是以下两个问题: 什么时候出中文的? 能否和写字机器人配合使用? 我看后很无语。 好在这一位的留言,让我看到了光明的一面: 以后英语老师出阅读题,可方便多了。 延伸阅读 你可能也会对以下话题感兴趣。点击链接就可以查看。 如何高效学 Python ? 如何用 Python 和深度迁移学习做文本分类? 如何用 Python 和 BERT 做中文文本二元分类? 如何用 Python 和 BERT 做多标签(multi-label)文本分类? 如何在 fast.ai 用 BERT 做中文文本分类? 喜欢别忘了 点赞 。 还可以微信关注我的公众号 “玉树芝兰”(nkwangshuyi) 。别忘了 加星标 ,以免错过新推送提示。 题图: Photo by Pereanu Sebastian on Unsplash
How to choose the right activation function? The activation function is decided depending upon the objective of the problem statement and the concerned properties. Some of the inferences are as follows: Sigmoid functions work very well in the case of shallow networks and binary classifiers. Deeper networks may lead to vanishing gradients. The ReLU function is the most widely used, and try using Leaky ReLU to avoid the case of dead neurons. Thus, start with ReLU, then move to another activation function if ReLU doesn't provide good results. Use softmax in the outer layer for the multi-class classification. Avoid using ReLU in the outer layer.