摘要:近年来,由于现有的信息安全策略不能很好地识别和阻止网络病毒,导致未能识别的高级持续的网络威胁快速增长。以往的网络病毒更多的是通过攻击个人电脑或摧毁个人系统来泄露个人信息。然而,现今的黑客攻击目标则不限于攻击个人电脑来泄露个人信息,而是针对一些重要企业系统或者政府部门系统。换句话说,现有的基于模式匹配的病毒防御安全策略所起作用非常有限。基于这一事实,在新的未知的网络攻击下,检测率变得非常低并且不可靠。针对这些不能用已有安全策略检测的未知攻击,我们提出了一种从大量数据源中提取信息来检测未知攻击的基于大数据的分析技术。我们希望我们的模型将是未来高级持续性威胁( APT )的检测和预防系统实现的基础。 关键字:计算机犯罪,预警系统,入侵检测,大数据 Abstract: Recently, a threat of previouslyunknown cyber-attacks are increasing because existing security systems are notable to detect them. Past cyber-attacks had simple purposes of leaking personalinformation by attacking the PC or destroying the system. However, the goal ofrecent hacking attacks has changed from leaking information and destruction ofservices to attacking large-scale system such as critical infrastructures andstate agencies. In the other words, existing defence technologies to counterthese attacks are based on pattern matching methods which are very limited.Because of this fact, in the event of new and previously unknown attacks,detection rate becomes very low and false negative increase. To defend againstthese unknown attacks, which cannot be detected with existing technology, wepropose a new model based on big data analysis techniques that can extractinformation from a variety of sources to detect future attacks. We expect ourmodel be the basic of the future Advanced Persistent Threat (APT) detection andprevention system implementations. Keywords:computer crime, Alarm system, Intrusion detection, big data 一、引言 根据高纳德公司报告,复杂的网络攻击在计算机世界持续增长,以往的网络病毒更对的是针对个人电脑,泄露电脑信息,现今的网络病毒更多的是面向公司和政府部门,这类网络攻击通常称为高级持续的威胁( APT )。 APT 的攻击目标是一些特殊的系统,它长时间分析系统的缺陷,因此它比传统的网络攻击更难阻止和识别,并且会造成巨大的损失。 现今,侦查和防卫网络攻击的手段有防火墙技术,入侵侦测系统,入侵预防系统,反病毒解决方案,数据库加密,数字版权等。此外,使用综合的监视技术来管理系统日志。这些解决方案都是基于标签和黑名单。然而,根据各种各样的报告显示,入侵检测系统和入侵预防系统因为没有标签的缘故没有能力保护系统免受 APT 的攻击。为了克服这个难题我们开始运用探索式和数据挖掘的技术来侦查未知的网络攻击。 本文将引入一种基于大数据理念的分析技术来侦测和预防 APT 攻击。我们将比较前人关于使用数据挖掘技术预测和分析网络攻击行为的研究,并解释其不足。此外我们利用大数据的分类、文本挖掘、聚类和关联规则方法从这些列举的大量资料中收集和预测网络攻击。我们希望我们提出的基于大数据分析技术的可以成为检测和预防 APT 攻击的技术基础。 二、相关工作 当今的网络环境中,复杂且智能的网络安全威胁与日俱增,这些未知的网络攻击无法被当前的那些基于标签、规则和黑名单的解决方案所识别和阻拦。因此我们采用启发式探索技术和数据挖掘解释来识别这些无法为已有安全技术所识别组织的网络攻击。本章,我们将解释 APT 的概念和已有安全技术和将被引入使用的大数据分析技术。 2.1 APT 攻击 APT 攻击是一种利用社交工程、零日缺陷和其他技术渗透到目标系统持续不断搜集有用信息的网络攻击。它会给公司和政府部门带来巨大的损失。如今的 APT 攻击目标倾向于核心系统而不再是传统的桌面端和服务器。国家间甚至会使用 APT 相关攻击。网络安全方面已经上升为国家安全的核心层面。攻击工厂系统和引起基础设施故障都会引起公众混乱,不利国家安全。 近期 APT 攻击最典型的例子有震网蠕虫、 RSA 的安全 ID 黑客和夜龙。震网蠕虫是一种非常智能的恶意软件,它被用于攻击伊朗的核设施,并使其瘫痪。在隐藏攻击多年之后才被安全人员检测到,它已经给伊朗造成了巨大的损失。 APT 攻击一般都会执行以下四个步骤:侵入、搜索、搜集和攻击。下图详细描绘了 APT 攻击的过程。 侵入阶段,黑客探查目标系统的信息并为攻击做准备。为了获得进入系统的权限,黑客搜集通过 SQL 夹带、网络钓鱼、社交网络等各种各样的技术来劫持超级用户权限。 检索发生在黑客取得用户权限之后。黑客通过分析目标系统日志来获得有价值的信 息,寻找目标系统的安全缺陷以便进行更深层次的恶意行为。 当黑客已成功坐落于目标系统的机密文件中时,他会安装诸如黑客程序和后门程序来搜集系统数据同时为将来的系统攻击维持权限。 最后一步,黑客利用已有的权限泄露数据并摧毁目标系统。通过开发额外的安全缺陷程序泄露信息。因为 APT 攻击采用的是模糊方法和零日缺陷,所以传统的 IDS 、 IPS 和反病毒程序都很难发现它。 2.2 现有的信息安全技术 信息安全研究者们开发了多种多样的安全技术来保护系统免受攻击,传统的方法主要有防火墙、 IDS/IPS , WAF (网络应用防火墙), ESM (企业安全管理)。 防火墙:防火墙是用于隔离主机和网络的一个标准策略。它是基于权限控制的一种安全机制。它决定了是否允许此 ip 进入和访问此端口。管理员提前设定好了访问权限。最初的防火墙用于保护内部网络以防外网攻击,现今,防火墙用做私人信息安全的解决方案。防火墙需要管理员预先定义好 ip 和端口,防火墙本身无法检测和分析网络中的威胁,它只能根据管理员预先设定好的 ip 和端口来判断系统是否安全,因此防火墙在网络防御上只能提供微小的帮助。 IDS : IDS 是一种通过定义规则和捕获流量来查询和报告网络威胁的报告系统。 IDS 通过观察和分析网络通信发现恶意的通信和无权限的文件传输。 IDS 可以被定义入 NIDS (基于网络的侵入探测系统)和 HIDS (基于服务器的侵入探测系统)中。 NIDS 发现和探测网络攻击的能力比防火墙要胜一筹。 HIDS 通过文件修改、文件权限和服务器中文件的进程来观察系统状态。与 NIDS 相反, HIDS 只安装在服务器上,它发现计算资源滥用和文件无权限传输,并将其报告给管理员。 IDS 通过预先定义的规则发现和预警不寻常的行为。这些预先定义的规则来源于系统日志中挖掘到正常用户行为和统计信息。 WAF :网络服务器为每个服务匹配一个合适的端口,因此很难安全程序很难仅根据端口来阻止恶意程序还要考虑是否合法连接问题。因此 IDS 很难分析封闭系统中的应用数据。 WAF 则是通过正反两方面的访问控制来检验和阻止网络攻击,正方面的通过已定义的安全模式来阻止访问,反方面的则是通过预先定义的恶意模式。 信息安全技术诸如防火墙、 IDS 、 WAF 等都是基于预先定义的规则来匹配和阻止网络攻击,因此他们不能识别和检测被刻意模糊和加密的网络攻击。 2.3 大数据分析 近年来,大数据技术被广泛介绍,大数据分析技术是从大数据集中检索出关联规则和隐藏信息的技术,大数据实现了机器学习人工智能、数据挖掘等诸多技术,在这众多技术中,我们只关注四个技术 — 预测、分类、关联规则和非典型数据挖掘,我们认为这些技术对 APT 攻击的识别很有帮助。 首先,预测是一种预测未来可能性和趋势的技术。回归分析是其中具代表性的一种,研究者可根据回归分析来预测攻击的可能性,回归分析可以通过搜集攻击日志来预测相似的攻击行为。 其次,分类是一种从大数据集中对新的攻击分组分类,分类帮助安全管理员决定预防和分析方向。分类技术中使用最多的是逻辑回归和支持向量机。 关联规则分析则是从大数据集中发现数据间隐藏关系的技术,这种关联规则分析技术被称为连接分析或链接分析,从时间流上看可以命名为序列规则。这种分析技术有用户过程行为或用户异常行为决定。 最后,非典型的数据挖掘分析不能直接由图片、视频、音频文本等来表现,非典型的数据挖掘技术包括文本挖掘、 Web 挖掘和社会数据挖掘。 三、大数据分析系统模型 先前未知的网络攻击如 APT 进化后已经超越了现有安全措施的范围,第二章介绍的现有安全技术无法识别和阻止 APT 的攻击。因此安全事故不断发生,要求使用先进的设备和方法来阻止攻击。启动新的安全模式来应对这些攻击的必要的,新的模式需要以大数据为核心,整合防御技术、集中安全管理、事故预测技术等。我们建议使用大数据技术从各种来源数据出发来应对前所未有的 APT 攻击。 如图二所示,大数据分析系统分为 4 步: 数据收集:从防火墙、安全日志搜集事件数据,从反病毒,数据库,网络设备和系统中搜集用户行为、系统状态信息(日期、时间、出境 / 入境数据包、守护进程日志、用户行为、进程信息等)。所搜集的数据存储于大数据设备中。 数据处理:此步骤验证所搜集的数据是否满足真正要求,然后使用 No-SQL , Hadoop , MapReduce 等技术创建和分类键值对。众所周知,收集和处理数据在数据挖掘过程中大概占据 80% 的时间,为了更快地加快处理速度,我们引入了云计算和分布式系统。 数据分析:对上面步骤处理过的数据采用预测、分类、关联规则分析和非结构化数据分析来决定用户行为、系统状态、数据包完整性和文件或系统的误用分析来进行数据预处理。应用第二章介绍的数据挖掘技术来进行数据预处理。 结果:如果攻击和异常行为被发现,马上警示管理员并将其终止。此外,我们提供仪表盘,管理工具来实时监测结果。系统的预测信息被汇总并报告给管理员。配置更新,规则修改和删除,分析模式更行等都被主动和被动执行。 大数据集的数据挖掘流程由 Chapman 等于 2000 年提出,被称做“ CRISP-DM ”模型,模型由以下部分组成:业务理解、数据理解、数据准备、建模、模型评估、模型调整。现在我们希望利用大数据分析技术来分析系统日志从而提取用户行为和正常 / 异常模式间的关联关系。 表一 基于大数据分析的应用 应用 描述 实时监测 从各种来源实时进行数据搜集,管理和系统状态监测。并且有应用程序来跟踪、预测和监测用户行为。 威胁感知系统 异常检测威胁和攻击模式,以便能够了解最新的管理信息 行为分析 观察系统和用户的行为。追踪和调查可以的数据包和用户行为。 数据和用户监测 连续监测受保护的用户和敏感数据。防止数据和计算资源的误用。 应用监测 连续监测应用和系统进程的行为。行为过程可能是一个检测恶意行为的重要因素 解析 对各种监测信息进行连锁分析。推断攻击的可能性。 然而,在信息安全领域应用多源数据监测分析技术,它需要实时监控、上下文敏感行为检测和自动分析技术。在本文中,我们并不建议将并行处理算法用于实时分析上。相反,使用模式匹配和日志分析预测网络攻击,我们相信我们可以从各种数据源中利用大数据分析技术提取各种有价值的信息。 四、结论 近年来,未知的网络攻击很容易通过加密和混淆的方法绕过现有的安全解决方案。因此急需能够针对这些未知网络攻击的安全解决方案。本文中,我们提出了应用大数据技术来识别和阻止网络未知攻击的解决方案,在将来的工作中还应该做到: 通过入侵检测来分类数据; 数据关联分析方法的实时和异常行为检测策略; 对提出的模型进行定性和定量的评估。 原文: . Ahn, S., N. Kim and T. Chung,Big data analysis system concept for detecting unknown attacks. 2014, Global ITResearch Institute (GIRI). p. 269 - 272.
在人类社会中,有数不清的小人物和为数不多的大人物。大人物不仅活着的时候拥有至高无上的权利,就连他们的死亡也深深的改变了历史走向:远的如亚历山大大帝,近的如卡扎非。但是尽管我们都显而易见的知道,大人物的突然死亡影响巨大,但是绝大多数情况下只能定性分析分析,想把这种影响来进行量化研究就比较困难了。 在2008年年末的时候,科学网的一则科学报道引起了我的注意,题目为“ 著名科学家逝世对其所在领域影响巨大 ”(详见 http://old.biovip.com/biology/3/520.shtml ) ,大致内容是这样的:美国麻省理工经济学家Pierre Azoulay及其同事注意到,著名科学家的影响是可以量化的,因为以前的科研产出记录记载了他的学术贡献。因此他们找出了一些因各种原因突然死亡的著名科学家,然后“利用论文文献数据和美国医学院协会发布的成员名册,研究人员收集了与这些已逝科学家合作的教授们的名录。研究人员发现这些著名科学家逝世以后,他们的那些合作者发表的论文量降低了5%至10%。” 在科学网看完这个报道以后,我们马上意识到这个科学家突然死亡不就是对应我们复杂网络里面讲的针对度大节点的恶意攻击问题 吗?正好那段时间我当时正在研究度大节点对于网络统计量的影响 以及富人俱乐部特性 。当时就想,MIT学者们做的研究虽好,但他们仅仅是从论文产出这个角度来考虑的,我们做复杂网络研究的能不能使用网络攻击的方法来研究这个问题呢? 但是很明显,单纯照搬文献 的研究思路是不行的,因为科学家合作网络是个动态网络,并不是静态的,因此我们需要研究的是一个动态网络攻击问题。当时有关动态网络方面的资料还很少,还好,很幸运的是看到了Nature上一篇有关猿猴网络中威权节点的消失会让整个网络分化成多个各自为战、紧密合作的子网络的报道 。当时就想,看来方法论上已经有了,下一步就是把这个数据弄来整一整,看看有什么好玩的结果把。 虽然MIT的学者们开发出了一套程序可以让我们去抓取数据(他们的数据处理和相应软件都是专门请人来做的,而我们却没有这方面的条件),但是很遗憾的是我们无法取得全部的“美国医学院协会发布的成员名册”(尽管和论文1的作者们沟通过,但是由于他们本身也没有权限给我们,只能在一个网站上找到部分名单,而且网上名单的预处理工作很繁琐)。 Idea无限好,实践千般难呀! 经过我们多次讨论和论文第一作者liuxiaofan同学( http://www.eie.polyu.edu.hk/~xfliu/ )的艰辛努力,这篇基于动态网络攻击的研究方法来量化著名科学家突然逝世的社会影响的文章 Attack resilience of the evolving scientific collaboration network( http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0026271 ) 终于被捣鼓出来,并在非常顺利的发表了 。 我们的基本结论很令人震撼。用一句很简单的话来讲就是: 著名科学家突然死亡的社会影响不大,原因是他的很多合作者都是短期的,著名科学家死亡仅对当时正和他们合作科学家正在进行时才受到影响 。用里面的科学语言讲就是 “Our statistical tests show that there is no evidence that the sudden death of a superstar may have a significant impact on the evolution of its collaborators’ scientific collaboration networks.” 这个结果和结论实际上在很长时间内都把我给震惊了,因为任何人都会觉得 “ Surprisingly, statistics show that the evolution of collaborators’networks are not affected by the sudden deaths of the superstars. ” 我个人想了很久,觉得这个结论可以从以下两个方面来解释,也算是合理吧。 1)我们研究的是科学家死亡前和死亡后,以科学家为中心的自我网络结构的变化,因此我们研究的是科学家死亡以后对他的合作伙伴的影响,我们称之为“社会影响”。著名科学家的伟大之处可能更多的是他本身对于科学事业的贡献,因此科学网以前那个新闻报道的题目“ 著名科学家逝世对其所在领域影响巨大 ”和我们的结论“ 著名科学家突然死亡的社会影响不大 ”并不矛盾,前者看的是科学家本人死亡对科学的影响,后者看的是科学家本人死亡对他以前的合作者的影响,两者不是一回事。 2)在静态网络中,针对大人物的恶意攻击可谓是直击阿喀琉斯之踵,一般情况下很有效 。但是针对科学家合作网络我们可以看到,大人物被突然从网络中拿走算不了什么,其主要原因就是合作关系的动态变化很快,绝大多数的合作者在一年以后就再也不合作了。另外,我们在科学家合作网的动态攻击里面,每次都是针对的大人物的自我为中心的一级和二级邻居网络。即使不考虑动态的情况,在整个美国医学院协会里面偶尔拿掉一两个大人物,对于强大的美国科学体系来讲根本不算什么。也就是说,我们攻击的强度不够大,而现代科学的发展使这里所谓的大人物也没有强大到牛顿、达尔文那么耀眼的程度,因此是还算是很有弹性。而且科学家们移情别恋、转移注意力的速度也是惊人的,著名科学家死亡之后,他们的合作者很快又能和其他科学家合作。但是,如果我们在某个时间一下子打掉100个大科学家,我相信这个系统也会显出它的“脆弱性”。 此外,这篇文章实际上是具有一些其他更深层次上潜在的科学价值,很明显,文章中的方法可以照搬到很多社会网络研究,比如说比较流行的反恐研究中来 。还有,通过看到的合作关系演化可以帮助我们了解知识传播的大概图景,也可知道某篇论文或者某项技术的传播轨迹。看完这个实证的动态网络结构变化,我们也感觉这一领域中诸多已有模型的局限性。同时,这篇文章再次显示了复杂网络这个工具的威力,尽管我们用的统计量很粗俗,但是还是很好地说明了一些问题,起码他们是比较不错的量化手段。美中不足的就是数据和我们的处理有些地方还是有些粗糙。 不管怎样这篇文章让我了解到连边的动态特性是多么地重要。一个实证网络里面没有时变、没有加权,现在已经提不起我的兴趣了。还在整天琢磨无向无权静态网络的有些朋友,咱们一起升级吧! 参考文献: Azoulay P, Graff Zivin JS, Wang J (2010) Superstar extinction. The Quarterly Journal of Economics 125:549–589. Albert R, Jeong H, Barabasi A (2000) Error and attack tolerance of complex networks. Nature 406: 378–382. X. -K. Xu, J. Zhang, J.F. Sun, and M. Small, Revising the simple measures of assortativity in complex networks, Physical Review E, 2009, 80:056106 X.-K. Xu, J. Zhang, and M. Small. Rich-club connectivity dominates assortativity and transitivity of complex networks, Physical Review E, 2010, 82: 046117. Jessica C. Flack, Michelle Girvan, Frans B. M. de Waal David C. Krakauer. Policing stabilizes construction of social niches in primates.Nature,2006,439(26):426-429. X.F. Liu, X.-K. Xu, M. Small and C.K. Tse, Attack resilience of the evolving scientific collaboration network, PLoS ONE 2011, 6(10): e26271. http://blog.sciencenet.cn/home.php?mod=spaceuid=64458do=blogid=426349 http://bbs.sciencenet.cn/home.php?mod=spaceuid=266190do=blogid=439793 http://blog.sciencenet.cn/home.php?mod=spaceuid=64458do=blogid=440070 懒人直接从这里下论文吧: Attack Resilience of the Evolving Scientific Collaboration Network.pdf