博文

【给学生讲故事】黑客式天真(3)：垃圾和反垃圾之战

已有 6675 次阅读 2009-6-27 14:26 |个人分类:科普写作|系统分类:科普集锦|关键词:学者| 黑客式天真

连续工作一个小时后，才大致处理完邮箱里的电子邮件，我抬头长长舒了一口气。快节奏的现代生活和信息技术的普及，使得围绕电子邮件为中心的工作模式越来越常见。从前，如果有工作要旨传递，同事们之间多半采纳电话通知的形式，而现在呢，大家倾向于群发邮件了事，点点鼠标就完成，不但便捷，而且在时间和费用上都是代价低廉的。

正在这时，被我设置为每5分钟就自动收取电子邮件的软件图标开始闪动，提示有新的邮件进来。点开一看，这封电子邮件挺奇怪。发信人是一位我认识并相当尊敬的同行教授，我们几次在学术会议上碰面，他对我这个小辈还是有印象的。信中，他破天荒用英文发了一封求助信来，大意是在英国开会，因为经费不足而被困在旅馆里，请求赶紧给他打款到账上。

当然，这种信第一时间给我的感觉就是不可信，不管是基于人之常情，还是基于技术。如果该教授真有事情，无论如何求助信息都不会发给我，这不符合常态和他的个性。其次，信件来自yahoo邮箱，不太熟悉IT技术的老教授存在邮箱被攻破密码的高度可能，而且，从技术上冒用他人名义来发信的伎俩骗不了我。

不过，这封信依然是奇怪的。黑客们发欺诈信的主题早就没有了新意，我们不少人收到过所谓尼日利亚富翁遗孀有关遗产继承的信件，还有恭喜中大奖的，银行通知登陆网页提交和修改个人安全信息的，等等。只要相信天下没有白占的便宜，不生贪念，自然可以岿然不动，不会上当。而利用人们的爱心行诈骗之事，还进行有针对性的个性化欺诈，那就是更让人防不胜防了。

为了稳妥起见，我给该教授简要进行了回复，希望他提供更多信息，并顺便通知了我认识的他的亲属。从此，这事风平浪静，没有任何下文。

这件偶发事情，倒让我回忆起从前的一段研究经历来。

几年前，出于兴趣，我和学生研究了垃圾邮件的智能识别问题。和一般通行的做法不同，我们并非从邮件内容着手分析，也不是基于统计学方法，而是针对邮件协议自身进行取证分析。

所谓垃圾邮件（Spam，或junk mail），一般的定义是“不请自来的商业信件”。这个定义中就有值得推敲的内容。如果同样是一家公司群发推销信，只有那些“不请自来”的信件才被归类为垃圾邮件，如果是收件人主动订阅，则不属于垃圾邮件的范畴。这个定义直接说明垃圾邮件判定时仅靠内容判定是不可能完全成功的——用户是否订阅的信息在所有邮件发送路径上是未知的，目前的邮件收发协议缺乏认证机制。

基于这种认识，还因为文本内容研究偏离我的兴趣，我让学生从邮件头上入手。

邮件文件（以eml为后缀的文件）是普通用户不太关注的。他们大多借助于网页形式的邮件收发服务进行邮件收发管理，或者借助于Outlook、Foxmail这样的邮件客户端软件进行邮件收发。而这些网页或软件虽然都提供了邮件原始代码的查看功能，普通人是几乎不看的，这如同收到纸质信件的我们从来不关心这封信是如何经历千山万水从地球某个地方到达我们的手中一样。

典型的邮件文件包括消息正文之外，其实也包括一个重要的邮件头（head），它就位于邮件消息正文的前头，一个邮件头信息如下：

Received: (qmail 3071 invoked by uid 10000); 3 Jan 2002 07:09:33 +0800

Received: from unknown (HELO hctelecom.com) (61.134.9.11) by 61.135.132.233 with SMTP; 3 Jan 2002 07:09:33 +0800

Received: from localhost [12.235.111.30] by hctelecom.com with ESMTP (SMTPD32-7.04) id AFBB105014E; Wed, 02 Jan 2002 04:44:43 +0800

Received: from apple ([128.8.99.7]) by cpimssmtpu08.email.msn.com with Microsoft SMTPSVC(5.0.2195.4617); Tue, Jan 1 13:22:30 2002 -0800

Message-ID: <836TFI19@qibo.com.cn>

Return-Path: <neakvkl@qibo.com.cn>

Delivered-To: pjims@mail.chinaren.com

Date: Tue, Jan 1 16:14:52 2002 +0800 (CST)

From: neakvkl <neakvkl@qibo.com.cn>

To: gwncvkr@hebust.edu.cn

Subject: ……

每一行的开头都是一个标签，这是邮件收发协议所规定的标签。各个邮件服务器和收发软件之间的通信路径最终用这些标签来记录在案。因此，电子邮件文件里面隐含的信息其实是相当多的。

上面提供的邮件头其实是一封垃圾邮件的头，它来自某年某月我的个人邮箱。这里提供的信息仅提供技术示范，不含任何其他用意。这封邮件有非常多的可疑点，下图给出了该邮件收发的路径示意图。

从图中可以看出，该邮件经过了多级中转才发送到所谓的收信人手里，其中，发送路径上还存在可疑的路由中断现象。其实，发送人和收件人的邮箱地址都是可以伪装的。因为，在和服务器通信的过程中，一部分信息是发件人告诉服务器的，而服务器不做任何认证就把这个信息附加在邮件头的后几行上（提醒：邮件头是倒着向上添加的，因此，第一行是最终到达时的头信息），这是最欺骗普通用户的地方——因为网页或收发邮件通常只主动显示这个部分给用户看！

如果要进行专业分析，上面的邮件可疑点还可能有更多。通常情况下，从邮件中继次数（发送经过的路径）、的时间戳、IP地址和域名是否吻合、To标签后的收件人和Delivered-To标签后的收件人是否吻合、From标签后的发件人邮件域名和第一个Received标签后的IP地址、Return_Path和From是否吻合、To中目的地址与Received中的实际收信人是否吻合、邮件头信息完整程度（是否缺少域名或IP等）等各个方面，我们可以发现端倪。

从研究而言，我让学生把邮件头中的以上信息都提前出来表达为特征属性，然后用数据挖掘的方法来分析问题邮件的普遍规律，最后得到产生式规则表达的知识，比如：“当邮件中继次数超过N次则该邮件肯定为垃圾邮件”（技术内容参阅[1]）。

类似工作是有趣的，也有意义我们收集到的邮件头都是来自各个知名邮件服务提供商用垃圾邮件过滤产品过滤后的邮件，即便这样，在上千份被判定为正常的邮件中，我们依然可以以平均90%多的正确率判定出潜在的垃圾邮件出来。当然，这个仅仅分析邮件头的技术是不足以筛选出所有垃圾邮件来的。更多关于邮件头信息的技术内容，参阅[2]。

倘若各个邮件服务提供商可以以可视化的技术手段为用户提供更贴心的安全分析服务，那显然是备受广大菜鸟型普通用户欢迎的！在我的研究过去几年后，我们还没有看到有这样的动作。

垃圾和反垃圾邮件之战一直在继续中。杰拉尔德·科瓦契奇[3]等认为，大部分垃圾邮件来自装有Windows 操作系统的计算机，垃圾邮件发送人利用Windows 操作系统的漏洞劫持了这些计算机，使其成为垃圾邮件“僵尸机”（zombie ，也称“肉鸡”）。马里兰大学的研究表明，每年删除垃圾邮件的时间浪费了美国商业近220 亿美元。美国政府在头疼之余，甚至考虑用高赏金来刺激人们告发垃圾电子邮件发送人（Spammer），而有人认为这个赏金提高到10至25万美元才管用！而在中国，这是难以想象的天方夜谭。

在垃圾和反垃圾邮件之战中，虽然商业机构深受其害，政府也试图干预，但民众并不积极。我个人的观点是：在目前的邮件协议下，世界上没有绝对可靠的垃圾邮件过滤技术，在改进邮件协议认证机制之前，请勿主动替我屏蔽信息！要在法律、技术上均确保民众的信息权、隐私权和知情权！

称Spammer为黑客或许有点勉强，但以邮件为载体的网络诈骗案在日渐增多，钻研垃圾邮件发送技术的人并用在不当用途的人当之无愧要归于黑客的队列，但不全是。一些天真的黑客们在网上活跃着，比如参考地址[4]中，有人询问“如何精简我发出的邮件头信息呢？”，这就是明显的一例反垃圾邮件过滤技术尝试，他们多半在研究群发邮件技术，并开发群发邮件软件，甚至到处收集和贩卖无辜者的邮件地址。

群发邮件不总是错！这是我最后要申明的。群发邮件也是商业行为的一种，但必须基于主动订阅的前提！由于目前国内外没有可靠的认证机制来确保群发邮件者是基于主动订阅的行为（比如订阅技术文献，单位内群发上百人的通知），正常的这种行为模式也在各大邮件服务器上受到邮件过滤软件的封杀！甚至，本单位在校内给员工发群发邮件，都需要特别给网管打招呼进行技术配置。而这些邮件几乎不能走出校园，因为外单位的邮件控制机制是“打招呼”不管用的，一律封杀的结果是一些学术通知往往被国内高校的服务器拒收。

补记：写到《黑客式天真》系列第三篇博文了。在第二篇时，已经有读者以为我是安全专家，这是误解。我在科普方面的写作尝试从黑客开始，跌跌撞撞地，很不专业，但是，我想这种尝试大概不会止于此。一生还长着呢，只要有倾述的心情，生命不息，故事不止。

参考：
1. Yu Wu, Zhijun Li, Ping Luo, etc. A new anti-spam filter based on data mining and analysis of email security, in Data Mining and Knowledge Discovery: Theory, Tools, and Technology V, Belur V. Dasarathy, Editor, Proceedings of SPIE Vol.5098, 147-154, 2003.
2. 如何追踪垃圾邮件
http://www.globalmail.cn/Html/wenti/webquestion/0691714351023203.html
3. 《高技术犯罪调查手册——建立和管理高技术犯罪防范计划（原书第二版）》，杰拉尔德·科瓦契奇，安迪·琼斯著，吴渝等译，科学出版社2009年6月出版。
4. 如何精简我发出的邮件头信息呢?
http://www.lslnet.com/linux/dosc1/50/linux-341293.htm

相关专题：导师与学生
转载本文请联系原作者获取授权，同时请注明本文来自吴渝科学网博客。
链接地址：https://m.sciencenet.cn/blog-53846-240628.html

上一篇：【给学生讲故事】黑客式天真(2)：黑客也天真
下一篇：【意象】我愿意

收藏分享

点燃思想闪电，如云自由漂泊分享 http://blog.sciencenet.cn/u/吴渝我的微博：http://t.qq.com/iRaining

博文

【给学生讲故事】黑客式天真(3)：垃圾和反垃圾之战

当前推荐数：17 推荐人：武夷山 鲍得海 马昌凤 梁进 曹广福 王德华 王春艳 陈安 周春雷 陈国文 刘立 马丽丹 刘继顺 迟菲 魏东平 吴怡 王立

发表评论评论 (10 个评论)

吴渝

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

点燃思想闪电，如云自由漂泊分享 http://blog.sciencenet.cn/u/吴渝 我的微博：http://t.qq.com/iRaining

博文

【给学生讲故事】黑客式天真(3)：垃圾和反垃圾之战

当前推荐数：17 推荐人： 武夷山 鲍得海 马昌凤 梁进 曹广福 王德华 王春艳 陈安 周春雷 陈国文 刘立 马丽丹 刘继顺 迟菲 魏东平 吴怡 王立

发表评论 评论 (10 个评论)

吴渝

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

点燃思想闪电，如云自由漂泊分享 http://blog.sciencenet.cn/u/吴渝我的微博：http://t.qq.com/iRaining

当前推荐数：17 推荐人：武夷山鲍得海马昌凤梁进曹广福王德华王春艳陈安周春雷陈国文刘立马丽丹刘继顺迟菲魏东平吴怡王立

发表评论评论 (10 个评论)