时间序列是一种重要的高维数据类型,它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列,在经济管理以及工程领域具有广泛应用。例如证券市场中股票的交易价格与交易量、外汇市场上的汇率、期货和黄金的交易价格以及各种类型的指数等,这些数据都形成一个持续不断的时间序列。利用时间序列数据挖掘,可以获得数据中蕴含的与时间相关的有用信息,实现知识的提取 。时间序列数据本身所具备的高维性、复杂性、动态性、高噪声特性以及容易达到大规模的特性,因此时间序列挖掘是数据挖掘研究中最具有挑战性的十大研究方向之一 。目前重点的研究内容包括时间序列的模式表示、时间序列的相似性度量和查询、时间序列的聚类、时间序列的异常检测、时间序列的分类、时间序列的预测等。 由于时间序列数据本身所具备的高维性、复杂性、动态性、高噪声特性以及容易达到大规模的特性,直接在时间序列上进行数据挖掘不但在储存和计算上要花费高昂代价而且可能会影响算法的准确性和可靠性。时间序列的模式表示是一种对时间序列进行抽象和概括的特征表示方法,是在更高层次上对时间序列的重新描述 。时间序列的模式表示具有压缩数据、保持时间序列基本形态的功能,并且具有一定的除噪能力。常用的时间序列模式表示方法主要包含:频域表示法、分段线性表示法、符号表示法以及主成分分析表示法等。频域表示的基本思想是将时间序列从时域通过傅里叶变换或小波变换映射到频域,用很少的低频系数来代表原来的时间序列数据,这种方法虽然数据浓缩的效率很高,但是对噪声敏感,而且不直观。分段线性表示法的基本思想是用 K个直线段来近似代替原来的时间序列,这种方法能够实现数据压缩的目的,而且允许在时间轴上进行缩放,但实现过程较复杂,且要求事先给出直线段数K。K值的选择是一个关键因素,太小则丢失有用信息,太大又会产生过多的冗余信息。时间序列的符号化表示就是通过一些离散化方法将时间序列的连续实数值或者一段时间内的时间序列波形映射到有限的符号表上,将时间序列转换为有限符号的有序集合。符号化表示的优点在于可以利用许多字符串研究领域的成果,缺点在于如何选择合适的离散化算法,解释符号的意义,以及定义符号之间的相似性度量。主成分分析是一种常见的降维方法。在时间序列的模式表示中,通过对整个时间序列数据库的整体表示实现对整个时间序列数据库的特征提取和压缩。其优点在于计算精度高且对噪声数据的鲁棒性强,但由于在奇异值分解过程中涉及到特征值计算,计算开销较大。 时间序列的相似性度量是时间序列数据挖掘的基础 。时间序列由于其特定的形状特征, 使得目前常用的一些相似性度量和聚类方法失去了原有的优越性, 而几乎所有的时间序列挖掘算法都涉及到计算序列之间的相似性问题。目前,时间序列的相似性度量主要采用Lp范数(例如欧几里德距离)、动态时间弯曲距离、最长公共子序列、编辑距离、串匹配等。前两种相似性度量方法应用较为广泛。但是欧几里德距离不支持时间序列的线性漂移和时间弯曲,动态时间弯曲距离的计算量很大,不适合直接应用于海量时间序列的挖掘,从而限制了其在时间序列数据挖掘上的广泛应用。 虽然各种聚类方法已经在数据挖掘领域中得到了较为深入的研究,但这些方法大多是针对关系数据库中的静态数据对象而提出的。然而在现实世界中越来越多的应用涉及到流数据和时间序列数据等随时间变化的复杂动态数据对象的聚类分析。由于时间序列数据与静态数据有着极大的不同,故对其进行聚类分析有着很大的复杂性。近年来,涌现出许多时间序列聚类方法 ,这些时间序列数据聚类方法大体上可以分为三种,即基于原始数据的聚类、基于特征的聚类和基于模型的聚类。其中后两种方法的核心思想是利用时间序列的模式表示方法把时间序列数据转化为静态的特征数据或者是模型参数,然后再直接应用静态数据的聚类方法来完成聚类任务。 在对时间序列进行分析时, 经常希望能够发现这些时间序列在不同时间段的形态有何关联关系。这种关联关系一般表现为时间序列中频繁出现的变化模式和极少出现的变化模式。这种极少出现的变化模式称之为异常模式。在某些领域, 异常模式的发现对人们来说往往更有价值。例如, 医院可以从病人的心电图序列中发现异常模式从而进行诊断和治疗。按照异常的表现形式不同, 线性时间和空间上时间序列的异常主要可以分为点异常和模式异常两种, 它们都是用于发现一条时间序列上的异常情况的。模式异常是指在一条时间序列上与其他模式之间具有显著差异的模式。事实上, 点异常也可以认为是长度为1 的模式异常。目前已经提出多种时间序列异常检测方法,例如基于人工免疫系统的时间序列异常检测 、基于支持向量聚类的时间序列异常检测 以及后缀树和马尔可夫模型的时间序列异常检测 。 时间序列分类是时间序列数据分析中的重要任务之一. 不同于时间序列分析中常用的算法与问题,时间序列分类是要把整个时间序列当作输入,其目的是要赋予这个序列某个离散标记。它比一般分类问题困难,主要在于要分类的时间序列数据不等长,这使得一般的分类算法不能直接应用。即使是等长的时间序列,由于不同序列在相同位置的数值一般不可直接比较,一般的分类算法依然还是不适合直接应用。为了解决这些难点,通常有两种方法:第一,定义合适的距离度量(最常用的距离度量是DTW距离),使得在此度量意义下相近的序列有相同的分类标签,这类方法属于领域无关的方法;第二,首先对时间序列建模(利用序列中前后数据的依赖关系建立模型),再用模型参数组成等长向量来表示每条序列,最后用一般的分类算法进行训练和分类,这类方法属于领域相关的方法。文 分析了两类方法,并且分别在不同的合成数据集和实际数据集上比较了领域无关和领域相关的两类方法。结果发现在训练数据较少时,使用领域相关的算法比较合适;另一方面,领域无关的算法受噪声的影响相对较少。 预测是对尚未发生或目前还不明确的事物进行预先的估计和推测,是在现时对事物将要发生的结果进行探讨和研究,简单地说就是指从已知事件测定未知事件。进行预测的总原则是:认识事物的发展变化规律,利用规律的必然性进行科学预测。时间序列预测主要包括三种基本方法:内生时间序列预测技术;外生时间序列预测技术;主观时间序列预测技术。时间序列分析与预测在经济 、金融 、工程 等领域有着广泛的应用,研究成果也最为丰富,将另文讨论。 参考文献 1. Keogh E, Kasetty S. On the need for time series data mining benchmarks: a survey and empirical demonstration .Data Mining and Knowledge Discovery, 2003, 7(4): 349-371. 2. Yang Qiang, Wu Xindong. 10 challenging problems in data mining research. Interna tional Journal of Information Technology Decision Making, 2006, 5(4): 597-604. 3. Lin J, Keogh E, Lonardi S, Chiu B. A symbolic representation of time series, with implications for streaming algorithms. Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, 2003, Pages: 2 11. 4. Gullo F, Ponti G, Tagarelli A, Greco S. A time series representation model for accurate and fast similarity detection, Pattern Recognition, 2009, 42(11): 2998-3014. 5. Gunopulos D, Das G. Time series similarity measures. KDD00: Tutorial notes of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 2000. 6. Literatures on Similarity-based Time Series Retrieval. http://www.cs.ust.hk/~leichen/readings/literaturesovertimeseries.htm 7. Liao T W. Clustering of time series data: a survey. Pattern Recognition, 2005, 38: 1857-1874 8. Dasgupta D, Forrest S. Novelty detection in time series data using ideas from immunology. In: Proceeding of the 5th International Conference on Intelligent Systems. 1996, Pages: 82- 87. 9. Ma J, Perkins S. Time-series Novelty Detection Using One-class Support Vector Machines. Procedding of International Joint Conference on Neural Networks, 2003. 10. Keogh E, Lonardi S. Finding surprising patterns in a time series database in linear time and space. Proceedings of the eighth ACM SIGKDD, 2002. 11. 杨一鸣, 潘嵘, 潘嘉林, 杨强, 李磊 . 时间序列分类问题的算法比较 . 计算机学报, 2007 , 30 ( 8 ): 1259-1265. 12. Clements M P (柯莱蒙兹), Hendry D F (韩德瑞),陆懋祖 . 预测经济时间序列 . 北京大学出版社, 2008 13. Tsay R S (蔡瑞胸),潘家柱译 . 金融时间序列分析 . 机械工业出版社, 2006 14. 杨叔子.时间序列分析的工程应用(上下册).第二版.华中科技大学出版社, 2007
最近看到科学网上不少关于科学家的话题的帖子,像苗元华老师的影响人类文明的 10 位科学家 -- 您知道几位?,还有陈安老师的最伟大的科学家做什么类型的科研?等文章,引起了大家的广泛关注。确实,科学家是人类从事科研活动的核心要素,有关科学家的话题永远是对这个领域感兴趣的人们不会忽视的重要内容。对于以科研为生的专业科技工作者来说,了解科学家的性格、志趣、成就以及其生活的环境,可能不仅仅是具有消遣解闷的作用,更重要的是如果能从中发现什么比如取得的成就和个体的特质有何联系这样的类似规律性的东西,无疑会对实际从事的科研工作具有极大的启发意义,而对于普通科学爱好者而言,可能更有利于大众了解科学家的精神世界,让显得有些神秘的科学家褪下神圣的光环,走入普通民众心中,这无疑也具有积极的传播普及意义。受到科网上这类文章的启发,我想就此话题进一步谈谈自己的体会,我不是专门研究科学史或成功学的,所言如有不妥,还望大家批评指正。 这里我大胆地提出一个未经过证实的论断,似乎我们人类天生地就对任何分等级分类的事情比较感兴趣。比如对各个领域的人或者物来一个 top10 之类的排名,将同类事物按照某种标准进行排序,分出个三六九等,然后,依据此来对我们的实际工作提供借鉴和参考,这可能有深刻的人脑高级神经活动的心理或生理基础,只不过不在本文讨论之列。我这里要说的是以前看过的一篇关于企业分等级的文章,里面提出所有的企业可以分为一流、二流和三流三个等级。一流的企业做标准,二流的企业做技术,三流的企业做产品,我们稍微思考一下就可以发现,这大致是一个从抽象到具体,从整体到局部,从掌控到从属的过程。此话怎讲?我们看一流企业的所谓标准,就是行业规范、游戏规则、作用边界,它更多是属于意识形态和认知观念方面的东西,无疑包含的范围宽泛,具有极强的自主性;二流企业的所谓技术,无论何种技术(理的或者工的,硬的或者软的),都必须服从一定的技术标准、行业规范才能得到具体化的执行和实施,技术受标准的统御,不能脱离一定的标准之外,只能在标准规定的范围之类活动,它较之标准更加具体化和局部化;三流企业的所谓产品(这里是广义的产品,包括通常意义的产品和附加在产品上的服务),比起前面两者而言是更为具体化的东西了,是按照一定的技术进行生产活动,得到具体可以应用到实际的事物,无疑它必须同时服从于标准和技术的框架,具有同时满足这两者的规定的属性。 现实中最多见的例子莫过于 IT 行业,比如大家都很热衷的 3G 标准,许多有实力的公司都想制定一个标准作为行业规范,为什么呢?因为标准的支配度最大,你的标准被接受,那么后面所有的同行都得围着你转,都得听你的,而差一点的公司,拿不出标准,就做自己的技术,形成技术优势,也可以活的很好,再次一点的公司,技术也做不好,就直接拿别人的成熟技术做做产品了。而现实的情形,有越来越淡化标准,强调技术、产品的趋势,因为将技术、产品做到极致,也就形成了标准。比如说做 cpu 的 intel ,不断提升自己技术等级,开发新的产品,形成 cpu 领域的龙头老大,而它的处理器的性能指标几乎成为行业内的技术尺度了,大家都以它作为评判产品的标准。再看软件巨人微软,牢牢把持桌面操作系统和办公软件两大阵地,不断推出新的软件产品,形成对操作系统和办公软件的垄断,也就形成了事实上该领域的行业标准,虽然 Linux 是完全不同的一种技术,但它遵循的是和微软操作系统不同的技术标准。还有著名的 IBM 、甲骨文、 Google 公司等,也可以发现类似的现象。这里仅举了 IT 行业的一些例子,大家不难将其推广到其他产业,这里不再赘述。 啰啰嗦嗦说了这么一大段,似乎与本文科学家的主旨无关,其实大有关系。稍加改造,很容易将前面的分类应用到科学家的研究工作中来,如果我们把科学家分个等级,不妨这么看:顶级的科学家做标准、优秀的科学家做技术、普通的科学家做产品。这三者之间的关系,完全类似于上述企业的分类,所谓做标准,就是建立新观念,新理论,新边界,拓宽人类的认知视野,开阔人类的知识领域,提升人类的心智能力,这往往意味着革命、意味着颠覆传统,它是对人类认识能力的极大提高,使得我们更加接近客观世界的本来面目,更加接近上帝的意图。所谓做技术,就是做具体的工具、方法,可以提升我们解决具体问题的效果和效率,对于人类改造自然也具有极大的意义。所谓做产品,就是指针对某些具体的问题,提供解决方案,这里的含义是用现成的理论、方法去解决问题,而不包含通过问题提出新理论、新方法。我们这里要注意三者的界限,三者联系非常紧密,尤其是后面两者往往密不可分,许多科学家往往从具体的问题入手,通过对问题的研究,形成新的理论、方法和工具,反过来去解决问题。因为科研工作的对象是一个个具体的问题,任何科学活动是以解决各种问题为目标的,所以这里所说的做标准,做技术,也是以问题为起点的。 我们这里提到的顶级科学家所做的标准,并非狭义的仅仅是哲学意义上的一些思路或想法,而是一整套严谨完整的理论体系(否则就难以称为科学),比如牛顿之引力理论、爱因斯坦之相对论、伽罗华的群论、罗巴切夫斯基的非欧几何等等,都是对人类心智能力的极大提升,完全开创了一个时代。陈安老师文章中归纳的三类最伟大科学家的科研工作,都可以归于本文中的第一类。个人感觉现在属于第一类的科学家越来越少了,能把第二类做好的已经很不错了,许多优秀的科学家终其一生,也就是提出了一个好的理论、方法或者工具,最后被大家所接受认可,而大多数的科学家目前做的工作属于第三类,就是使用现成的理论、方法,去解决自己专业领域的实际问题,如果能够对现有的理论、方法有所创新和丰富,那么可以将他们归于第二类。 写了这么一大篇,感觉意犹未尽,本来还想进一步就科学家所取得的成就和个体特质的关系展开讨论的,因为记得在物理学家斯莫林著的《物理学的困惑》中,提出一个很有趣的观点,他提到,科学家从事什么样的研究以及最终所取得的成就很大程度上是由科学家本人的性格、习惯和爱好所决定的,而做出划时代贡献的科学家往往是那些不去凑热闹(指不随大流去做最热门的)、不太注意产出速度(不求多而求精)、看起来有些孤独、喜欢静静思考的类型,最典型的比如爱因斯坦。作者在书中也提出了跟本文不同的三种类型,具体细节有兴趣的朋友可以找来这本书翻翻,里面对于科学家(尤其是物理学家)所从事的研究类型以及个人取得的成就有很精彩的论述。但发现这个问题不是三言两语可以说清楚的,完全可以另外写一篇文章专门讨论,等下次有兴趣了再来做这件事情吧。
From: Weili Liang Sent: Thu 12/25/2008 8:43 PM To: Prof. David Norman 2; David Norman Subject: ? Dear David, Believe you and Shirley are enjoying the X'mas season. I am writing in case I would forget this issue, so please take it easy to reply me whenever you have time. I am writing a training material on farming systems classification. Could a recommendatin domain, group of farms, be considered as a type of farming system? or better to be considered a sub-type under a specific farming sytem? Is there any difference or similarity between farm typology in your book and farming systems classification used by J. Dixon, A. Gulliver and D. Gibbon in their report Global Farming Sytems Study: Challenges and Priorities to 2030? I intend to understand recommendation dormains as sub-types of farming systems. similarly we can also understande a type of farming system a higher level of recommendatioin domain in a typology. I need your comments. All the best Weili From: David Norman To: Weili Liang Sent: Thursday, January 22, 2009 7:38 AM Subject: RE: ? Dear Weili I hope everything is going well with you! I am so sorry about the delay in replying to your queries. I always seem to have e-mails I need to reply to. Farming systems are often defined taking into account mainly the bio-physical element with sometimes little consideration of the socio-economic element. A recommendation domain is usually defined as a grouping of farmers who have have similar quantities/qualities of resources, similar problems/challenges and therefore similar solutions/opportunities. They could be analogous to farming systems that are defined in terms of both the bio-physical and socio-economic elements but it is likely most of the time there are likely to be several recommendation domains per farming system especially when they are defined primarily in terms of the bio-phsical element. Unfortunately I do not have John's book at hand at the moment but if I remember correctly the major emphasis was put on the bio-physical element and relatively little on the socio-economic element. In defence of John I think they had no choice since greater consideration of the bio-physical would have greatly increased the number of farming systems that would be defined -- impossible on a global scale. I am so sorry once again for the delay in replying. I do hope it is not too late and my comments are not too confusing! Greetings to your family! Best wishes David From: Weili Liang Sent: Wed 1/21/2009 10:00 PM To: David Norman Subject: Re: ? Dear David, Thanks a lot for your comments which are very helpful. I believe you would not reject me to paste our communication of this one, and the last one on systems agronomy, on my blog propagating FSD approaches. I am writing blog articles introducing rationale and approaches of FSD to Chinese colleagues. It needs time for technical scientists to adopt the approaches. Also, since China is special, so we need to convert the 'African version' of some details into 'Chinese version' --this also takes time. Maybe the symposium on farming systems design to be held in California this coming August an attempt to develop a version of FSD approach adapted to large commercialized systems? I will see while I will be there. My blog is at http://www.sciencenet.cn/blog/FSD.htm . I have dropped 3 articles there. The year of cattle will begin on Feb 26, so wish you and Shirley a healthy and easy year of cattle! Weili From: David Norman To: Weili Liang Sent: Thursday, January 22, 2009 10:45 PM Subject: RE: ? Dear Weili Thanks for your e-mail. I certainly have no problems of you putting materials on the blog. The blog is a very good idea. I did look it up but as would be expected -- and should be -- most of it was in mandarin. All the best and keep up the good work! David
New genus of water mite described using confocal microscopy A taxonomist in Spain identifies a new parasitic species using a novel method, and uses the occasion to take a swipe at a scientific establishment. A new genus of water mitehas been dubbed Vagabundia sci byAntonio Valdecasas, a taxonomist and researcher with the Museo Nacional de Ciencias Naturales (National Museum of Natural History) in Madrid , Spain .Vagabundia comes from the word vagabond and sci isa pokeat the Science Citation Index (SCI), an internationaldocument database that Valdecasas claims has done an injustice totaxonomists through lack of journal citations for research completed in the taxonomy field. Before it can become part of history, I dedicate this species to this sociological tool, SCI, which has done more harm than good to the work of taxonomists and to the fundamental study of biodiversity, said Valdecasas. Vagabundia sci belongs to the subfamily Axonopsinae and wasdiscovered in the Escondido River on Coiba Island , Panama . Valdecasas is the first taxonomist to use confocal laser scanning microscopy to analyze and describea newly identified species. More images of Vagabundia sci: Below: Segments of the fourth leg obtained using partial extended focus image (Valdecasas) From: e-science news