From: http://as.wiley.com/WileyCDA/WileyTitle/productCd-0470749911,descCd-description.html Larger Image Cluster Analysis, 5th Edition Brian S. Everitt , Dr Sabine Landau , Dr Morven Leese , Dr Daniel Stahl ISBN: 978-0-470-74991-3 Hardcover 336 pages March 2011 Wiley List Price: US $95.00 Description This edition provides a thorough revision of the fourth edition which focuses on the practical aspects of cluster analysis and covers new methodology in terms of longitudinal data and provides examples from bioinformatics. Real life examples are used throughout to demonstrate the application of the theory, and figures are used extensively to illustrate graphical techniques. This book includes an appendix of getting started on cluster analysis using R, as well as a comprehensive and up-to-date bibliography. Table of Contents Preface Acknowledgement 1 An introduction to classification and clustering 1.1 Introduction 1.2 Reasons for classifying 1.3 Numerical methods of classification - cluster analysis 1.4 What is a cluster? 1.5 Examples of the use of clustering 1.6 Summary 2 Detecting clusters graphically 2.1 Introduction 2.2 Detecting clusters with univariate and bivariate plots of data 2.3 Using lower-dimensional projections of multivariate data for graphical representations 2.4 Three-dimensional plots and trellis graphics 2.5 Summary 3Measurement of proximity 3.1 Introduction 3.2 Similarity measures for categorical data 3.3 Dissimilarity and distance measures for continuous data 3.4 Similarity measures for data containing both continuous and categorical variables 3.5 Proximity measures for structured data 3.6 Inter-group proximity measures 3.7 Weighting variables 3.8 Standardization 3.9 Choice of proximity measure 3.10 Summary 4Hierarchical clustering 4.1 Introduction 4.2 Agglomerative methods 4.3 Divisive methods 4.4 Applying the hierarchical clustering process 4.5 Applications of hierarchical methods 4.6 Summary 5Optimization clustering techniques 5.1 Introduction 5.2 Clustering criteria derived from the dissimilarity matrix 5.3 Clustering criteria derived from continuous data 5.4 Optimization algorithms 5.5 Choosing the number of clusters 5.6 Applications of optimization methods 5.7 Summary 6Finite mixture densities as models for cluster analysis 6.1 Introduction 6.2 Finite mixture densities 6.3 Other finite mixture densities 6.4 Bayesian analysis of mixtures 6.5 Inference for mixture models with unknown number of components and model structure 6.6 Dimension reduction - variable selection in finite mixture modelling 6.7 Finite regression mixtures 6.8 Software for finite mixture modelling 6.9 Some examples of the application of finite mixture densities 6.10 Summary 7Model-based cluster analysis for structured data 7.1 Introduction 7.2 Finite mixture models for structured data 7.3 Finite mixtures of factor models 7.4 Finite mixtures of longitudinal models 7.5 Applications of finite mixture models for structured data 7.6 Summary 8Miscellaneous clustering methods 8.1 Introduction 8.2 Density search clustering techniques 8.3 Density-based spatial clustering of applications with noise 8.4 Techniques which allow overlapping clusters 8.5 Simultaneous clustering of objects and variables 8.6 Clustering with constraints 8.7 Fuzzy clustering 8.8 Clustering and artificial neural networks 8.9 Summary 9Some final comments and guidelines 9.1 Introduction 9.2 Using clustering techniques in practice 9.3 Testing for absence of structure 9.4 Methods for comparing cluster solutions 9.5 Internal cluster quality, influence and robustness 9.6 Displaying cluster solutions graphically 9.7 Illustrative examples 9.8 Summary Bibliography Index
背景知识: 聚类分析中有代表性的数据结构有两种,一种是数据矩阵(data matrix),用 p 个属性来表现 n 个对象,是 nXp 的矩阵;另一种是差异矩阵(dissimilarity matrix),存储 n 个对象两两之间的相似度,是 nXn 的矩阵。 前几天有个学生问我是否能用差异矩阵作为输入,选择spss中的Analyze-Classify-Hierarchical cluster来聚类。我的第一反应是不能,早已习惯了横轴是属性纵轴是对象的输入形式。可它能算出结果,并且很多文献上都是那样操作的,那学生这样告诉我。 能算出结果这一点不需要讨论,做数据分析的人都知道,蚯蚓数量与GDP之间存在相关性。上期刊网上搜索了一下,确实有很多核心期刊论文在分析时把差异矩阵(或相似矩阵)直接输入spss进行层次聚类,并且把聚类结果分析得头头是道。 这样做究竟对不对呢? 先来看一下spss中Hierarchical cluster操作。以表1中的数据输入为例,其计算步骤包括数据变换、对象之间的距离计算和层次聚类,计算结果就是把属性类似的对象归为一类。 表1:数据矩阵 对象 属性一 属性二 属性三 A X11 X12 X13 B X21 X22 X23 C X31 X32 X33 D X41 X42 X43 假如把差异矩阵(如表2,是一对称矩阵,表中数值表示两个对象的相异度)作为spss层次聚类的输入,由于程序是固定的,自然它依然会像对待数据矩阵那样进行数据变换、距离计算......那么,距离的距离是什么?结果如何? 表2 差异矩阵 A B C D A 0 D AB D AC D AD B D BA 0 D BC D BD C D CA D CB 0 D CD D D DA D DB D DC 0 把表3中的实际数据输入spss(参数选项默认,下同),结果见图1。很明显,聚类结果与期望是一样的:对象A、B、D比较相似,C与其他对象距离较远。这是否证明可以把差异矩阵作为spss层次聚类的输入呢?如果是,那其聚类结果特征又是什么? 表3:差异矩阵A A B C D A 0 0.1 0.8 0.1 B 0.1 0 0.8 0.1 C 0.8 0.8 0 0.8 D 0.1 0.1 0.8 0 图1 差异矩阵A的spss聚类结果 要回答这些问题,回头看表2中的数据。跟spss程序一样,把表中的列看成属性变量,那么对象A的属性向量就是(D AA ,D AB ,D AC ,D AD ),即把对象A、B、C、D看成空间中的4个点,对象A与它们的距离分布。同样,对象B的属性向量(D BA ,D BB ,D BC ,D BD )也是其与这4个参照点的距离分布。因此,此时对象A与对象B之间的距离已经不是原来的D AB ,而是向量(D AA ,D AB ,D AC ,D AD )与(D BA ,D BB ,D BC ,D BD )的差异,即与4个参照点的距离分布差异。 这样就很容易图1中计算结果的正确性了。以图2为例,对象A、B、D不仅距离较近,其距离分布(D AA ,D AB ,D AC ,D AC )、(D BA ,D BB ,D BC ,D BD )、(D CA ,D CB ,D CC ,D CD )跟对象D的距离分布(D DA ,D DB ,D DC ,D DD )相比自然也更为相似,所以被归成一类。同一类中的对象,在与所有对象的空间距离分布上更为类似,这在直观判断上是理所当然的。 图2 对象分布示例 但这是否说明可以将差异矩阵作为spss输入进行层次聚类呢?答案是否定的。以表4中的数据输入spss,结果见图3。很显然,这结果是不对的,因为表4中距离最近的是对象A和D,它们应该首先归为一类,而不应该是图3中的对象A和B。其错误的原因就是把距离的距离作为聚类条件,实质上是对原有距离的一种加权平均。在类间距离比较大的情况下将差异矩阵输入spss,有可能得到与数据矩阵输入相同的结果;但当类间距离不那么明显时,结果就很难预料。所以在选择spss进行层次聚类时,还是别把差异矩阵作为输入为好。 表4 差异矩阵B A B C D A 0 0.4 0.4 0.3 B 0.4 0 0.4 0.4 C 0.4 0.4 0 0.8 D 0.3 0.4 0.8 0 图3 差异矩阵B的spss聚类结果 如果手头的数据就是差异矩阵,那么选择什么工具来完成聚类呢?解决方法有:(1)自己写程序(嘿嘿,好像是废话);(2)用SAS软件(据说能接受差异矩阵输入,尚未尝试,欢迎有心人告诉我);(3)用matlab中的linkage函数(这个试过,结果正确,就是结果图形有点难看)。
Stegmann and Grohmann Stegmann and Grohmann 通过运用共词技术拓展了 SL 方法,这是一种用于聚类的统计学方法。他们不使用单词或者概念,而是分析文献集合中每对 MEDLINE 文献的关键词共同出现次数。关键词包括 MeSH 以及酶标记号和 CAS 注册号。这些分析最后生成了所包含关键词的地图或者战略坐标。链接互补又分离文献的 promising( 有希望的 ) 词倾向于出现在低向心度和密度的区域。通过复制 Swanson 在雷诺氏病和鱼油关系、偏头痛和酶缺乏上面的发现,验证了他们的方法的有效性,他们还发现朊病毒、神经变性疾病和锰之间的关系。这种关系早期曾经由 Chen 在研究知识潜在领域问题的时候提出过。之所以叫潜在,是因为在陈的关于知识地图的书中这是些被引频次低的重要论文。 共词分析和聚类的优点在于研究初期选词是自动化的。但是,专题的专家还是要为了最后选择合适的词而评判一下各个类别。共词聚类的另外一个优点是用户对类别的地图或者坐标评价起来要比评价一长串排序的词要容易得多。其缺点是这种方法依赖于来自于受控词表的关键词。其他挖掘标题和文摘的方法更适合没有关键词的方法。此外,这种考量在将来研究人员需要合并没有统一主题词表的数据库并在其中挖掘信息的时候会显得十分重要。 Gordon MD, Lindsay RK. Toward discovery support systems: a replication, re-examination, and extension of Swanson's work on literature-based discovery of a connection between Raynaud's and fish oil. Journal of the American Society for Information Science. 1996; 47 :116128