科学网 › 标签 › 数据挖掘

标签: 数据挖掘

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

肿瘤分子信息和数据挖掘方法预测肺癌的预后: xupeiyang 2009-9-24 13:34; http://www.bioon.com/biology/cancer/409960.shtml 来源生物通 2009-9-24 9:38:06 JCO：新方法提高癌症预测准确率生物谷来自中山大学肿瘤防治中心戎铁华教授等通过肿瘤分子信息和数据挖掘方法可以预测早期非小细胞肺癌5年内是否死亡，这一预测的总正确率达到87.2%，研究成果在杂志 Journal of Clinical Oncology 上发表，该杂志影响因子达到15.484。肺癌主要分为小细胞肺癌及非小细胞肺癌，在两种主要的肺癌类型中，非小细胞肺癌约占75%，是造成肺癌相关死亡的主要原因。目前即使是外科手术疗效较好的早期非小细胞肺癌病人，其5年生存率也仅在40%～70%之间，意味着30%～60%的病人会在5年内局部复发或远处转移。现今医学界广泛应用的pTNM分期系统难以准确地预测非小细胞肺癌患者的预后，对于个体化的预后预测更是束手无策。戎铁华教授带领的学术团队从1996年开始探索新方法。他们利用组织芯片和免疫组织化学技术对大样本量的早期肺癌中可能和预后相关的30多种分子标记物进行了检测，结合病人的临床病理特征及预后资料，并且和中国科技大学数据挖掘专家合作，用支持向量机方法筛选构建三种早期肺癌个体化预后预测模型，并且对三种模型进行了验证。免疫组织化学方法具有较强的稳定性和可重复性，对标本处理的要求比较低，而且实验的费用相对比较低廉。目前这一研究成果已经得到国际同行的初步肯定。据悉，该研究成果之所以得到国内外同行的认可，主要是因为类似的用基因预测癌症的检测方法非常昂贵，如美国临床应用的乳腺癌 70个基因检测收费就达到4200美元，而且基因特征与中国人有区别；戎铁华教授课题组用来预测早期非小细胞肺癌预后的诊断手段，成本只需几百元人民币，有利于该技术的推广和应用。该技术一旦成熟，今后每个肺癌病人开刀做完手术后，可借此预测其5年存活情况。预后情况好的就不必再做放疗化疗，减少痛苦和负担；预后差的病人则要研究及时辅做化疗、放疗或者生物治疗。而且检测费用远比国外的基因检测便宜。（生物谷 Bioon.com）生物谷推荐原始出处： Journal of Clinical Oncology , 10.1200/JCO.2009.24.0929 Reply to F.C. Detterbeck Tie-Hua Rong and Zhi-Hua Zhu Cancer Center of Sun Yat-Sen University, Guangzhou, People's Republic of China; 个人分类: 肿瘤研究|2031 次阅读|0 个评论

核聚类与支持向量聚类: 热度 1 郭崇慧 2009-8-30 15:44; 聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。作为一种常见的数据分析工具和无监督机器学习方法，聚类的目的是把数据集合分成若干类（或簇），使得每个类中的数据之间最大限度地相似，而不同类中的数据最大程度地不同。根据聚类算法所采用的基本思想，大致可以将它们分为五种，即划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类。目前对聚类算法的研究正在不断深入，其中核聚类算法和谱聚类算法是近年来受到广泛关注的两种算法。核聚类方法的主要思想是通过一个非线性映射，将输入空间中的数据点映射到高维特征空间中，并选取合适的 Mercer 核函数代替非线性映射的内积，在特征空间中进行聚类。该方法是普适的，它比经典的聚类方法有较大的改进。它通过非线性映射增加了数据点线性可分的概率，即能较好地分辨、提取并放大有用的特征，从而实现更为准确的聚类，算法收敛速度也较快。在经典聚类算法失效的情况下，核聚类算法常常能得到较好的聚类结果。支持向量聚类（ Support Vector Clustering, SVC ）属于核聚类的一种，它以支持向量机（ Support Vector Machine, SVM ）为工具进行聚类。它是 Ben-Hur 等在基于高斯核的 SVDD （ Support Vector Domain Description ）算法基础上进一步发展起来的无监督非参数型的聚类算法。它的基本思想是：利用高斯核，将数据空间中的数据点映射到一个高维的特征空间中。再在特征空间中寻找一个能包围所有数据点象的半径最小的球，将这个球映回到数据空间，则得到了包含所有数据点的等值线集。这些等值线就是簇的边界。每一条闭合等值线包围的点属于同一个簇。 SVC 算法主要分为两个阶段： SVC 训练阶段和聚类分配阶段。其中 SVC 训练阶段包括高斯核宽度系数的确定、核矩阵的计算、 Lagrange 乘子的计算、支持向量的选取和高维特征空间中特征球半径的计算。聚类分配阶段首先生成邻接矩阵，然后根据邻接矩阵进行聚类分配。 SVC 算法具有两大显著优势：能产生任意形状的簇边界；能分析噪声数据点且能分离相互交叠的簇。这是许多聚类算法无法做到的。但 SVC 算法仍存在两个瓶颈： Lagrange 乘子的计算和邻接矩阵的计算。相对而言，后者需要消耗的计算时间远比前者多。因此很多新的 SVC 算法都旨在提高邻接矩阵的计算效率。参考文献 Xu R, Wunsch D. Survey of Clustering Algorithms. IEEE Transaction on Neural Networks, 2005, 16(3): 645-678. Han J, Kamber M. Data Mining: Concepts and Techniques, Second Edition. Morgan Kaufmann, San Francisco , 2006. Filippone M, Camastra F, Masulli F, Rovetta S. A Survey of Kernel and Spectral Methods for Clustering. Pattern Recognition, 2008, 41(1): 176-190. 张莉，周伟达，焦李成 . 核聚类算法 . 计算机学报 , 2002, 25(6): 587-590. Burges C J C. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery, 1998, 2(2) : 121-167. Tax D M J, Duin R P W. Support Vector Domain Description. Pattern Recognition Letters, 1999, 20(11-13): 1191-1199. Ben-Hur A, Horn D, Siegelmann H T, Vapnik V. Support Vector Clustering. Journal of Machine Learning Research, 2001, 2(12): 125-137. Scholkopf B, Williamson R, Smola A, Shawe-Taylor J, Platt J. Support Vector Method for Novelty Detection. Advances in Neural Information Processing System 12. 2000: 582-588. 吕常魁，姜澄宇，王宁生 . 一种支持向量聚类的快速算法 . 华南理工大学学报 . 2005, 33(1): 6-9. Lee J, Lee D. An Improved Cluster Labeling Method for Support Vector Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27(3): 461-464. Camastra F, Verri A. A Novel Kernel Method for Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27(5):801-805.; 个人分类: 科研笔记|15484 次阅读|12 个评论

给科学网的一点建议: vcitym 2009-7-26 18:08; 看到李侠的《工资、民生与不满的消解》博文，其中有一组数字：截至 2009-7-22 ，科网也就 3018 个博客，按照传播学的角度，顶多影响 10 万人不到，这点人气，是无法影响政策的。由此想到，如何将科学网搞好，说几点拙见： 1、虽然科学网的人气不是很高，但其中的金子还是不少的。这些金子的提炼，需要花些功夫。比如针对集中的一些议题编辑决策咨询报告，向有关决策部门定期提交；或者从中进行数据挖掘和知识发现，将挖掘和发现的点再聚焦和凝练，再形成报告等。这些报告直接提交给国务院。这样做可以避免一群人整天嚷嚷，言论一直进不了决策者视野。这些金子的挖掘就好象是汶川地质中陕西师大研究生有预测一样，要专门进行，不能发现金子已经是马后炮了。 2、可以通过已经建博着进行推广。比如让自己的学生、同学、朋友一起加入等。这里比一些博客要空气清新。 3、网站管理员可以不定期进行一些专题引导。比如最近李小文老师的关于回归1956年工资体制的设想，受到热议。很多评论也很有见地，将其进一步讨论，便可形成一个报告。这个实质上可能是高薪养研高薪养教的改革突破口。其他方面，大家可以发表看法。; 个人分类: 技术相关|3402 次阅读|1 个评论

针对ETM基于BP网络像元分解模型分类研究: maokebiao 2009-5-31 17:58; 摘　要:限制遥感图像分类精度的一个主要原因是混合像元问题。因此像元分解也一直是遥感研究的一个热点问题。本文针对传统像元分解方法的缺点，首先对影像进行纯净像元提取，再对混合像元进行分解。在提取纯净像元时，利用ETM影像的全色波段和单波段不同的分辨率选取训练样本，从而克服了传统像元分解中需要两种影像或地面实测资料的缺点。然后用BP神经网络对混合像元进行分解。同时用民乐县的ETM影像作了试验。又利用对应的土地利用图作了验证。取得了比较好的效果。 1. 毛克彪 , 覃志豪 , 张万昌 , 针对 ETM 基于 BP 网络模型的像元分解研究 , 遥感信息 , 2004, 74(2):27-30. PDF下载; 个人分类: 星星点灯|3604 次阅读|0 个评论

一个基于SOFM网络模型的遥感图像分类方法: maokebiao 2009-5-31 17:57; 摘　要:遥感图像分类一直是遥感研究方面的一个热点问题，也是遥感图像数据挖掘方面的一个重要方面。针对传统神经网络分类的弱点，先根据土地利用图对典型地物的像元值进行取样，然后用监督分类对纯净像元进行提取，最后利用自组织神经网络对剩余混合像元进行分类，从而避免了对纯净像元的误分，而且克服了传统神经网络的不足。利用SOFM网络模型对民乐县的遥感影像进行了分类并和传统的神经网络分类以及对应的土地利用图做了比较，用SOFM网络模型有效地提高了分类精度。为了保证分类精度，对地形和大气做了精校正。 1. 毛克彪 , 覃志豪 , 张万昌 , 一个基于 SOFM 网络模型的遥感图象分类方法 , 遥感技术与应用， 2003, 6:399-402. PDF下载; 个人分类: 星星点灯|3147 次阅读|0 个评论

基于Web GIS的电子商务数据挖掘研究: maokebiao 2009-5-28 08:36; 摘　要: 文中对Ansari等提出的基本的电子商务应用框架做了进一步的细化和补充，详细分析了数据收集和数据挖掘问题，包括数据来源、数据类型、数据收集器工作、数据转化、数据库建立和搜寻规则构建等。在此基础上，探讨了数据挖掘技术在基于Web GIS的电子商务中的具体应用。最后讨论了将数据挖掘技术应用于电子商务数据挖掘的最终目的和目前尚面临的一些困难。 1. 毛克彪 , 覃志豪 , 陈晓燕 , 李昕 , 基于 WEBGIS 的电子商务数据挖掘研究 , 测绘学院学报 , 2003, 3:180-182． pdf 下载：基于WEBGIS的电子商务数据挖掘研究; 个人分类: 星星点灯|3956 次阅读|0 个评论

测量数据挖掘的效果: zzupc 2009-3-27 16:44; 数据挖掘是昂贵的。它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建模、模型生成、结果分析等等。那么我们又如何确定所得结果是值得所有时间、金钱和努力？我们将回答以下三个问题：数据挖掘的目标是什么？这个目标的完成度如何？完成了这个目标，价值如何？ lift 和 ROI 。目标：目标应该细化、清楚，以便于监督。切忌只有一个大而空的目标。例如目标是：获得用户行为的了解、在数据中发现有用的模型、发现一些有意思得东西。这些都是大而空得目标。而另外一些目标如：发现那些用户不愿意续用某项服务；找出哪些产品的销量会受影响，当啤酒不再销售的时候。描述型的目标和预测型的目标。例如有两个从同一个数据库中生成的两个分类模型：模型 1 ，含有四条规则，每条含有四个是非字段。模型 2 ，含有 50 条规则，每条都含有很多字段。模型 1 对 70% 的数据进行了正确的分类；模型 2 对 72% 的数据进行了正确的分类。现在要问：哪个模型更好呢？答案取决于您的目标。如果是描述性的目标，也就是说只是想对数据有一个好的了解的话，那么显然模型 1 比模型 2 要更加的简单明了。而另一方面，如果是预测性的目标，目标是为了降低费用的支出的话，那么虽然只有 2% 的差别也有可能会有上百万美圆的差别，因此模型 2 就更受欢迎了。 3 衡量：目标衡量要注意的四个问题：模型的准确率是多少？模型对于数据的描述程度有多好？模型的预测有多少可信度 ? 模型是否容易理解？整体或部分：一个模型的准确性和可理解性，可能在数据的整体或部分上是有一些区别的。两个整体准确性相同的模型可能在某个部分，它们的准确性会有不小的区别。衡量描述型模型： MDL （ minimum description length ）。我们用 MDL 来衡量描述性模型的好坏的标准就是： MDL 即整个模型的长度。衡量预测型模型：通过对未知数据的预测准确率来衡量。关于分类的衡量：错误率。对于分类或预测的任务，它的准确率可以用错误率来衡量。也就是模型在一个评估集上的预测的错误率是多少。关于估值的衡量。如果处理的任务是估值的时候，这时的准确率就是估算值和实际值之间的差别。对于数据整体上的准确率可以有多种方法来衡量。比较常用的有标准方差（ Standard Deviation ）、可信度和支持度（ Confidence and Support ）、距离（ Distance ）。衡量结果：以上的方法主要是对于某个模型的衡量，但是如何比较多个模型的好坏呢？这里我们提出一个 Lift 的概念用于衡量多个模型之间的差别。提升度（ lift ） = P （ classed / sample ） / P （ classed / population ）。我们举个例子来说明一下：对于一个分类算法来说，它要对一个估计集进行分类，也就是标上一个标记：如好、坏。现在假设估计集中有 5% 的真正好的记录，而在用分类算法标上好的记录中有 50% 的真正好的记录，那么这个算法的提高率就是 50/5=10 。但是是不是单纯只要提高率越高，这个模型就越好呢？这里还有一个问题就是 sample 的大小问题。当一个 sample 非常小的时候，它的 lift 也必然会相应的提高，所以我们也应当同时考虑 sample 大小的问题，因为 lift 回随着 sample 的增大而减小。最后提一下的就是在真正的商业应用中，最重要的还是 ROI （ Return On Investment ）的大小，上面的种种只是对实际情况的一种估计，在采取行动之后我们还必须对行动的效果进行不断的统计。; 个人分类: 学科前沿|5407 次阅读|1 个评论

【转载】数据挖掘网址共享: zzupc 2009-3-23 18:43; 知识型企业研究中心 2006-12-26 http://business.queensu.ca/index.php Queen商务学校，任务是提高领导力的管理和促进商务和社会的发展。目前我们的研究工作... 英国谢菲尔德大学自然语言处理研究组 2006-12-26 http://nlp.shef.ac.uk/ 英国谢菲尔德大学自然语言处理研究组研究领域主要为：自然语言分析，自然语言的产生以及相关资... PC AI 2006-12-26 http://www.pcai.com/ 在线免费电子期刊，除了包含每期期刊内容外，还包括一个AI讨论组，和经过整理的Intern... 美国印地安那大学人工智能/认知科学报告和再版文件汇编 2006-12-26 http://www.cs.indiana.edu/%7eleake/INDEX.html 美国印地安那大学人工智能/认知科学报告和再版文件汇编，网站提供了PDF格式的文件，相关书... 美国橡树岭国家实验室图像处理和机器视觉研究小组 2006-12-26 http://www.ornl.gov/sci/ismv/ 美国橡树岭国家实验室图像处理和机器视觉研究小组，图像处理包括：机器视觉，图像管理和检索，... 人工智能研究者俱乐部 2006-12-26 http://www.souwu.com/ 分类论坛:自然语言语音识别论文资源相关编程专家系统知识表示机器学习神经网络数据挖掘模式识... DFKI人工智能研究所 2006-12-17 http://www.dfki.uni-kl.de/ 与人交谈时，对方吐出一串叽哩咕噜的洋话、而你半个字也听不懂，怎么办呢？在过去，这可能需要... 数据管理前言技术国际研讨会（中国，上海，2006） 2006-12-17 http://www.iipl.fudan.edu.cn/DM06/index.htm 2006年该会议的主题是网站管理和挖掘. 它包括6-8个主题,邀请了一系列的研究者和当地... 媒体计算与WEB智能实验室(复旦大学) 2006-12-17 http://www.cs.fudan.edu.cn/mcwil/irnlp/ 媒体计算与WEB智能实验室主要从事多媒体方向（包括文本、图象和视频）的教学和科研工作，研... 奥地利人工智能研究所机器学习和数据挖掘小组 2006-12-11 http://www.oefai.at/oefai/ml/mldm/ 研究区域包括数据挖掘和知识发现，文本挖掘，机器学习，此外还网站提供关于研究领域，相关人物... 加拿大渥太华大学知识获取与智能化学习研究小组 2006-12-09 http://www.site.uottawa.ca/tanka/kaml.html 知识获取与智能化学习研究小组有他们的发展项目：智能化信息的获取项目，文本摘要项目，TAN... 美国麻省理工大学生物与计算学习研究中心 2006-12-09 http://cbcl.mit.edu/ 美国麻省理工大学生物与计算学习研究中心在麻州理工学院成立。主要从数学，工程学和神经学的角... 德国乌尔姆大学人工神经网络小组 2006-12-09 http://www.informatik.uni-ulm.de/ni/forschung/ann.html 德国乌尔姆大学人工神经网络小组的研究重点在于神经网络，数据挖掘，信号处理等领域和方向的研... 优秀知识发现网络 2006-12-09 http://www.kdnet.org/ 优秀知识发现网络是一个开放的网络，它的参加者来自科学，工业和公共部门。这项国际项目的主要... 奥地利维也纳医科大学脑研究中心医学控制和人工智能学院 2006-12-02 http://www.ai.univie.ac.at/ 创建者是地利维也纳医科大学脑研究中心医学控制和人工智能学院，研究包括：自然语言处理，机... 奥地利维也纳医科大学脑研究中心医学控制和人工智能学院 2006-12-02 http://www.ai.univie.ac.at/ 创建者是地利维也纳医科大学脑研究中心医学控制和人工智能学院，研究包括：自然语言处理，机... 美国伍斯特工学院人工智能研究小组 2006-12-02 http://www.cs.wpi.edu/Research/airg/ 多主体系统，学习，单功能主体，智能界面，图标界面，专家系统，数据挖掘，知识库的设计等。微软研究－机器学习和应用统计研究小组 2006-12-02 http://research.microsoft.com/research/mlas/ 机器学习和应用统计研究小组把重心集中在从数据和数据挖掘。藉由软件自动从数据中学习获取新信... 英国爱丁堡大学信息学校人工智能应用学院 2006-12-02 http://www.aiai.ed.ac.uk/ 情境基础的推论: 利用过去的经验和存在的技术指导诊断企业的资源过失；遗传基因的运算法... 北京大学计算语言学研究所 2006-12-02 http://www.icl.pku.edu.cn/ 北京大学计算语言学研究所成立于1986年。研究所的使命是致力于计算语言学理论、语言信息... 哈尔滨工业大学智能技术与自然语言处理实验室 2006-12-02 http://www.insun.hit.edu.cn/default_cn.asp 哈尔滨工业大学计算机学院智能技术与自然语言处理研究室（ITNLP）是国内较早从事自然语言... 加州大学伊荣/尔湾分校机器学习小组 2006-11-29 http://www.ics.uci.edu/~mlearn/Machine-Learning.html 机器学习是一种通过经验获取知识的机制。加州大学伊荣/尔湾分校机器学习小组的研究包括基于统... DMI:数据挖掘学院 2006-11-24 http://www.cs.wisc.edu/dmi/ 数据挖掘研究所于1999年6月1日在微软的数据挖掘小组的帮助下在微软公司的计算机科学系成... 数据挖掘：原理，算法及应用 2006-11-24 http://www.cs.unc.edu/Courses/comp290-90-f04/ 这是北卡罗莱纳洲大学计算机科学系2004年关于数据挖掘的一系列的研讨会的网站。上面列出了... 麻省理工学院开放课程--数据挖掘 2006-11-24 http://www.core.org.cn/OcwWeb/Sloan...5-062Data-Mi... 麻省理工学院的关于数据挖掘开放课程.上面列出了教学大纲、教学日程、讲义、作业、考试以及学... 国家数据挖掘中心 2006-11-24 http://www.ncdm.uic.edu/ 芝加哥的伊利诺伊大学的国家数据挖掘中心于1998年成立,提供资源研究、标准开发和推广高性... IBM智能情报系统研究中心 2006-11-24 http://www.almaden.ibm.com/software/disciplines/iis/ 智能信息系统研究所主要在于设计维护隐私和数据所有权而不是妨碍资讯流通的信息系统.我们的工... 清华大学知识工程研究室 2006-11-24 http://keg.cs.tsinghua.edu.cn/ 清华大学计算机系软件所知识工程研究室以网络计算模式下知识处理为研究方向，以Java、XM... 数据挖掘和数据仓库 2006-11-24 http://www.crm2day.com/data_mining/ 这是一个关于CRM的网站。其中有在数据挖掘这一版块列出了许多著名的公司或者专家写的关于数... 数据挖掘课程 2006-11-24 http://cs.nju.edu.cn/zhouzh/zhouzh.files/course/dm.htm 是南京大学的数据挖掘课程的网页,上面列出了基本的课程介绍,提供课件下载,还列出了其他国家... 数据挖掘的连接 2006-11-24 http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html 该网页列出了关于数据挖掘的一系列链接数据挖掘的连接 2006-11-24 http://www.galaxy.gmu.edu/stats/syllabi/DMLIST.html 该网页列出了关于数据挖掘的一系列链接人工智能研究实验室 2006-11-17 http://www.cs.iastate.edu/~honavar/aigroup.html 人工智能研究实验室是爱荷华州立大学的计算智能、学习和发现中心的一部分.目前的研究包括:人... 美国人工智能协会 2006-11-17 http://www.aaai.org/home.html 成立于1979年的美国人工智能协会(aaai)是一个非营利性的致力于推进科学认识的社会科... 知识媒体学会 2006-11-16 http://kmi.open.ac.uk/index.cfm 研究与电视大学本身相关的区域: 认知的和学问科学,和多媒体。研究包括下列的主题: 叙述... WEB数据挖掘实验室 2006-11-16 http://www.wdmlab.cn/ 本Web数据挖掘实验室隶属于南京师范大学教育科学学院教育技术学系。实验室立足于我国基础教... Java资源网Java数据挖掘 2006-11-16 http://www.javaresource.org/data-mi...-mining-73.html Java资源网是由Java领域的爱好者组成的技术联盟,主要成员均来自java和相关领域的... 中国科大博纳数据挖掘中心 2006-11-16 http://bona.ustc.edu.cn/ 中国科大博纳数据挖掘中心（Bona Institute of Business Data... 西南财经大学商务数据挖掘中心 2006-11-16 http://riem.swufe.edu.cn/dataminingcenter/ 西南财经大学商务数据挖掘中心是一个应用研究机构，它和从事商务决策和数据挖掘的软件公司、... 国际数据挖掘技术研究中心 2006-11-16 http://59.77.6.145/dmlab/DesktopDefault.aspx 数据挖掘技术及其应用实验室是厦门大学国家示范性软件学院软件研究与开发中心的一个重要的分... 互联网数据挖掘服务中心 2006-11-16 http://idm.yatio.com/index.html 互联网数据挖掘服务中心（IDMSC）是以雅信核心搜索技术为依托，面向所有网络分众领域，为... 中科院数据技术与知识经济研究中心 2006-11-16 http://www.dtke.ac.cn/ 中国科学院数据技术与知识经济研究中心（CAS Research Center on Da... 机器学习研究室 2006-11-15 http://www.cald.cs.cmu.edu/ 这个机器学习研究室是卡内基梅隆大学计算机科学系的一个学术部门.我们集中有关于统计机器学习... 数据挖掘工程小组 2006-11-15 http://www.chem-eng.utoronto.ca/~datamining/ 数据挖掘工程组是基身于多伦多大学的化工和应用化学系.其目标是把背景不同的在各个领域研究数... 查尔斯顿学院的信息发现 2006-11-15 http://di.cofc.edu/ 信息发现是从现有的资料中,无论是以前贮存的、还是流经过沟通渠道的，去发现新的信息.如何运... 2006年数据挖掘论坛 2006-11-14 http://www.data-mining-forum.de/ 这次会议是每年召开的一系列的基于数据挖掘的工业会议的第六次会议,该会议每年都在国际活动方... 数据挖掘 2006-11-14 http://www.ccsu.edu/datamining 这是ccsu的一个在线数据挖掘的项目,ccsu是唯一开办了在线数据挖掘科学硕士的学校.这... 第四届全国搜索引擎和网上信息挖掘学术研讨会 2006-11-13 http://www.sewm2006.sdu.edu.cn/ 全国搜索引擎和网上信息挖掘学术研讨会是网络信息应用领域的重要活动，其目的是：促进国内外相... 第三届全国搜索引擎和网上信息挖掘学术研讨会 2006-11-13 http://www.sewm2005.edu.cn/index.htm 全国搜索引擎和网上信息挖掘学术研讨会是网络信息应用领域的重要活动，其目的是：促进国内外相... 第二届全国搜索引擎和网上信息挖掘学术研讨会 2006-11-13 http://www.scut.edu.cn/sewm2004/index.htm 全国搜索引擎和网上信息挖掘学术研讨会是网络信息应用领域的重要活动，其目的是：促进国内外相... 首届全国搜索引擎和网上信息挖掘学术研讨会 2006-11-13 http://net.pku.edu.cn/~sewm/sewm2003.htm 全国搜索引擎和网上信息挖掘学术研讨会是网络信息应用领域的重要活动，其目的是：促进国内外相... 数据挖掘技能 2006-11-10 http://www.statsoft.com/textbook/stdatmin.html 这是一本关于数据挖掘的一本书的章节数据挖掘课堂笔记 2006-11-10 http://infolab.stanford.edu/~ullman/mining/mining.html 国外大学关于数据挖掘相关课程的课件。智能科学网站 2006-11-10 http://www.intsci.ac.cn/ 这是一个关于智能科学的门户网站，主要介绍的有关智能科学的内容由智能系统、智能科学研究、智... 数据挖掘词汇表 2006-11-10 http://www.twocrows.com/glossary.htm 数据挖掘的词汇表智能工具,数据挖掘,可视化2005国际会议 2006-11-09 http://www.infonortics.com/idv/05pro.html 2005年6月27-28号在美国费城召开的智能工具、数据挖掘和可视化国际会议。网站上... SIGIR2006会议网站 2006-11-07 http://www.sigir2006.org/ 关于信息检索的会议网站，本年度的主题是用户交互与检索效率。该网站提供年度会议的论文目录，... 数字经济研究中心 2006-11-07 http://w4.stern.nyu.edu/ceder/ 网站简介：25年多来，纽约大学的Stern's数字经济研究中心已经利用信息技术站在了商业... 原文挖掘和基于网页的信息检索参考书目 2006-11-07 http://filebox.vt.edu/users/wfan/text_mining.html 该网页提供了许多关于原文挖掘研评价和分析的连接。数据挖掘爱好者 2006-11-04 http://datamining.diy.myrice.com/ 数据挖掘就是从海量的数据中找出潜在的有价值的信息。这是一门综合了统计学、数据库和人工智能... 数据挖掘资源 2006-11-04 http://www.opendata365.com/datamini...200506/235.html 该网页提供了许多有关数据挖掘方面的链接，资源丰富。第七次国际数据仓库存储与知识发现会议 2006-11-04 http://www.dwway.com/newcontent.php...5userid=corpid= 主要介绍了会议的时间、地点、宗旨以及讨论的主要内容。数据挖掘：文本挖掘，数据挖掘和社会传媒 2006-11-04 http://datamining.typepad.com/data_mining/ 这是一个私人博客，记录了作者研究方向的一些资料、信息。而作者主要的兴趣所在为：人工智能、... 与统计相关的数据挖掘课件 2006-11-04 http://www.autonlab.org/tutorials/ 这个网站提供了基于统计的数据挖掘各个方面的研究类的课件，包括概率论的基础、数据统计分析的... 诊断试验评价与数据挖掘 2006-11-04 http://statdtedm.6to23.com/ 该网站是个科研个人网（非商业盈利），目的是相互交流,共同提高；网站开辟的几个专题，如数据... 统计分析与数据挖掘实验室 2006-11-04 http://www.bistudy.com/ 该网站主要提供一些相关软件介绍及其下载，包括：调查类软件、统计分析类软件、... 数据挖掘技术简介 2006-11-04 http://www.itcomputer.com.cn/Databa...0601/78529.html 数据挖掘是目前一种新的重要的研究领域。本文介绍了数据挖掘的概念、目的、常用方法、数据挖掘... 数据挖掘技术简介（PPT） 2006-11-04 http://eb.zzei.net/ebSimple/dss.ppt PPT课件数据挖掘教程 2006-11-04 http://www.sobooks.com/product_info...oducts_id/14953 本书为数据挖掘的基础教程，是作者多年来从事数据挖掘和专家系统课程教学经验的总结。它从商业... 数据挖掘 2006-11-04 http://www.the-data-mine.com/ 这个网站是1994年4月建立的,主要是提供关于数据挖掘的信息,包括数据库中的数据挖掘和简... 数据挖掘:实用机器学习工具和技术(第二版) 2006-11-04 http://www.cs.waikato.ac.nz/~ml/weka/book.html 一本关于数据挖掘的书籍的介绍数据挖掘讨论组 2006-11-04 http://www.dmgroup.org.cn/ 数据挖掘讨论组网站建于2000年7月，是由复旦大学计算机系发起创建的。该网站... 数据挖掘研究院 2006-11-04 http://www.dmresearch.net/ 数据挖掘研究院是由HAMMER_SHI于2004年4.17日搭建成立的数据挖掘研讨平台，... Lotus知识发现服务器 2006-11-04 http://www.chinakm.com/share/list.asp?id=2579 主要介绍了Lotus知识发现服务器及其功能和作用。知识发现新进展与成果概述 2006-11-04 http://202.113.96.26/tjcbe/xueshubaogao/yangbingru.ppt 主要介绍了知识发现的内涵与外延的扩展、挖掘知识类型扩展、方法技术扩展、应用及发展趋势以及... 第四届知识发现与数据挖掘国际学术大会 2006-11-04 http://www2.ccw.com.cn/1998/37/170858.shtml 主要介绍了这次会议的8个专题介绍会，以及本届大会的几个特点。数据挖掘研究院网摘 2006-11-04 http://www.dmresearch.net/rss/ 关于一个动态搜集的有关数据挖掘资料的网页。数据挖掘 2006-11-03 http://databases.about.com/od/datamining/ about.com展示了原有的专题文章的收集、网络连接,以及专门讨论数据挖掘和数据仓库课... UCI数据库知识发现 2006-11-02 http://kdd.ics.uci.edu/ 在线的大型数据库，包含多种类型的数据,分析任务、适用范围.本库的主要作用是作为基准测试,... 关于应用解析的新闻以及商业资源 2006-11-02 http://www.secondmoment.org/ 关于应用解析的新闻以及商业资源.强大日志内容混合了评论、技术、以及对知识发现和直接的知识... 注：本文转载自黄红星的博客： http://www.sciencenet.cn/m/user_content.aspx?id=219141; 个人分类: 学科前沿|5870 次阅读|0 个评论

过度拟合（Overfit）: 热度 3 zzupc 2009-3-23 18:38; 前面写的一篇博文提到了overfit，最初我把它译为过适（过度适合的简写），后被导师给纠正为过拟合。讨论班回来之后我也没有认真的去查找相关的资料。今天下午，上数据挖掘课，讲的是分类规则，老师又提到了overfit，结果老师翻译为过适应，听完之后，觉得哭笑不得。为了搞清楚这个词在数据挖掘中准确的翻译，刚刚查了一些文献资料，发现所有提到overfit的都翻译为过度拟合，细细的来想，确实这个翻译更为确切一些。 Overfit是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种。提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。（ http://www.cnblogs.com/liumengwei/articles/973703.html ）虽然这是一个小问题，两种翻译貌似差不多了多少，但还是弄清楚的好，以后应该不会这么翻译了。当然，我想强调的还是一点，做学问和科研，一定要追根溯源，不可有半点马虎。; 个人分类: 学习生活|26577 次阅读|5 个评论

聚类分析（Clustering Analysis）: 热度 2 郭崇慧 2009-3-4 16:25; （博文后面的参考文献是聚类分析方面非常好的三篇综述）聚类作为数据挖掘与统计分析的一个重要的研究领域，近年来倍受关注。从机器学习的角度看，聚类是一种无监督的机器学习方法，即事先对数据集的分布没有任何的了解，它是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程。聚类方法作为一类非常重要的数据挖掘技术，其主要是依据样本间相似性的度量标准将数据集自动分成几个群组，且使同一个群组内的样本之间相似度尽量高，而属于不同群组的样本之间相似度尽量低的一种方法。聚类中的组不是预先定义的，而是根据实际数据的特征按照数据之间的相似性来定义的，聚类中的组也称为簇。一个聚类分析系统的输入是一组样本和一个度量样本间相似度（或距离）的标准，而输出则是簇集，即数据集的几个类，这些类构成一个分区或者分区结构。聚类分析的一个附加的结果是对每个类的综合描述，这种结果对于更进一步深入分析数据集的特性是尤其重要的。聚类方法尤其适合用来讨论样本间的相互关联从而对一个样本结构做一个初步的评价。数据挖掘中的聚类研究主要集中在针对海量数据的有效和实用的聚类方法上，聚类方法的可伸缩性、高维聚类分析、分类属性数据聚类、具有混合属性数据的聚类和非距离模糊聚类等问题是目前数据挖掘研究人员最为感兴趣的。聚类已经被广泛应用于许多领域，例如生物学、药学、人类学、市场营销和经济学。聚类应用包括动植物分类、疾病分类、图像处理、模式识别和文本检索。例如，在商业方面，聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的群组，并可以利用购买模式来描述这些具有不同特征的顾客组群。在生物学方面，聚类分析可以用来获取动物或植物所存在的层次结构，可根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域，此外，还可以帮助分类识别互联网上的文档以便进行信息发现。聚类分析是一个富有挑战性的研究领域，以下就是对数据挖掘中聚类分析的一些典型要求： (1) 可伸缩性(scalability)。实际应用要求聚类算法能够处理大数据集，且时间复杂度不能太高(最好是多项式时间)，消耗的内存空间也有限。目前，为了将算法拓展到超大数据库(VLDB)领域，研究人员已经进行了许多有益的尝试，包括：增量式挖掘、可靠的采样、数据挤压(data squashing)等。其中，数据挤压技术首先通过扫描数据来获得数据的统计信息，然后在这些统计信息的基础上进行聚类分析。比如BIRCH 算法中使用CF树就是属于数据挤压技术。 (2) 能够处理不同类型的属性。现实中的数据对象己远远超出关系型数据的范畴，比如空间数据、多媒体数据、遗传学数据、时间序列数据、文本数据、万维网上的数据、以及目前逐渐兴起的数据流。这些数据对象的属性类型往往是由多种数据类型综合而成的。 (3) 能够发现任意形状的簇。 (4) 尽量减少用于决定输入参数的领域知识。 (5) 能够处理噪声数据及孤立点。 (6) 对输入数据记录的顺序不敏感。 (7) 高维性(high-dimensional)。一个数据集可能包含若干维。较高的维数给聚类分析带来两个问题：首先，不相关的属性削弱了数据汇聚的趋势，使得数据分布非常稀疏。尽管这种情况在低维空间中并不多见，但是随着维数的增加，不相关属性的出现概率及数量也会增加，最后导致数据空间中几乎不存在簇。其次，高维使得在低维中很有效的区分数据的标准在高维空间中失效了。如在高维空间中，数据点到最近邻点的距离与到其他点的距离没有多少分别，从而导致最近邻查询在高维空间中不稳定，此时若根据接近度来划分簇，结果是不可信的。 (8) 能够根据用户指定的约束条件进行聚类。 (9) 聚类结果具有可解释性和可用性。上述的要求使目前聚类分析研究的热点集中在设计能够有效、高效地对大数据库进行聚类分析的方法上。相关的研究课题包括：聚类方法的可扩展性、复杂形状和复杂数据类型的聚类分析及其有效高效性、高维聚类技术，以及混合数值属性与符号属性数据库中的聚类分析方法等。参考文献： 1. Jain A K, Murty M N, Flynn P J. Data Clustering: A Review. ACM Computing Surveys, 1999, 31(3): 264-323. 2. Xu Rui, Donald Wunsch Ⅱ, Survey of Clustering Algorithms, IEEE Transactions on Neural Networks, 2005, 16(3): 645-678. 3. Omran M G H, Engelbrecht A P, Salman A. An overview of clustering methods. Intelligent Data Analysis, 2007, 11, 583-605; 个人分类: 科研笔记|15511 次阅读|9 个评论

本体与数据挖掘结合的一本力作: timy 2009-2-9 20:25; Data Mining with Ontologies: Implementations, Findings, and Frameworks 　　　　来源于： https://igi-pub.com/reference/details.asp?ID=6844v=preface 　　 Edited By: Hector Oscar Nigro , Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina; Sandra Elizabeth Gonzalez Cisaro , Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina; Daniel Hugo Xodo , Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina Preface: Data mining, also referred to as knowledge discovery in databases (KDD), is a process of finding new, interesting, previously unknown, potentially useful, and ultimately understandable patterns from very large volumes of data. Data mining is a discipline which brings together database systems, statistics, artificial intelligence, machine learning, parallel and distributed processing and visualization between other disciplines (Fayyad et al., 1996; Hand Kamber, 2001; Hernadez Orallo et al., 2004). Nowadays, one of the most important and challenging problems in data mining is the definition of the prior knowledge; this can be originated from the process or the domain. This contextual information may help select the appropriate information, features or techniques, decrease the space of hypothesis, represent the output in a most comprehensible way and improve the whole process. Therefore we need a conceptual model to help represent to this knowledge. According to Gruber's ontology definition?explicit formal specifications of the terms in the domain and relations among them (Gruber, 1993, 2002); we can represent the knowledge of knowledge discovery process and knowledge about domain. Principally, ontologies are used for communication (between machines and/or humans), automated reasoning, and representation and reuse of knowledge (Cimiano et al., 2004). As a result, ontological foundation is a precondition for efficient automated usage of knowledge discovery information. Thus, we can perceive the relation between Ontologies and data mining in two manners: From ontologies to data mining, we are incorporating knowledge in the process through the use of ontologies, i.e. how the experts comprehend and carry out the analysis tasks. Representative applications are intelligent assistants for discover process (Bernstein et al., 2001, 2005), interpretation and validation of mined knowledge, Ontologies for resource and service description and knowledge Grids (Cannataro et al., 2003; Brezany et al., 2004). From data mining to Ontologies, we include domain knowledge in the input information or use the ontologies to represent the results. Therefore the analysis is done over these ontologies. The most characteristic applications are in medicine, biology and spatial data, such as gene representation, taxonomies, applications in geosciences, medical applications and specially in evolving domains (Langley, 2006; Gottgtroy et al., 2003, 2005; Bogorny et al., 2005). When we can represent and include knowledge in the process through ontologies, we can transform data mining into knowledge mining. Data Mining with Ontologies Cycle Figure 1 shows our vision of data mining with ontologies cycle. Metadata ontologies : These ontologies establish how this variable is constructed i.e. which was the process that permit us to obtain its value, and it can vary using another method. Of course this ontology must also express general information about the variable as is treated. Domain ontologies : These ontologies express the knowledge about application domain. Ontologies for data mining process : These ontologies codify all knowledge about the process, i.e., select features, select the best algorithms according to the variables and the problem, and establish valid process sequences (Bernstein, 2001, 2005; Cannataro, 2003, 2004). According with Gomez-Perez and Manzano-Macho (2003) the different methods and approaches, which allow the extraction of ontologies or semantics from database schemas can be classified on three areas, main goal, techniques used and sources used for learning. With regard to the attributes of each area they are the following for summary of ontology learning methods from relational schema are: Main goal To map a relational schema with a conceptual schema To create (and refine) an ontology To create ontological instances (from a database) Enhance ad hoc queries Techniques used Mappings Reverse engineering Induction inference Rule generation Graphic modeling Sources used for learning Relational schemas (of a database) Schema of domain specific databases Flat files Relational databases In next paragraphs we explain in more detail these three classes of ontologies based on earlier works from different knowledge fields. Domain Ontology The models on many scientists work to represent their work hypotheses are generally cause effect diagrams. Models make use of general laws or theories to predict or explain behavior in specific situations. Currently these cause effect diagrams can be without difficulty translated to ontologies, by means of conceptual maps which discriminate taxonomy organized as central concepts, main concept, secondary concepts, specific concepts. Discovery systems produce models that are valuable for prediction, but they should also produce models that have been stated in some declarative format, that can be communicated clearly and precisely, which helps people understand observations, in terms that they find well known (Bridewell, 2006; Langley, 2002, 2006). Models can be from different appearances and dissimilar abstraction level, but the more complex the fact for which they account, the more important that they be cast in some formal notation with an unambiguous interpretation. And of course these new knowledge can be easily communicated and updated between systems and Knowledge databases. In particular into data mining field knowledge can be represented in different formalisms, e.g. rules, decision trees, cluster, known as models. Discovery systems should generate knowledge in a format that is well known to domain users. There are an important relation between knowledge structures and discovery process with learning machine. The formers are important outputs of discovery process, and are important inputs to discovery (Langley, 2000). Thus knowledge plays as crucial a role as data in the automation of discovery. Therefore, ontologies provide a structure capable of supporting the knowledge representation about domain. Metadata Ontologies As Spyns et al. (2002) affirm ontologies in current computer science language are computer-based resources that represent agreed domain semantics. Unlike data models, the fundamental asset of ontologies is their relative independence of particular applications, i.e., an ontology consists of relatively generic knowledge that can be reused by different kinds of applications/tasks. In opposition a data model represents the structure and integrity of the data elements of the, in principle ?single?, specific enterprise application(s) by which it will be used. Consequently, the conceptualization and the vocabulary of a data model are not intended a priori to be shared by other applications (Gottgtroy et al., 2005). Similarly, in data modeling practice, the semantics of data models often constitute an informal accord between the developers and the users of the data model?including when a data warehouse is designedand, in many cases, the data model is updated as it evolves when particular new functional requirements pop up without any significant update in the metadata repository. Both ontology model and data model have similarities in terms of scope and task. They are context dependent knowledge representation, that is, there doesn?t exist a strict line between generic and specific knowledge when you are building ontology. Moreover, both modeling techniques are knowledge acquisition intensive tasks and the resulted models represent partial account of conceptualizations (Gottgtroy et al., 2003). In spite of the differences, we should consider the similarities and the fact of data models carry a lot of useful hide knowledge about the domain in its data schemas, in order to build ontologies from data and improve the process of knowledge discovery in databases. Due the fact data schemas do not have the required semantic knowledge to intelligently guide ontology construction has been presented as a challenge for database and ontology engineers (Gottgtroy et al., 2003). Ontologies for Data Mining Process Vision about KDD process is changing over time. In its beginnings the main objective was to extract a valuable pattern from a fat file as a play of try and error. As time goes by, researchers and fundamentally practitioners discuss the importance of a priori knowledge, the knowledge and understandability about the problem, the choice of the methodology to do the discovery, the expertise in similar situations and an important question arises up to what existent is such inversion on data mining projects worthwhile? As practitioners and researchers in this field we can perceive that expertise is very important, knowledge about domain is helpful and it simplify the process. To do more attractive the process to managers the practitioners must do it more efficiently and reusing experience. So we can codify all statistical and machine learning knowledge with ontologies and use it. Bernstein et al. (2001) have developed the concept of intelligent assistant discovery (IDA), which helps data miners with the exploration of the space of valid data mining processes. It takes advantage of an explicit ontology of data-mining techniques, which defines the various techniques and their properties. Main characteristics are (Bernstein et al., 2005). A systematic enumeration of valid DM processes, so they do not miss important, potentially fruitful options. Effective rankings of these valid processes by different criteria, to help them choose between the options. An infrastructure for sharing data mining knowledge, which leads to what economists call network externalities. Cannataro and colleagues have done another interesting contribution to this kind of ontologies. They developed an ontology that can be used to simplify the development of distributed knowledge discovery applications on the Grid, offering to a domain expert a reference model for the different kind of data mining tasks, methodologies and software available to solve a given problem, helping a user in finding the most appropriate solution (Cannataro et al., 2003, 2004). Authors have adopted the Enterprise Methodology (Corcho et al., 2003). Research Works in the Topic The next paragraphs will describe the most recently research works in data mining with ontologies field. Singh, Vajirkar, and Lee (2003) have developed a context aware data mining framework which provide accuracy and efficacy to data mining outcomes. Context factors were modeled using ontological representation. Although the context aware framework proposed is generic in nature and can be applied to most of the fields, the medical scenario provided was like a proof of concept to our proposed model. Hotho, Staab and Stumme (2003) have showed that using ontologies as filters in term selection prior to the application of a K-means clustering algorithm will increase the tightness and relative isolation of document clusters as a measure of improvement. Pand and Shen (2005) have proposed architecture for knowledge discovery in evolving environments. The architecture creates a communication mechanism to incorporate known knowledge into discovery process, through ontology service facility. The continuous mining is transparent to the end user; moreover, the architecture supports logical and physical data independence. Rennolls (2005, p. 719) have developed an intelligent framework for data mining, knowledge discovery and business intelligence. The ontological framework will guide to user to choice of models from an expanded data mining toolkit, and the epistemological framework will assist to user in interpreting and appraising the discovered relationships and patterns. On domain ontologies, Pan and Pan (2006) have proposed ontobase ontology repository. It is an implementation, which allows users and agents to retrieve ontologies and metadata through open Web standards and ontology service. Key features of the system include the use of XML metadata interchange to represent and import ontologies and metadata, the support for smooth transformation and transparent integration using ontology mapping and the use of ontology services to share and reuse domain knowledge in a generic way. Recently, Bounif et al. (2006) have explained the articulation of a new approach for database schema evolution and outline the use of domain ontology. The approach they have proposed belongs to a new tendency called the tendency of a priori approaches. It implies the investigation of potential future requirements besides the current requirements during the standard requirements analysis phase of schema design or redesign and their inclusion into the conceptual schema. Those requirements are determined with the help of a domain ontology called ?a requirements ontology? using data mining techniques and schema repository. Book Organization This book is organized into three major sections dealing respectively with implementations, findings, and frameworks. Section I : Implementations includes applications or study cases on data mining with ontologies. Chapter I , TODE: An Ontology-Based Model for the Dynamic Population of Web Directories by Sofia Stamou, Alexandros Ntoulas, and Dimitris Christodoulakis studies how we can organize the continuously proliferating Web content into topical categories, also known as Web directories. Authors have implemented a system, named TODE that uses Topical Ontology for Directories? Editing. Also TODE?s performance is evaluated; experimental results imply that the use of a rich topical ontology significantly increases classification accuracy for dynamic contents. Chapter II , Raising, to Enhance Rule Mining in Web Marketing with the Use of an Ontology by Xuan Zhou and James Geller introduces Raising as an operation which is used as a preprocessing step for data mining. Rules have been derived using demographic and interest information as input for data mining. The Raising step takes advantage of interest ontology to advance data mining and to improve rule quality. Furthermore, the effects caused by Raising are analyzed in detail, showing an improvement of the support and confidence values of useful association rules for marketing purposes. Chapter III , Web Usage Mining for Ontology Management by Brigitte Trousse, Marie-Aude Aufaure, B?n?dicte Le Grand, Yves Lechevallier, and Florent Masseglia proposes an original approach for ontology management in the context of Web-based information systems. Their approach relies on the usage analysis of the chosen Web site, in complement of the existing approaches based on content analysis of Web pages. One major contribution of this chapter is then the application of usage analysis to support ontology evolution and/or web site reorganization. Chapter IV , SOM-Based Clustering of Multilingual Documents Using an Ontology by Minh Hai Pham, Delphine Bernhard, Gayo Diallo, Radja Messai, and Michel Simonet presents a method which make use of Self Organizing Map (SOM) to cluster medical documents. The originality of the method is that it does not rely on the words shared by documents but rather on concepts taken from ontology. The goal is to cluster various medical documents in thematically consistent groups. Authors have compared the results for two indexing schemes: stem-based indexing and conceptual indexing. Section II : Findings comprise more theoretical aspects of data mining with ontologies such as ontologies for interpretation and validation and domain ontologies. Chapter V , Ontology-Based Interpretation and Validation of Mined Knowledge: Normative and Cognitive Factors in Data Mining by Ana Isabel Canhoto, addresses the role of cognition and context in the interpretation and validation of mined knowledge. She proposes the use of ontology charts and norm specifications to map how varying levels of access to information and exposure to specific social norms lead to divergent views of mined knowledge. Domain knowledge and bias information influence which patterns in the data are deemed as useful and, ultimately, valid. Chapter VI , Data Integration Through Protein Ontology by Amandeep S. Sidhu, Tharam S. Dillon, and Elizabeth Chang discuss conceptual framework of Protein Ontology that has a hierarchical classification of concepts represented as classes, from general to specific; a list of attributes related to each concept, for each class; a set of relations between classes to link concepts in ontology in more complicated ways than implied by the hierarchy, to promote reuse of concepts in the ontology; and a set of algebraic operators to query protein ontology instances. Chapter VII , TtoO: Mining a Thesaurus and Texts to Build and Update a Domain Ontology by Josiane Mothe and Nathalie Hernandez introduces a method re-using a thesaurus built for a given domain, in order to create new resources of a higher semantic level in the form of an ontology. The originality of the method is that it is based on both the knowledge extracted from a thesaurus and the knowledge semiautomatically extracted from a textual corpus. In parallel, authors have developed mechanisms based on the obtained ontology to accomplish a science-monitoring task. An example is provided in this chapter. Chapter VIII , Evaluating the Construction of Domain Ontologies for Recommender Systems Based on Texts by Stanley Loh, Daniel Lichtnow, Thyago Borges, and Gustavo Piltcher, investigates different aspects in the construction of domain ontology to a content-based recommender system. The chapter discusses different approaches so as to construct the domain ontology, including the use of text mining software tools for supervised learning, the interference of domain experts in the engineering process and the use of a normalization step. Section III : Frameworks includes different architectures for different domains in data warehousing or mining with ontologies context. Chapter IX , by Vania Bogorny, Paulo Martins Engel, and Luis Otavio Alvares introduces the problem of mining frequent geographic patterns and spatial association rules from geographic databases. A large amount of natural geographic associations are explicitly represented in geographic database schemas and geo-ontologies, which have not been used so far in frequent geographic pattern mining. The main goal of this chapter is to show how the large amount of knowledge represented in geo-ontologies as prior knowledge can be used to avoid the extraction of patterns previously known as noninteresting. Chapter X , Ontology-Based Construction of Grid Data Mining Workflows by Peter Brezany, Ivan Janciak, and A Min Tjoa, introduces an ontology-based framework for automated construction of complex interactive data mining workflows. The authors present their solution called GridMiner Assistant (GMA), which addresses the whole life cycle of the knowledge discovery process. In addition, conceptual and implementation architectures of the framework are presented and its application to an example taken from the medical domain is illustrated. Chapter XI , Ontology-Based Data Warehousing and Mining Approaches in Petroleum Industries by Shastri L. Nimmagadda and Heinz Dreher. Complex geo-spatial heterogeneous data structures complicate the accessibility and presentation of data in petroleum industries. Data warehousing approach supported by ontology will be described for effective data mining. Ontology based data warehousing framework with fine-grained multidimensional data structures facilitates mining and visualization of data patterns, trends, and correlations hidden under massive volumes of data. Chapter XII , A Framework for Integrating Ontologies and Pattern-Bases by Evangelos Kotsifakos, Gerasimos Marketos, and Yannis Theodoridis propose the integration of pattern base management systems (PBMS) and ontologies. It is as a solution to the need of many scientific fields for efficient extraction of useful information from large databases and the exploitation of knowledge. Authors use a case study of data mining over scientific (seismological) data to illustrate their proposal. Book Objective This book aims at publishing original academic work with high quality scientific papers. The key objective is to provide to data mining students, practitioners, professionals, professors and researchers an integral vision of the topic. This book specifically focuses on those areas that explore new methodologies or examine real study cases that are ontology-based The book describes the state-of-the-art, innovative theoretical frameworks, advanced and successful implementations as well as the latest empirical research findings in the area of data mining with ontologies. Audience The target audience of this book is readers who want to learn how to apply data mining based on ontologies to real world problems. The purpose is to show users how to go from theory and algorithms to real applications. The book is also geared toward students, practitioners, professionals, professors and researchers with basic understanding in data mining. The information technology community can increase its knowledge and skills with these new techniques. People working on the Knowledge Management area such as engineers, managers, and analysts can read it, due to the fact that data mining, ontologies and knowledge management areas are linked straightforwardly. References Bernstein, A., Hill, S., Provost, F. (2001). Towards intelligent assistance for the data mining process: An ontology-based approach . CeDER Working Paper IS-02-02, New York University. Bernstein, A., Provost, F., Hill, S. (2005). Towards intelligent assistance for the data mining process: An ontology-based approach for cost/sensitive classification. In IEEE Transactions on Knowledge and Data Engineering , 17(4), 503-518. Bogorny, V., Engel, P. M., Alvares, L.O. (2005). Towards the reduction of spatial join for knowledge discovery in geographic databases using geo-ontologies and spatial integrity constraints. In M. Ackermann, B. Berendt, M. Grobelink, V. Avatek (Eds.), Proceedings ECML/PKDD Second Workshop on Knowledge Discovery and Ontologies (pp. 51-58). Bounif, H., Spaccapietra, S., Pottinger, R. (2006, September 12-15). Requirements ontology and multirepresentation strategy for database schema evolution . Paper presented at the 2nd VLDB Workshop on Ontologies-based techniques for Databases and Information Systems. Seoul, Korea. Brezany, P., Janciak, I., Woehrer, A., Tjoa, A.M. (2004). GridMiner: A framework for knowledge discovery on the Grid from a vision to design and implementation . Cracow Grid Workshop. Cracow, Poland: Springer. Bridewell, W., S?nchez, J. N., Langley, P., Billwen, D. (2006). An Interactive environment for the modeling on discovery of scientific knowledge. International Journal of Human-Computer Studies , 64, 1009-1014. Cannataro, M., Comito, C. (2003, May 20-24). A data mining ontology for Grid programming . Paper presented at the I Workshop on Semantics Peer to Peer and Grid Computing. Budapest. Retrieved March, 2006, from http://www.isi.edu/~stefan/SemPGRID Cannataro, M., Congiusta, A. Pugliese, A., Talia, D., Trunfio, P. (2004). Distributed data mining on Grids: Services, tools, and applications. IEEE Transactions on Systems, Man and Cybernetics, Part B , 34(6), 2451-2465. Cimiano, P., Stumme, G., Hotho, A., Tane, J. (2004). Conceptual knowledge processing with formal concept analysis and ontologies. In Proceedings of The Second International Conference on Formal Concept Analysis (ICFCA 04) . Corcho, O., Fern?ndez-L?pez, M., G?mez-P?rez, A. (2003). Methodologies, tools and languages for building ontologies: where is their meeting point? Data Knowledge Engineering 46(1), 41-64. Amsterdam: Elsevier Science Publishers B. V. Fayyad, U., Piatetsky-Shiapiro, G., Smyth, P., Uthurusamy R. (1996). Advances in knowledge discovery and data mining . Merlo Park, California: AAAI Press. G?mez P?rez, A., Manzano Macho, D., (Eds.) (2003). Survey of ontology learning methods and techniques . Deliverable 1.5 OntoWeb Project Documentation. Universidad Polit?cnica de Madrid. Retrieved November, 2006, from http://www.deri.at/fileadmin/documents/deliverables/Ontoweb/ D1.5.pdf Gottgtroy, P., Kasabov, N., MacDonell, S. (2003, December). An ontology engineering approach for knowledge discovery from data in evolving domains. In Proceedings of Data Mining 2003 Data Mining IV . Boston: WIT. Gottgtroy, P., MacDonell, S., Kasabov, N., Jain, V. (2005). Enhancing data analysis with Ontologies and OLAP . Paper presented at Data Mining 2005, Sixth International Conference on Data Mining, Text Mining and their Business Applications, Skiathos, Greece. Gruber, T. (1993). A translation Approach to Portable Ontology Specification. Knowledge Acquisitions , 5(2), 199-220. Gruber, T. (2002). What is an ontology? Retrieved November, 2006, from http://www-ksl.stanford. edu/kst/what-is-an-ontology.html Han, J., Kamber, M. (2001). Data mining: Concepts and techniques . Morgan Kaufmann. Hern?ndez Orallo, J., Ram?rez Quintana, M., Ferri Ramirez, C. (2004). Introducci?n a la Miner?a de Datos . Madrid: Editorial Pearson Educaci?n SA. Hotho, A., Staab, S., Stumme, G. (2003). Ontologies improve text document clustering. In Proceedings of the 3rd IEEE Conference on Data Mining , Melbourne, FL, (pp.541-544). Langley, P. (2000). The computational support of scientific discovery. International Journal of Human- Computer Studies , 53, 393-410. Langley P. (2006). Knowledge, data, and search in computational discovery . Invited talk at International Workshop on feature selection for data mining: Interfacing machine learning and statistics, (FSDM) April 22, 2006, Bethesda, Maryland in conjunction with 2006 SIAM Conference on data mining (SDM). Pan, D., Shen, J. Y. (2005). Ontology service-based architecture for continuous knowledge discovery. In Proceedings of International Conference on Machine Learning and Cybernetics , 4, 2155-2160. IEEE Press. Pan, D., Pan, Y. (2006, June 21-23). Using ontology repository to support data mining. In Proceedings of the Sixth World Congress on Intelligent Control and Automation , Dalian, China, (pp. 5947-5951). Rennolls, K. (2005). An intelligent framework (O-SS-E) For data mining, knowledge discovery and business intelligence. Keynote Paper. In Proceeding 2nd International Workshop on Philosophies and Methodologies for Knowledge Discovery , PMKD?05, in the DEXA?05 Workshops (pp. 715- 719). IEEE Computer Society Press. ISBN 0-7695-2424-9. Singh, S., Vajirkar, P., Lee, Y. (2003). Context-based data mining using ontologies. In Song, I., Liddle, S. W., Ling, T. W., Scheuermann, P. (Eds.), Proceedings 22nd International Conference on Conceptual Modeling . Lecture Notes in Computer Science (vol. 2813, pp. 405-418). Springer. Spyns, P., Meersman, R., Jarrar, M. (2002). Data modeling versus ontology engineering, SIGMOD Record Special Issue on Semantic Web, Database Management and Information Systems , 31.; 个人分类: 文本挖掘|11519 次阅读|5 个评论

数据挖掘与知识发现: 郭崇慧 2009-2-1 19:03; 数据每年都在成倍增长，但是有用的信息却好像在减少。在过去 20 年里出现的数据挖掘领域正致力于这个问题。它不仅是一个重要的研究领域，而且在现实世界中具有重大的潜在应用价值。数据挖掘和数据库知识发现（ Data Mining Knowledge Discovery in Database ，简称 DMKDD ）是 20 世纪 90 年代兴起的一门信息技术领域的前沿技术，它是在数据和数据库急剧增长远远超过人们对数据处理和理解能力的背景下产生的，也是数据库、统计学、机器学习、最优化与计算技术等多学科发展融合的结果。知识发现是从数据中识别有效的、新颖的、潜在有用的、最终可理解模式的一个复杂过程。数据挖掘是知识发现中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。知识发现是一个包括数据选择、数据预处理、数据变换、数据挖掘、模式评价等步骤，最终得到知识的全过程，而数据挖掘是其中的一个关键步骤。由于数据挖掘对于知识发现的重要性，目前，大多数知识发现的研究都集中在数据挖掘的算法和应用上，因此，很多研究者往往对数据挖掘与知识发现不作严格区分，把二者混淆使用。目前数据挖掘研究和实践与 20 世纪 60 年代的数据库研究和实践的状态相似。当时应用程序员每次编写程序时，都必须建立一个完整的数据库环境。随着关系数据模型、查询处理和优化技术、事务管理策略和特定查询语言（ SQL ）与界面的发展，现在的环境已经迥然不同了。在未来几十年内，数据挖掘技术的发展可能会与数据库发展历程相似，就是使数据挖掘技术更易于使用和开发。参考文献： 1.U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy. Advances in knowledge discovery and data mining. AAAI/MIT Press, 1996. 2. J. Han, M. Kamber. Data mining: concepts and techniques. Morgan Kaufmann Publishers, 2001. （ 2nd Edition, 2006 ） 3. M. H. Dunham. Data Mining: Introductory and Advanced Topics. Pearson Education, Inc., 2003. （郭崇慧，田凤占，靳晓明等译．数据挖掘教程 ( 世界著名计算机教材精选 ) ．清华大学出版社， 2005 ．）; 个人分类: 科研笔记|9868 次阅读|0 个评论

统计学习理论与支持向量机: 郭崇慧 2009-1-19 19:34; 统计学习理论（ Statistical Learning Theory ， SLT ）是一种专门研究有限样本情况下的统计理论。该理论针对有限样本统计问题建立了一套新的理论体系，在这种体系下的统计推理规则不仅考虑了对渐近性能的要求，而且追求在现有有限信息的条件下得到最优结果。 V. Vapnik 等人从 20 世纪 70 年代开始致力于此方面研究，到 20 世纪 90 年代中期，随着其理论的不断发展和成熟，也由于神经网络等方法在理论上缺乏实质性进展，统计学习理论开始受到越来越广泛的重视。统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。同时，在统计学习理论基础上发展了一种新的通用预测方法支持向量机（ Support Vector Machines ， SVM ），已初步表现出很多优于已有方法的性能，它能将很多现有方法（比如多项式逼近、径向基函数方法、多层感知器网络）纳入其中，有望帮助解决许多原来难以解决的问题（比如神经网络结构选择问题、局部极值问题等）。 SLT 和 SVM 正在成为继神经网络研究之后新的研究热点，并将推动数据挖掘与机器学习理论和技术的重大发展。参考文献： 1. V. Vapnik. The nature of statistical learning theory. Springer-Verlag, 1995. 2. V. Vapnik. Statistical learning theory. John Wiley and Sons, Inc., 1998. 3. B. E. Boser, I. Guyon, V. Vapnik. A training algorithm for optimal margin classifiers. In: D. Haussler, Editor, Proceedings of the Fifth Annual ACM Workshop of Computational Learning Theory, 144-152, ACM Press, 1992. 4. C. Cortes, V. Vapnik. Support-vector networks. Machine Learning, 1995, 20, 273-297 5. J. C. Burges. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 1998, 2(2), 121-167; 个人分类: 科研笔记|8079 次阅读|2 个评论

独立成分分析（ICA）: 热度 6 郭崇慧 2009-1-13 10:37; 独立成分分析（ Independent Component Analysis, ICA ）是近年来出现的一种强有力的数据分析工具（ Hyvarinen A, Karhunen J, Oja E , 2001; Roberts S J, Everson R , 2001 ）。 1994 年由 Comon 给出了 ICA 的一个较为严格的数学定义，其思想最早是由 Heranlt 和 Jutten 于 1986 年提出来的。 ICA 从出现到现在虽然时间不长，然而无论从理论上还是应用上，它正受到越来越多的关注，成为国内外研究的一个热点。特别是从应用角度看，它的应用领域与应用前景都是非常广阔的，目前主要应用于盲源分离、图像处理、语言识别、通信、生物医学信号处理、脑功能成像研究、故障诊断、特征提取、金融时间序列分析和数据挖掘等。 ICA是一种用来从多变量（多维）统计数据里找到隐含的因素或成分的方法，被认为是主成分分析（ Principal Component Analysis, PCA ）和因子分析（ Factor Analysis ）的一种扩展。对于盲源分离问题，ICA是指在只知道混合信号，而不知道源信号、噪声以及混合机制的情况下，分离或近似地分离出源信号的一种分析过程。参考文献 1. Hyvarinen A, Karhunen J, Oja E. ( 2001) . Independent Component Analysis. John Wiley, New York . 2. Roberts S J,Everson, R. ( 2001) . Independent component analysis: principles and practice. Cambridge University Press. 3. Comon P. Independent component analysis a new concept? Signal Processing, 1994, 36: 287-314. 4. Herault J, Jutten C. Space or time adaptive signal processing by neural network models. International Conference On Neural Networks for Computing. Utah, USA, 1986. 图片引自： http://amouraux.webnode.com/research-interests/research-interests-erp-analysis/blind-source-separation-bss-of-erps-using-independent-component-analysis-ica/; 个人分类: 科研笔记|25569 次阅读|7 个评论

数据挖掘领域的主要会议【转载】: gogo800 2008-11-10 10:59; http://blogger.org.cn/blog/more.asp?name=zhaoyong04&id=24556 一流的：数据库三大顶级会议SIGMOD，VLDB，ICDE，数据挖掘KDD，实际相关的还有机器学习ICML,还有信息检索的SIGIR；数据库的理论会议PODS，但它是理论的会议所以和咱们就不大相关了二流的：EDBT，ICDT，CIKM，SDM，ICDM，PKDD，还有ECML欧洲的机器学习会议（这个应该是1.5档的，比一般的二流好），这些会也不好中，中了也会会觉得不一定爽，你可能觉得再以努力就上一流了，哈哈。还有一些会，俺就懒得列了！下面是很早以前AI版的一个帖子，写得还不错，看看吧，哈哈 ———————————————————————————————————— 有些人的工作很原创，每年总有一些很新颖的东西。有的人文章很多，但主要都是ｆｏｌｌｏｗ别人的工作。Ｄａｔａｂａｓｅ领域有不少ｐａｐｅｒｍａｃｈｉｎｅ。有的地方，整个ｇｒｏｕｐ就是一个大的ｐａｐｅｒｍａｃｈｉｎｅ。个人感觉数据库研究者倾向于把数据挖掘看作一个数据库的子领域，因而对数据挖掘的会议 rating较低。然而对其他背景的人而言，数据挖掘是相对独立的一个新兴领域，因而对其会议rating比较高。 SIGMOD：97分，数据库的最高会议，涉及范围广泛，稍偏应用（因为理论文章有PODS）。没说的，景仰如滔滔江水。这个会议不仅是double-blindreview，而且有rebuttalprocedur e，可谓独树一帜，与众不同。 VLDB：95分，非常好的数据库会议。与SIGMOD类似，涉及范围广泛，稍偏应用。从文章的质量来说，SIGMOD和VLDB难分伯仲，没有说谁比谁更高。他们的范围也几乎一样。不少牛人都认为，今年的rebuttalprocedure其实并不怎么成功。投稿太多，很难做到每一篇都公平公正。很多rebuttal没人看。 double-blind是把双刃剑。这几年来每年都有人冒充牛人的风格来投稿，有的还真进去了。反而VLDB的审稿质量一直很高。每年的VLDB都有很理论的paper。一般来说，我感觉大家还是认为SIGMOD要好那么一点点。根据我个人读过的文章，也有这样的感觉。不过这个并不重要了，有差别也是那么一点。 PODS：95分。是“数据库理论的最好会议,也是一个很好的理论会议”。每年总是co-locate dwithSIGMOD。感觉其中算法背景的人占主流（你可以数数PODS文章中有多少来自Motwani group），也有一部分AI背景的人（毕竟SIGART也是主办者之一）。它的影响力远不及SIGM OD，然而其中文章的质量比较整齐，variance小于SIGMOD（以及其他任何数据库会议）。有一位牛人说：“PODSneverhadare allybadpaper，”这是它值得骄傲的地方。 KDD:：fullpaper95分，poster/shortpaper90分。数据挖掘的最高会议。由于历史积累不足以及领域圈子较小，勿用讳言KDD目前比SIGMOD尚有所不如。我觉得我们可以这样类比：KDD:SIGMOD=CRYPTO:STOC。回顾密码学的历史，真正最牛的文章一般发在STOC/FOCS而非C RYPTO/EUROCRYPT，这和今天的数据挖掘何等类似！然而你看看今天的密码学文章，已经有顶级的密码学家（恕我不便写出名字）不再往STOC/FOCS投稿。我觉得同样的事情在不久的将来也会发生在数据挖掘中，让我们拭目以待。这几年来KDD的质量都很高。其fullpaper的质量高于SIGMOD/VLDB中数据挖掘方面的paper 的质量。原因是SIGMOD/VLDB审稿人中数据挖掘的人很少，审稿标准不一定能掌握得很好。这几年好几篇SIGMOD/VLDB的数据挖掘paper都follow一些KDD的paper。而在KDD，要拿一篇f ullpaper真难。去年复旦拿了一篇，实属难能可贵。今年他们又拿了一个SIGMODdemo，说明工作的确很扎实。听说在很多地方，如果能有一篇SIGMOD/VLDB/KDD，就能博士毕业，能有两篇就能找到不错的工作。“革命尚未成功，同志仍需努力！” ICDE：92分。很好的数据库会议，也是一个大杂烩。好处是覆盖面广、包容性强，坏处是文章水平参差不齐。 EDBT：88分，不错的数据库会议，录取率很低然而历史积累不足，影响还明显不及ICDE。 ICDT：88分，PODS的欧洲版，数据库理论第二会议。和SIGMOD/VLDB一样，ICDE和EDBT在质量和影响上都不相上下。其它的如CIKM，ICDM，SDM，SSDBM，PKDD等等都比以上的会议差一截。 CIKM：85分。 SDM：fullpaper90分，poster/shortpaper85分。SIAM的数据挖掘会议，与ICDM并列为数据挖掘领域的第二位，比KDD有明显差距。好像其中统计背景的人比较多，也有一部分机器学习背景的人，比较diversified。 ICDM：fullpaper90分，poster/shortpaper85分。IEEE的数据挖掘会议，与SDM并列为数据挖掘领域的第二位，比KDD有明显差距。 PKDD：83分（因为poster/shortpaper数量很少，所以不予区分）。好像是KDD的欧洲版，但与KDD差距很大。; 个人分类: 学习机器学习|4490 次阅读|0 个评论

2009 IEEE智能系统与应用国际会议 Deadline:2008//11/30: timy 2008-11-1 10:47; http://www.ieee-ais.com/ 2009 IEEE智能系统与应用国际会议（ISA2009） 2009 International IEEEWorkshoponIntelligentSystems and Applications 2009年5月23-24日 http://www.ieee-ais.org.cn 2009 IEEE智能系统与应用国际会议（ISA2009）旨在为科学家、工程师及学者提供一个高水平的国际论坛，以展现智能系统的研究和智能系统在多领域的应用。 ISA2009由美国电子和电气工程师协会(IEEE)和美国电子和电气工程协会哈尔滨分会支持，将于2009年5月23日至24日在湖北工业大学召开。ISA2009由湖北工业大学主办，湖北工业大学计算机学院承办，华中科技大学、武汉大学、华中师范大学协办。会议语言为英语和中文，论文需英文撰写。录用论文将收录到 2009年IEEE电子商务和信息系统安全国际会议论文集中 (EBISS2009) ，该会议已经进入IEEE会议列表，论文集将被 IEEE出版社出版，并被著名检索机构EI和ISTP检索。会议论文集中优秀的论文将被选入 EI或SCI国际期刊专刊发表。欢迎教师、学生踊跃投稿，会议论文主题由以下四大领域组成，但并不局限于：领域1：高级计算理论和应用神经网络云计算进化计算和基因计算模糊计算和软计算蚂蚁算法粒子群优化算法人工鱼群算法人工免疫系统生物和神经系统支持向量机粗糙和模糊粗糙集知识发现和数据挖掘核方法半监督学习进化学习系统领域2：自动化人机交互计算机集成制造系统工厂模型和仿真仪表系统网络系统计划与协调系统自动化处理汽车电器系统传感器融合智能机电和机器人智能自动控制领域3：管理与智能决策知识管理与知识工程管理信息系统管理支持链金融数据挖掘客户关系管 web数据挖掘游戏理论领域4：信息理论、控制理论和应用系统理论和控制理论非线性系统与控制贝叶斯网络普适计算模型，鉴定和信号处理模糊系统和模糊控制分布式控制系统自适应控制和学习控制可靠控制流量控制通信网络系统智能系统设计重要时间论文最后提交日期：2008年11月30日论文录用通知日期：2008年12月31日最后提交正式论文日期：2009年1月30日注册日期：2009年2月10日会议日期：2009年5月23-24日会议嘉宾会议委员名誉主席张颖江（教授，博导）湖北工业大学孙俊逸（教授，博导）湖北工业大学李之棠（教授，博导）华中科技大学大会主席王春枝（教授，计算机学院院长）湖北工业大学大会副主席王卫星湖北工业大学程碧海湖北工业大学胡文斌武汉大学程序委员会主席邵雄凯湖北工业大学钮焱湖北工业大学程序委员会副主席杨习伟湖北工业大学李振立湖北工业大学张子蓬湖北工业大学刘伟湖北工业大学组织委员会主席胡延忠湖北工业大学柯敏毅湖北工业大学熊才权湖北工业大学组织委员会副主席王大震湖北工业大学陈启祥湖北工业大学陈宏伟湖北工业大学陈卓湖北工业大学曾玲湖北工业大学执行委员会主席叶志伟湖北工业大学胡征兵华中科技大学论文提交投稿作者须用英文撰写论文（不超过5页A4纸）。所有投稿的论文将由这个领域的专家做评审。论文格式为：微软Word格式论文模板下载 ( A4) Adobe PDF格式论文模板下载 (PDF格式) 论文版权表下载（Word格式）论文通过会议投稿系统提交；或者通过邮箱 isahut2009@yahoo.com 提交，邮件提交时，请附相关作者研究背景信息。热烈欢迎广大教师和学生踊跃投稿，我们将认真对待每一份稿件，并会为提交的论文及时提出修改意见。注释：每篇被录用的论文中至少有一位作者注册并交纳论文版面费，并出席大会。如果有特殊原因不能出席大会，会议后，我们会免费邮寄论文集和发票，但请一定来信确认接收地址。会议投稿系统 : http://www.ieee-ais.com/submission/ 论文注册费教师、科研院所研究人员等： 2500元学生： 2300元 IEEE会员： 2300元论文注册费包括：论文集1本、会议用餐、会议礼品等。联系方式叶志伟博士电话：+86-27-61370110 邮件： isahut2009@yahoo.com 胡征兵博士电话：+86-13886053866 传真：+86-27-88023380 邮件： hzb@mail.hust.edu.cn 会议专刊 Journal of Computers( ISSN 1796-203X, EI Compendex) 武汉介绍武汉是中国湖北省的省会，人口约为970万人，是华中地区的最大城市，中国大陆七大中心城市之一。世界第三大河长江及其最大的支流汉水横贯市区，将武汉一分为三，形成了武昌、汉口、汉阳三镇隔江鼎立的格局，唐朝诗人李白在此写下黄鹤楼中吹玉笛，江城五月落梅花，因此武汉自古又称江城。在清代末期、国民政府时期及中华人民共和国初期，武汉经济繁荣，一度是中国内陆最大的城市，位居亚洲前列，故武汉曾有东方芝加哥的美誉。武汉也是中华民国的诞生地。 More...; 个人分类: 同行交流|444 次阅读|0 个评论

数据挖掘与知识发现关系探析: huabolin 2008-10-27 10:33; 数据挖掘与知识发现关系探析化柏林中国科学技术信息研究所，北京 100038 （发表于《情报理论与实践》2008年第4期）以数据挖掘与知识发现的分类为切入点,详细探讨数据挖掘与知识发现的关系。总结出关于数据挖掘与知识发现的关系问题有三种观点,即数据挖掘就是知识发现,数据挖掘是知识发现的一个步骤,数据挖掘与知识发现是完全不同的两个概念。三种观点各有道理,取决于研究者的研究背景、研究范畴与目标。最后对数据挖掘与知识发现的发展趋势进行探讨。 **************************************************** 第一种观点：数据挖掘就是知识发现。数据挖掘是从数据中挖掘，知识发现并不是从知识中发现，而是发现知识。知识是从数据中发现的，是经过挖掘发现的。数据挖掘是从源头入手，知识发现视目标而论。前者强调过程，后者强调结果，应该是一个概念的两种表述。 **************************************************** 第二种观点：数据挖掘是知识发现的一个步骤。数据库知识发现指从数据中获取有用知识的整个过程。 KDD 过程除了数据挖掘之外，还有数据预处理、数据筛选、数据清洗、已有匹配知识的吸收、结果的解释与评估，以确保从数据中抽取的知识是有用的。 **************************************************** 第三种观点：数据挖掘与知识发现是完全不同的两个概念。数据挖掘主要针对结构化数据，其数据项是不可分割的，符合一范式（ 1NF ）；而知识发现的处理对象是半结构化与非结构化的知识，数据项可以进一步分割，不符合 1NF 。数据挖掘主要运用回归分析、主成分分析、多元分析、关联规则、支持向量机、模糊集等方法，走统计与规则的技术路线；而知识发现主要是通过神经网络、遗传算法、决策树、范例推理、贝叶斯信念网络等方法，走归纳与演绎的推理过程。数据挖掘的结果往往是精确的、定量的（尽管有置信度这样一个指标）；知识发现的结果往往是模糊的、定性的。数据挖掘主要应用于统计、数据分析等领域；而知识发现主要应用于人工智能领域。 **************************************************** 数据挖掘与知识发现关系探析; 个人分类: 知识抽取|8365 次阅读|2 个评论

机器学习与人工智能学习资源: 热度 3 xiangzr1969 2008-10-6 21:23; 第一个是人工智能的历史（History of Artificial Intelligence），顺着 AI 发展时间线娓娓道来，中间穿插无数牛人故事，且一波三折大气磅礴，可谓事实比想象更令人惊讶。人工智能始于哲学思辨，中间经历了一个没有心理学（尤其是认知神经科学的）的帮助的阶段，仅通过牛人对人类思维的外在表现的归纳、内省，以及数学工具进行探索，其间最令人激动的是 Herbert Simon （决策理论之父，诺奖，跨领域牛人）写的一个自动证明机，证明了罗素的数学原理中的二十几个定理，其中有一个定理比原书中的还要优雅，Simon 的程序用的是启发式搜索，因为公理系统中的证明可以简化为从条件到结论的树状搜索（但由于组合爆炸，所以必须使用启发式剪枝）。后来 Simon 又写了 GPS （General Problem Solver），据说能解决一些能良好形式化的问题，如汉诺塔。但说到底 Simon 的研究毕竟只触及了人类思维的一个很小很小的方面 Formal Logic，甚至更狭义一点 Deductive Reasoning （即不包含 Inductive Reasoning , Transductive Reasoning (俗称 analogic thinking）。还有诸多比如 Common Sense、Vision、尤其是最为复杂的 Language 、Consciousness 都还谜团未解。还有一个比较有趣的就是有人认为 AI 问题必须要以一个物理的 Body 为支撑，一个能够感受这个世界的物理规则的身体本身就是一个强大的信息来源，基于这个信息来源，人类能够自身与时俱进地总结所谓的 Common-Sense Knowledge （这个就是所谓的 Emboddied Mind 理论。），否则像一些老兄直接手动构建 Common-Sense Knowledge Base ，就很傻很天真了，须知人根据感知系统从自然界获取知识是一个动态的自动更新的系统，而手动构建常识库则无异于古老的 Expert System 的做法。当然，以上只总结了很小一部分个人觉得比较有趣或新颖的，每个人看到的有趣的地方不一样，比如里面相当详细地介绍了神经网络理论的兴衰。所以建议你看自己一遍，别忘了里面链接到其他地方的链接。第二个则是人工智能（Artificial Intelligence）。当然，还有机器学习等等。从这些条目出发能够找到许多非常有用和靠谱的深入参考资料。然后是一些书籍书籍： 1. 《Programming Collective Intelligence》，近年出的入门好书，培养兴趣是最重要的一环，一上来看大部头很容易被吓走的:P 2. Peter Norvig 的《AI, Modern Approach 2nd》（无争议的领域经典）。 3. 《The Elements of Statistical Learning》，数学性比较强，可以做参考了。 4. 《Foundations of Statistical Natural Language Processing》，自然语言处理领域公认经典。 5. 《Data Mining, Concepts and Techniques》，华裔科学家写的书，相当深入浅出。 6. 《Managing Gigabytes》，信息检索好书。 7. 《Information Theory：Inference and Learning Algorithms》，参考书吧，比较深。相关数学基础（参考书，不适合拿来通读）： 1. 线性代数：这个参考书就不列了，很多。 2. 矩阵数学：《矩阵分析》，Roger Horn。矩阵分析领域无争议的经典。 3. 概率论与统计：《概率论及其应用》，威廉费勒。也是极牛的书，可数学味道太重，不适合做机器学习的。于是讨论组里的 Du Lei 同学推荐了《All Of Statistics》并说到机器学习这个方向，统计学也一样非常重要。推荐All of statistics，这是CMU的一本很简洁的教科书，注重概念，简化计算，简化与Machine Learning无关的概念和统计内容，可以说是很好的快速入门材料。 4. 最优化方法：《Nonlinear Programming, 2nd》非线性规划的参考书。《Convex Optimization》凸优化的参考书。此外还有一些书可以参考 wikipedia 上的最优化方法条目。要深入理解机器学习方法的技术细节很多时候（如SVM）需要最优化方法作为铺垫。推荐几本书：《Machine Learning, Tom Michell》, 1997. 老书，牛人。现在看来内容并不算深，很多章节有点到为止的感觉，但是很适合新手（当然，不能新到连算法和概率都不知道）入门。比如决策树部分就很精彩，并且这几年没有特别大的进展，所以并不过时。另外，这本书算是对97年前数十年机器学习工作的大综述，参考文献列表极有价值。国内有翻译和影印版，不知道绝版否。《Modern Information Retrieval, Ricardo Baeza-Yates et al》. 1999 老书，牛人。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛，这本书略有些过时了。翻翻做参考还是不错的。另外，Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。《Pattern Classification (2ed)》, Richard O. Duda, Peter E. Hart, David G. Stork 大约也是01年左右的大块头，有影印版，彩色。没读完，但如果想深入学习ML和IR，前三章（介绍，贝叶斯学习，线性分类器）必修。还有些经典与我只有一面之缘，没有资格评价。另外还有两本小册子，论文集性质的，倒是讲到了了不少前沿和细节，诸如索引如何压缩之类。可惜忘了名字，又被我压在箱底，下次搬家前怕是难见天日了。（呵呵，想起来一本：《Mining the Web - Discovering Knowledge from Hypertext Data》）说一本名气很大的书：《Data Mining: Practical Machine Learning Tools and Techniques》。Weka 的作者写的。可惜内容一般。理论部分太单薄，而实践部分也很脱离实际。DM的入门书已经不少，这一本应该可以不看了。如果要学习了解 Weka ，看文档就好。第二版已经出了，没读过，不清楚。信息检索方面，Du Lei 同学再次推荐：信息检索方面的书现在建议看Stanford的那本《Introduction to Information Retrieval》，这书刚刚正式出版，内容当然up to date。另外信息检索第一大牛Croft老爷也正在写教科书，应该很快就要面世了。据说是非常pratical的一本书。对信息检索有兴趣的同学，强烈推荐翟成祥博士在北大的暑期学校课程，这里有全slides和阅读材料： http://net.pku.edu.cn/~course/cs410/schedule.html maximzhao 同学推荐了一本机器学习：加一本书：Bishop, 《Pattern Recognition and Machine Learning》. 没有影印的，但是网上能下到。经典中的经典。Pattern Classification 和这本书是两本必读之书。《Pattern Recognition and Machine Learning》是很新（07年），深入浅出，手不释卷。最后，关于人工智能方面（特别地，决策与判断），再推荐两本有意思的书，一本是《Simple Heuristics that Makes Us Smart》另一本是《Bounded Rationality: The Adaptive Toolbox》不同于计算机学界所采用的统计机器学习方法，这两本书更多地着眼于人类实际上所采用的认知方式，以下是我在讨论组上写的简介：这两本都是德国ABC研究小组（一个由计算机科学家、认知科学家、神经科学家、经济学家、数学家、统计学家等组成的跨学科研究团体）集体写的，都是引起领域内广泛关注的书，尤其是前一本，後一本则是对 Herbert Simon （决策科学之父，诺奖获得者）提出的人类理性模型的扩充研究），可以说是把什么是真正的人类智能这个问题提上了台面。核心思想是，我们的大脑根本不能做大量的统计计算，使用fancy的数学手法去解释和预测这个世界，而是通过简单而鲁棒的启发法来面对不确定的世界（比如第一本书中提到的两个后来非常著名的启发法：再认启发法（cognition heuristics）和选择最佳（Take the Best）。当然，这两本书并没有排斥统计方法就是了，数据量大的时候统计优势就出来了，而数据量小的时候统计方法就变得非常糟糕；人类简单的启发法则充分利用生态环境中的规律性（regularities），都做到计算复杂性小且鲁棒。关于第二本书的简介： 1. 谁是 Herbert Simon 2. 什么是 Bounded Rationality 3. 这本书讲啥的：我一直觉得人类的决策与判断是一个非常迷人的问题。这本书简单地说可以看作是《决策与判断》的更全面更理论的版本。系统且理论化地介绍人类决策与判断过程中的各种启发式方法（heuristics）及其利弊（为什么他们是最优化方法在信息不足情况下的快捷且鲁棒的逼近，以及为什么在一些情况下会带来糟糕的后果等，比如学过机器学习的都知道朴素贝叶斯方法在许多情况下往往并不比贝叶斯网络效果差，而且还速度快；比如多项式插值的维数越高越容易overfit，而基于低阶多项式的分段样条插值却被证明是一个非常鲁棒的方案）。在此提一个书中提到的例子，非常有意思：两个团队被派去设计一个能够在场上接住抛过来的棒球的机器人。第一组做了详细的数学分析，建立了一个相当复杂的抛物线近似模型（因为还要考虑空气阻力之类的原因，所以并非严格抛物线），用于计算球的落点，以便正确地接到球。显然这个方案耗资巨大，而且实际运算也需要时间，大家都知道生物的神经网络中生物电流传输只有百米每秒之内，所以 computational complexity 对于生物来说是个宝贵资源，所以这个方案虽然可行，但不够好。第二组则采访了真正的运动员，听取他们总结自己到底是如何接球的感受，然后他们做了这样一个机器人：这个机器人在球抛出的一开始一半路程啥也不做，等到比较近了才开始跑动，并在跑动中一直保持眼睛于球之间的视角不变，后者就保证了机器人的跑动路线一定会和球的轨迹有交点；整个过程中这个机器人只做非常粗糙的轨迹估算。体会一下你接球的时候是不是眼睛一直都盯着球，然后根据视线角度来调整跑动方向？实际上人类就是这么干的，这就是 heuristics 的力量。相对于偏向于心理学以及科普的《决策与判断》来说，这本书的理论性更强，引用文献也很多而经典，而且与人工智能和机器学习都有交叉，里面也有不少数学内容，全书由十几个章节构成，每个章节都是由不同的作者写的，类似于 paper 一样的，很严谨，也没啥废话，跟《Psychology of Problem Solving》类似。比较适合 geeks 阅读哈。另外，对理论的技术细节看不下去的也建议看看《决策与判断》这类书（以及像《别做正常的傻瓜》这样的傻瓜科普读本），对自己在生活中做决策有莫大的好处。人类决策与判断中使用了很多的 heuristics ，很不幸的是，其中许多都是在适应几十万年前的社会环境中建立起来的，并不适合于现代社会，所以了解这些思维中的缺点、盲点，对自己成为一个良好的决策者有很大的好处，而且这本身也是一个非常有趣的领域。统计学习理论与支持向量机统计学习理论（Statistical Learning Theory，SLT）是一种专门研究有限样本情况下的统计理论。该理论针对有限样本统计问题建立了一套新的理论体系，在这种体系下的统计推理规则不仅考虑了对渐近性能的要求，而且追求在现有有限信息的条件下得到最优结果。V. Vapnik等人从20世纪70年代开始致力于此方面研究，到20世纪90年代中期，随着其理论的不断发展和成熟，也由于神经网络等方法在理论上缺乏实质性进展，统计学习理论开始受到越来越广泛的重视。统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架。同时，在统计学习理论基础上发展了一种新的通用预测方法支持向量机（Support Vector Machines，SVM），已初步表现出很多优于已有方法的性能，它能将很多现有方法（比如多项式逼近、径向基函数方法、多层感知器网络）纳入其中，有望帮助解决许多原来难以解决的问题（比如神经网络结构选择问题、局部极值问题等）。SLT和SVM正在成为继神经网络研究之后新的研究热点，并将推动数据挖掘与机器学习理论和技术的重大发展。参考文献： 1. V. Vapnik. The nature of statistical learning theory. Springer-Verlag, 1995. 2. V. Vapnik. Statistical learning theory. John Wiley and Sons, Inc., 1998. 3. B. E. Boser, I. Guyon, V. Vapnik. A training algorithm for optimal margin classifiers. In: D. Haussler, Editor, Proceedings of the Fifth Annual ACM Workshop of Computational Learning Theory, 144-152, ACM Press, 1992. 4. C. Cortes, V. Vapnik. Support-vector networks. Machine Learning, 1995, 20, 273-297 5. J. C. Burges. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 1998, 2(2), 121-167 http://www.support-vector-machines.org/SVM_soft.html SHOGUN - is a new machine learning toolbox with focus on large scale kernel methods and especially on Support Vector Machines (SVM) with focus to bioinformatics. It provides a generic SVM object interfacing to several different SVM implementations. Each of the SVMs can be combined with a variety of the many kernels implemented. It can deal with weighted linear combination of a number of sub-kernels, each of which not necessarily working on the same domain, where an optimal sub-kernel weighting can be learned using Multiple Kernel Learning. Apart from SVM 2-class classification and regression problems, a number of linear methods like Linear Discriminant Analysis (LDA), Linear Programming Machine (LPM), (Kernel) Perceptrons and also algorithms to train hidden markov models are implemented. The input feature-objects can be dense, sparse or strings and of type int/short/double/char and can be converted into different feature types. Chains of preprocessors (e.g. substracting the mean) can be attached to each feature object allowing for on-the-fly pre-processing. SHOGUN comes in different flavours, a stand-a-lone version and also with interfaces to Matlab(tm), R, Octave, Readline and Python. This is the R package.; 个人分类: 学习论坛|10089 次阅读|3 个评论

机器学习与人工智能学习资源导引[zz]: timy 2008-9-16 18:00; 转载于： http://bbs.byr.edu.cn/wForum/disparticle.php?boardName=PR_AIID=3229pos=12 我经常在 TopLanguage 讨论组上推荐一些书籍，也经常问里面的牛人们搜罗一些有关的资料，人工智能、机器学习、自然语言处理、知识发现（特别地，数据挖掘）、信息检索这些无疑是 CS 领域最好玩的分支了（也是互相紧密联系的），这里将最近有关机器学习和人工智能相关的一些学习资源归一个类：首先是两个非常棒的 Wikipedia 条目，我也算是 wikipedia 的重度用户了，学习一门东西的时候常常发现是始于 wikipedia 中间经过若干次 google ，然后止于某一本或几本著作。第一个是人工智能的历史（History of Artificial Intelligence），我在讨论组上写道：而今天看到的这篇文章是我在 wikipedia 浏览至今觉得最好的。文章名为《人工智能的历史》，顺着 AI 发展时间线娓娓道来，中间穿插无数牛人故事，且一波三折大气磅礴，可谓事实比想象更令人惊讶。人工智能始于哲学思辨，中间经历了一个没有心理学（尤其是认知神经科学的）的帮助的阶段，仅通过牛人对人类思维的外在表现的归纳、内省，以及数学工具进行探索，其间最令人激动的是 Herbert Simon （决策理论之父，诺奖，跨领域牛人）写的一个自动证明机，证明了罗素的数学原理中的二十几个定理，其中有一个定理比原书中的还要优雅，Simon 的程序用的是启发式搜索，因为公理系统中的证明可以简化为从条件到结论的树状搜索（但由于组合爆炸，所以必须使用启发式剪枝）。后来 Simon 又写了 GPS （General Problem Solver），据说能解决一些能良好形式化的问题，如汉诺塔。但说到底 Simon 的研究毕竟只触及了人类思维的一个很小很小的方面 Formal Logic，甚至更狭义一点 Deductive Reasoning （即不包含 Inductive Reasoning , Transductive Reasoning (俗称 analogic thinking）。还有诸多比如 Common Sense、Vision、尤其是最为复杂的 Language 、Consciousness 都还谜团未解。还有一个比较有趣的就是有人认为 AI 问题必须要以一个物理的 Body 为支撑，一个能够感受这个世界的物理规则的身体本身就是一个强大的信息来源，基于这个信息来源，人类能够自身与时俱进地总结所谓的 Common-Sense Knowledge （这个就是所谓的 Emboddied Mind 理论。），否则像一些老兄直接手动构建 Common-Sense Knowledge Base ，就很傻很天真了，须知人根据感知系统从自然界获取知识是一个动态的自动更新的系统，而手动构建常识库则无异于古老的 Expert System 的做法。当然，以上只总结了很小一部分我个人觉得比较有趣或新颖的，每个人看到的有趣的地方不一样，比如里面相当详细地介绍了神经网络理论的兴衰。所以我强烈建议你看自己一遍，别忘了里面链接到其他地方的链接。顺便一说，徐宥同学打算找时间把这个条目翻译出来，这是一个相当长的条目，看不动 E 文的等着看翻译吧:) 第二个则是人工智能（Artificial Intelligence）。当然，还有机器学习等等。从这些条目出发能够找到许多非常有用和靠谱的深入参考资料。然后是一些书籍书籍： 1. 《Programming Collective Intelligence》，近年出的入门好书，培养兴趣是最重要的一环，一上来看大部头很容易被吓走的:P 2. Peter Norvig 的《AI, Modern Approach 2nd》（无争议的领域经典）。 3. 《The Elements of Statistical Learning》，数学性比较强，可以做参考了。 4. 《Foundations of Statistical Natural Language Processing》，自然语言处理领域公认经典。 5. 《Data Mining, Concepts and Techniques》，华裔科学家写的书，相当深入浅出。 6. 《Managing Gigabytes》，信息检索好书。 7. 《Information Theory：Inference and Learning Algorithms》，参考书吧，比较深。相关数学基础（参考书，不适合拿来通读）： 1. 线性代数：这个参考书就不列了，很多。 2. 矩阵数学：《矩阵分析》，Roger Horn。矩阵分析领域无争议的经典。 3. 概率论与统计：《概率论及其应用》，威廉费勒。也是极牛的书，可数学味道太重，不适合做机器学习的。于是讨论组里的 Du Lei 同学推荐了《All Of Statistics》并说到机器学习这个方向，统计学也一样非常重要。推荐All of statistics，这是CMU的一本很简洁的教科书，注重概念，简化计算，简化与Machine Learning无关的概念和统计内容，可以说是很好的快速入门材料。 4. 最优化方法：《Nonlinear Programming, 2nd》非线性规划的参考书。《Convex Optimization》凸优化的参考书。此外还有一些书可以参考 wikipedia 上的最优化方法条目。要深入理解机器学习方法的技术细节很多时候（如SVM）需要最优化方法作为铺垫。王宁同学推荐了好几本书：《Machine Learning, Tom Michell》, 1997. 老书，牛人。现在看来内容并不算深，很多章节有点到为止的感觉，但是很适合新手（当然，不能新到连算法和概率都不知道）入门。比如决策树部分就很精彩，并且这几年没有特别大的进展，所以并不过时。另外，这本书算是对97年前数十年机器学习工作的大综述，参考文献列表极有价值。国内有翻译和影印版，不知道绝版否。《Modern Information Retrieval, Ricardo Baeza-Yates et al》. 1999 老书，牛人。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛，这本书略有些过时了。翻翻做参考还是不错的。另外，Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。《Pattern Classification (2ed)》, Richard O. Duda, Peter E. Hart, David G. Stork 大约也是01年左右的大块头，有影印版，彩色。没读完，但如果想深入学习ML和IR，前三章（介绍，贝叶斯学习，线性分类器）必修。还有些经典与我只有一面之缘，没有资格评价。另外还有两本小册子，论文集性质的，倒是讲到了了不少前沿和细节，诸如索引如何压缩之类。可惜忘了名字，又被我压在箱底，下次搬家前怕是难见天日了。（呵呵，想起来一本：《Mining the Web - Discovering Knowledge from Hypertext Data》）说一本名气很大的书：《Data Mining: Practical Machine Learning Tools and Techniques》。Weka 的作者写的。可惜内容一般。理论部分太单薄，而实践部分也很脱离实际。DM的入门书已经不少，这一本应该可以不看了。如果要学习了解 Weka ，看文档就好。第二版已经出了，没读过，不清楚。信息检索方面，Du Lei 同学再次推荐：信息检索方面的书现在建议看Stanford的那本《Introduction to Information Retrieval》，这书刚刚正式出版，内容当然up to date。另外信息检索第一大牛Croft老爷也正在写教科书，应该很快就要面世了。据说是非常pratical的一本书。对信息检索有兴趣的同学，强烈推荐翟成祥博士在北大的暑期学校课程，这里有全slides和阅读材料： http://net.pku.edu.cn/~course/cs410/schedule.html maximzhao 同学推荐了一本机器学习：加一本书：Bishop, 《Pattern Recognition and Machine Learning》. 没有影印的，但是网上能下到。经典中的经典。Pattern Classification 和这本书是两本必读之书。《Pattern Recognition and Machine Learning》是很新（07年），深入浅出，手不释卷。最后，关于人工智能方面（特别地，决策与判断），再推荐两本有意思的书，一本是《Simple Heuristics that Makes Us Smart》另一本是《Bounded Rationality: The Adaptive Toolbox》不同于计算机学界所采用的统计机器学习方法，这两本书更多地着眼于人类实际上所采用的认知方式，以下是我在讨论组上写的简介：这两本都是德国ABC研究小组（一个由计算机科学家、认知科学家、神经科学家、经济学家、数学家、统计学家等组成的跨学科研究团体）集体写的，都是引起领域内广泛关注的书，尤其是前一本，後一本则是对 Herbert Simon （决策科学之父，诺奖获得者）提出的人类理性模型的扩充研究），可以说是把什么是真正的人类智能这个问题提上了台面。核心思想是，我们的大脑根本不能做大量的统计计算，使用fancy的数学手法去解释和预测这个世界，而是通过简单而鲁棒的启发法来面对不确定的世界（比如第一本书中提到的两个后来非常著名的启发法：再认启发法（cognition heuristics）和选择最佳（Take the Best）。当然，这两本书并没有排斥统计方法就是了，数据量大的时候统计优势就出来了，而数据量小的时候统计方法就变得非常糟糕；人类简单的启发法则充分利用生态环境中的规律性（regularities），都做到计算复杂性小且鲁棒。关于第二本书的简介： 1. 谁是 Herbert Simon 2. 什么是 Bounded Rationality 3. 这本书讲啥的：我一直觉得人类的决策与判断是一个非常迷人的问题。这本书简单地说可以看作是《决策与判断》的更全面更理论的版本。系统且理论化地介绍人类决策与判断过程中的各种启发式方法（heuristics）及其利弊（为什么他们是最优化方法在信息不足情况下的快捷且鲁棒的逼近，以及为什么在一些情况下会带来糟糕的后果等，比如学过机器学习的都知道朴素贝叶斯方法在许多情况下往往并不比贝叶斯网络效果差，而且还速度快；比如多项式插值的维数越高越容易overfit，而基于低阶多项式的分段样条插值却被证明是一个非常鲁棒的方案）。在此提一个书中提到的例子，非常有意思：两个团队被派去设计一个能够在场上接住抛过来的棒球的机器人。第一组做了详细的数学分析，建立了一个相当复杂的抛物线近似模型（因为还要考虑空气阻力之类的原因，所以并非严格抛物线），用于计算球的落点，以便正确地接到球。显然这个方案耗资巨大，而且实际运算也需要时间，大家都知道生物的神经网络中生物电流传输只有百米每秒之内，所以 computational complexity 对于生物来说是个宝贵资源，所以这个方案虽然可行，但不够好。第二组则采访了真正的运动员，听取他们总结自己到底是如何接球的感受，然后他们做了这样一个机器人：这个机器人在球抛出的一开始一半路程啥也不做，等到比较近了才开始跑动，并在跑动中一直保持眼睛于球之间的视角不变，后者就保证了机器人的跑动路线一定会和球的轨迹有交点；整个过程中这个机器人只做非常粗糙的轨迹估算。体会一下你接球的时候是不是眼睛一直都盯着球，然后根据视线角度来调整跑动方向？实际上人类就是这么干的，这就是 heuristics 的力量。相对于偏向于心理学以及科普的《决策与判断》来说，这本书的理论性更强，引用文献也很多而经典，而且与人工智能和机器学习都有交叉，里面也有不少数学内容，全书由十几个章节构成，每个章节都是由不同的作者写的，类似于 paper 一样的，很严谨，也没啥废话，跟《Psychology of Problem Solving》类似。比较适合 geeks 阅读哈。另外，对理论的技术细节看不下去的也建议看看《决策与判断》这类书（以及像《别做正常的傻瓜》这样的傻瓜科普读本），对自己在生活中做决策有莫大的好处。人类决策与判断中使用了很多的 heuristics ，很不幸的是，其中许多都是在适应几十万年前的社会环境中建立起来的，并不适合于现代社会，所以了解这些思维中的缺点、盲点，对自己成为一个良好的决策者有很大的好处，而且这本身也是一个非常有趣的领域。（完）; 个人分类: 自然语言处理|5216 次阅读|1 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 数据挖掘

相关帖子

相关日志

关闭安全验证