科学网

 找回密码
  注册

tag 标签: 挖掘

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

基因组如何分析挖掘
热度 1 hsm 2012-3-20 11:08
现在基因组测序成本越来越低,测一个基因组一个课题组都能承担下来,但是后续的基因组信息挖掘可不是容易的事,如何从基因组的信息中挖掘出有科学意义的东西可不是一般课题组能达到。就我最近分析基因组的过程在这里总结一下,权当做记载吧! 基因组组装: 基因组测序第一步就是测基因组序列再拼接,现在一般用的是solexa测序,其成本低,通量高,通过不同insertsize搭配拼接利用华大的soapdenovo软件拼接能获得很好的拼接效果,若有BACend则可拼接成更长的scaffold。再利用高密度遗传图谱确定scaffold的order和orientation.这样基因组蓝图即可确定。 基因注释: 目前基因注释有三种手段,denovo注释,EST/RNA-seq注释和homolog注释。其中denovo注释有genscan,fgenesh,glimmer等软件,EST主要代表利用传统sanger测序获得的RNA表达数据,RNA-seq主要代表利用第二代高通量测序获得的RNA表达数据,homolog注释是利用近缘物种的蛋白序列辅助注释。 重复序列注释: 首先是denovo预测,再在denovo预测的基础上做repeatmasker。其中denovo预测的方法有三种,LTR_finder,Piler和RepeatScout。LTR_finder主要是找LTR类型的具有完整结构的重复单元,Piler主要注释卫星重复序列,RepeatScout在前两种方法的基础上做些补充。denovo预测的结果合并作为该物种的repeat library, 再做repeatmasker,完整注释重复序列。 转座子注释 :LTR反转座子用LTR_STRUC注释,非LTR反转座子(SINE和LINE)和DNA转座子参考文献 Holligan, D., Zhang, X.,Jiang, N., Pritham, E.J. Wessler, S.R. The Transposable Element Landscape of the Model Legume Lotus japonicus. Genetics 174 , 2215-2228 (2006)。 基因功能注释 :通常用interproscan和KEGG。interproscan能获得多个数据库的结构域注释结果和GO注释结果,KEGG能获得pathway注释结果。 多倍化研究 :基因组内部的多倍化过程,通过mcscan能获得基因组内部基因共线性的结果,可以确定是古四倍体还是古六倍体。
17374 次阅读|1 个评论
[转载](转载)数据挖掘中数据集资源的收集
ljxxjl 2012-1-25 17:31
数据挖掘中数据集资源的收集 已有 1215 次阅读 2009-3-7 10:37 | 个人分类: Data Mining | 系统分类: 科研笔记 1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/data.html http://kdd.ics.uci.edu/summary.task.type.html http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/ http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/ http://www.phys.uni.torun.pl/~duch/software.html 在下面的网址可以找到reuters数据集 http://www.research.att.com/~lewis/reuters21578.html 以下网址上有各种数据集: http://kdd.ics.uci.edu/summary.data.type.html 进行文本分类,还有一个数据集是可以用的,即rainbow的数据集 http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html 3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果 可能有一些不能访问,但是总有能访问的吧: UCI收集的机器学习数据集 ftp://pami.sjtu.edu.cn/ http://www.ics.uci.edu/~mlearn//MLRepository.htm statlib http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm http://lib.stat.cmu.edu/ 样本数据库 http://kdd.ics.uci.edu/ http://www.ics.uci.edu/~mlearn/MLRepository.html 关于基金的数据挖掘的网站 http://www.gotofund.com/index.asp http://lans.ece.utexas.edu/~strehl/ reuters数据集 http://www.research.att.com/~lewis/reuters21578.html 各种数据集: http://kdd.ics.uci.edu/summary.data.type.html http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html http://lib.stat.cmu.edu/datasets/ http://dctc.sjtu.edu.cn/adaptive/datasets/ http://fimi.cs.helsinki.fi/data/ http://www.almaden.ibm.com/software/quest/Resources/index.shtml http://miles.cnuce.cnr.it/~palmeri/datam/DCI/ 进行文本分类WEB http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html http://www.w3.org/TR/WD-logfile-960221.html http://www.w3.org/Daemon/User/Config/Logging.html #AccessLog http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/ http://www.web-caching.com/traces-logs.html http://www-2.cs.cmu.edu/webkb http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf http://www.cs.cornell.edu/projects/kddcup/index.html 时间序列数据的网址 http://www.stat.wisc.edu/~reinsel/bjr-data/ apriori算法的测试数据 http://www.almaden.ibm.com/cs/quest/syndata.html 数据生成器的链接 http://www.cse.cuhk.edu.hk/~kdd/data_collection.html http://www.almaden.ibm.com/cs/quest/syndata.html 关联: http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html #assocSynData WEKA: http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar 1。Ajarfilecontaining37classificationproblems,originallyobtainedfromtheUCIrepository http://prdownloads.sourceforge.net/weka/datasets-UCI.jar 2。Ajarfilecontaining37regressionproblems,obtainedfromvarioussources http://prdownloads.sourceforge.net/weka/datasets-numeric.jar 3。Ajarfilecontaining30regressiondatasetscollectedbyLuisTorgo http://prdownloads.sourceforge.net/weka/regression-datasets.jar 癌症基因: http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi 金融数据: http://lisp.vse.cz/pkdd99/Challenge/chall.htm 另一个人提供的 http://www.cs.toronto.edu/~roweis/data.html http://kdd.ics.uci.edu/summary.task.type.html http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/ http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/ http://www.phys.uni.torun.pl/~duch/software.html 在下面的网址可以找到reuters数据集 http://www.research.att.com/~lewis/reuters21578.html 以下网址上有各种数据集: http://kdd.ics.uci.edu/summary.data.type.html 进行文本分类,还有一个数据集是可以用的,即rainbow的数据集 http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html DownloadtheFinancialData(~17.5Mzippedfile,~67Munzippeddata) DownloadtheMedicalData(~2Mzippedfile,~6Munzippeddata) http://lisp.vse.cz/pkdd99/Challenge/chall.htm kdnuggets相关链接数据集(借花献佛了): http://www.kdnuggets.com/datasets/index.html 本文引用地址: http://blog.sciencenet.cn/home.php?mod=spaceuid=224917do=blogid=218880
1 次阅读|0 个评论
视角
sfw111 2011-12-22 17:58
浅浮的永远浮在表面, 深刻的永远藏在深层, 浮在表面的会蒙蔽你的眼睛, 藏在深处的会若隐若现, 不要用你的眼睛, 不要用你的听觉, 不要相信权威们指定的路线, 用你锐利的智慧, 去挖掘那埋在深处的真理。
个人分类: 社会科学|334 次阅读|0 个评论
[转载]没有偏见的数据挖掘
热度 2 paraland 2011-12-22 10:58
信息时代同时也是信息超载的时代。企业、政府、研究人员和公民正以前所未有的速度积累数据,但我们应该如何从无穷的数据中辨别出对我们切身利益相关的问题答案?例如什么样的环境条件最可能导致疾病暴发?什么样的社会政治因素最有助于教育成功呢?有许多数学工具可以帮助我们发现数据之间的关系,但大多数需要先验知识。如果你是从一张白纸开始,那么问题会变得十分困难。现在,MIT、哈佛和布洛德研究所的研究人员在12月16日出版的《科学》上发表了一篇论文,提出了无偏见的数据挖掘技术,不需要先验假设就能寻找出大数据集中变量之间的关系。 论文: 1518.full.pdf 相关: http://www.sciencemag.org/content/334/6062/1518 报道 http://web.mit.edu/newsoffice/2011/large-data-sets-algorithm-1216.html http://developers.solidot.org/developers/11/12/20/0234235.shtml
个人分类: 论文交流|3766 次阅读|2 个评论
从数据挖掘看硕士生和博士生
wangjinc520 2011-12-12 16:43
从数据挖掘看硕士生和博士生
前段时间偶然跟同学聊起最近的工作,他说准备做一个链路预测的模型,我说我在分析我们数据集的特征,通过这些特征去指导链路预测。然后我就跟他说有这样那样的特征,是多么有意思,说不定就能起到关键性的作用呢!并没有对他说的模型产生多大的重视,或许主要还是觉得不甚理解吧。 第二天正好看了几篇文章,发现文章在前半部分都在阐述他们的模型,最后将这个模型应用到了数据集中,效果不错,工作很好。突然一下让我对模型有了一些理解。或许它,就是更高层次的抽象吧。 一直以来,觉得抽象的能力是衡量一个人科研能力的重要指标,抽象表示的通用性和普适性。翻翻Nature Science PRL 等期刊的文章,不难发现大多数都是提出一个模型,而不是说单纯的对某类数据进行一些研究。 或许就现阶段学校的毕业要求来看,硕士的要求应该是能有效的运用特征去指导学习,而博士则需要进行高层次的抽象,提出有用的模型吧。 就学习的时间上来看,在短暂的硕士生涯中,可能没有太多的时间去学习和掌握提出模型所需要的庞大知识量,这也导致了这一区别的产生。 又或者,有限的视野和起点,让硕士生会更难意识到模型与特征的区别在哪里。 恩,作为一个即将毕业的硕士生, 哀叹一下没有时间再去好好科研做出一个好模型来! 只能偷偷的窥视一下它.. 呵呵
个人分类: 随想|4471 次阅读|0 个评论
巧挖科学博客之均击量公式,兼谈干预规则----趣味数据挖掘之四
热度 28 tangchangjie 2011-12-8 09:17
巧挖科学博客之均击量公式,兼谈干预规则----趣味数据挖掘之四
巧挖科学博客之均击量公式,兼谈干预规则----趣味数据挖掘之四(唐常杰) 讲过长课的老师,常在受众将发生审美疲劳之时段,安排一点有趣的内容。 为消除疲劳,现来一段有趣的、与博友的自尊心和荣誉感相关的博文,议题是:挖掘科学博客的平均点击量公式,以及提高平均点击量的方法。 1 平均点击量排行引出的问题   嘤其鸣矣,求其友声,作者总希望读者多一点,博主们希望点击量排行高一点,朴素而自然。打开科学网主页排行榜,看总排行的Top 4 ,点击量区间为 ,这些资深博主起步早,博历高,博文篇数达到几千甚至上万。   如果某位晚起步几年的新博主,立志要进入总排行Top 4,估计有两种结果:(a) 把青春献给博客, 成功了,那将是一首科博青春之歌;(b)甜蜜的梦容易醒,梦醒了,放弃了;   如果修改一下目标,把追求目标从总排行改为周排行或均排行,则是比较现实可行的。   周排行描述短期行为,博主像脉冲星爆发那样,在一周中发一篇或连续几篇预先准备的好博文或耸人听闻的事件或评论,就可灿烂一周。事实上,在博客上常见到超新星的爆发。   如欲提高平均点击量(简称均击量),首当其冲的问题是:科学博客的均击量是怎样计算的?知道了这个计算规则,再看看其有什么启发,思考提高均击量的方法。     不需托人打听,不需后门询问, 下面以科学网公开的数据,以博主的合法的手段,挖掘出科学博客均击量公式。然后讨论提高均击量的方法。 2 均击量不是简单平均 记平均点击量(Average)为A,总点击量(Total)为T,博文(Blog)总数为B,随便找一位博龄大于一年的博友数据,简单计算会发现,与常识不同,A≠ T/B.      于是猜测,科学网为鼓励博主立新功,而不躺在功劳簿上吃老本,对点击量做了加权处理,有多种可能,例如   (a) 只用最近几个月的博文参加均击量计算。   (b) 复杂一些,用加权,时间远的博文权重小,近的博文权重大;   从简单到复杂探索,如果简单的想法能解决问题,就不考虑复杂的。 3. 投石冲破水中天,两分钟的干预实验 : 似乎已知条件太少,不妨学一回苏东坡,故事中,当秦少游因为苏小妹的“闭门推开窗前月”而困惑时,苏学士“投石冲破水中天”,使其豁然开朗。从干预规则挖掘的观点看 ,投石是向一个稳定系统施加干预,在战争片中称为火力侦察,在谍战片中称为“打草惊蛇”,当一个系统对干预作出响应时,其响应就提供了新的、具有动力学性质的信息。   笔者昨天在自己的博客上做了一个干预实验,增加了一篇测试性质的空博文。   标题: “测试平均点击量的空博文”,   隐私设置:草稿隐藏;   评论设置: 不允许评论。   科学博客系统的响应了这一干预,记录在下列表格中,三分钟后删去此博文。    总点击量 平均点击量 参与平均的有效点击量 发博文之前一分钟 T1=548723 A1=5541 y1 (未知) 发博文之后一分钟 T2=548730 A2=5243 y2 (未知) 4. 手工数据挖掘 4.1 先说明, y2-y1 ≈ T2-T1 。整个测试大约两分钟,此期间新发生的点击量,包括礼节性回访等,不会太多,如果点击的是近期博文,属于有效点击量,其效果会被 A2 吸收,如果点击的是很早的博文,有点干扰也不大。实验中 T2-T1 =7 ,容易理解| y2-y1| |T2-T1| =7 。所以,即使发生了干扰,也不大。 设参与均击量计算之博文数量是X篇, 容易得到下列方程组:    y1=A1*X, (1)    y2=A2*(X+1) (2)   两式相减,得到:    T2-T1≈y2-y1= A2(X+1)-A1*X   解方程,代入上面表格中数值    X≈(A2+T1-T2)/(A1-A2)=(5243-7)/(5541-5243)=17.6   X是整数,所以X= 18       4.2 实 验结果有两种解释:   (a).科学博客取最近18篇博文计算均击量;或者,   (b).取最近M个月的博文计算均击量,推断M=6,方法如下:    检查了最近18篇博文中最前面一篇,是2011年6月开始的,这说明5月份及更早的博文已经过期,不再参加平均点击量计算了。这说明科学网取最近6个月的博文计算均击量,(谢谢27楼的提示)。   数据挖掘就像在猜测自然与社会之谜,有时如盲人摸象,摸到了大象耳朵。例如,科学网也可能还有其他的规则,按博龄划线,博龄长的,参与均击量的区间长一点,以体现对资历的人性化照顾;或者过期期限是按周来计算的,就像猜谜,有时有多种言之成理的猜测,说不定不同博友会挖出不同的公式(静候博友反馈),。   此外,挖掘结果与锄头落的地方也相关,挖出来的可能只是局部规律,还需要多方检验,   如果多有一些博友来参与实验,经过几番讨论和校正,就可逐渐逼近真实。   到底是哪一种,先不做最后结论,静候博友反馈,但其共性,已够我们思考提高平均点击量的策略了。         4.3 作干预实验须知, 为减少干扰,要注意 :   (a)不要在每月最后一天,或第一天做,那可能与科学网的规则更换期碰撞,增加误差。   (b) 不要在刚发了一篇好博文时做,那可能在做实验的两分钟内,就有对新旧博文的大量点击,可能增加误差。   (c ) 干预实验也可以通过删除一篇博文来做,不过实验表明,删除一篇文章后,需要稍微长一点的时间(5-15分钟),才能看到平均点击量增加, 其间,对旧博文的点击可能产生较大误差,而用增加博文的方式较快较准。 5 这是数据挖掘吗? 当然是,上述过程符合对数据挖掘的描述:从数据中发现隐藏的、有趣的,有意义的知识。只不过因为问题简单,杀鸡焉用牛刀,用手工就做出来了。 其次,所用的方法是我们提出的干预规则相关的方法。文献 中对干预规则有详细介绍,不在此赘述,如有可能,或另择机科普。在后面列出的相关博文《 5 科技春耕时节的那道风景线-----基金漫谈》 中,也讨论过对自然科学基金批准率 的干预。 6 公式发现技术的应用    6.1 均击量规则的指导作用 ,博主可以从下列方面努力,提高平均点击量排行(没有投机取巧):   (a).可持续发展,细水长流,不断有新博文,科学博客鼓励立新功,不鼓励吃老本。如果连续 M个月不发博文,就坐吃山空了,理论上,平均点击量为0或接近0(不知猜测是否正确),当然总点击量还在;   (b) 打观点牌或见解牌。独到的见解,新奇的观点,引人争议的观点,常有高点击量。   (c) 打事件牌。报道重大的事件,并有中肯的评论   (d) 宁可少一些,也要精一些,新博主可从一开始就走精品路线。即使不是热题,好科普,好摄影、好诗,好散文(例如博主 YC 的博文),也是很耐读的,时效长,常有回头客。   (e) 去粗存精。如果某一篇近期博文点击量大大低于平均值,且无重要内容,删去它,可提高均击量;注意,删除远期博文不能增加平均点击量,只会减少总的点击量;    (f) 如本博文,有相关博文的链接,按照上面挖掘的结果,最好是链接那些近期的博文; 博友点击后,既增加总的点击量,也增加平均点击量。而如果博友点击远期博文,只增加总点击量,不增加平均点击量。          6.2 公式发现或规则发现有重大实用价值   举例说明,我们在文献 中,用基因表达式编程(Gene Expression Programming)的方法,从太阳黑子1860-1980年的数据数据中挖掘出微分方程 : 解这个微分方程,得到函数,用来预测 1980 年 -2005 年的太阳黑子,得到很好的拟合。如下图所示 更复杂的例子,不太容易用来做科普了。 7 数据挖掘研究者反对狗仔队 数据挖掘研究者可能会养成职业习惯,看见了数据,就想挖掘数据背后的规律。上面演示了用合法手段,从公开数据中挖出了均击量计算规则的过程,相信是无害的。   网上有很多敏感数据可能放得不够谨慎,不需深挖,就能得到。例如,网上药店可能存储有用户浏览的记录,药店老板的儿子略施小计,推测出某位公众人物常浏览治疗性病的药物,实事求是地在微博上发一条消息,被好事者转发,信息在传递中发生畸变,当其从小报的狗仔队再转发出来时,增加了无限的遐想或胡说八道,损害了个人隐私。在一个长长的转发链上,该谁来吃官司呢?    如果药店老板透露了某位大人物之子每次探望这位大人物前都关注某癌症药物的消息,信息畸变后,说不定会引起股票震荡,甚至政治上的暗流涌动,这说明,敏感人物的家属的网络行为也属于反数据挖掘的隐私保护对象。   有需求就有研究,数据挖掘研究者不会与狗仔队为伍,义不容辞地承担起研究“信息畸变”、“反数据挖掘”、“防止挖掘的隐私保护”等课题,如有可能,或会另择机科普。 (看27楼提示后补充:原没留意到27楼提示的那个脚注。此文演示了一个基于干预的挖掘方法,即使没那条 信息,也能挖掘出来)。       参考文献    段磊,唐常杰, 杨宁,左劼,王悦,郑皎凌,徐开阔: 干预规则挖掘的概念、任务与研究进展, 计算机学报,Vol. 34 No,10 , P 1831- 1842 ,2011.10 , EI检索。    Zuo Jie, Tang Changjie ,Li Chuan , Yuan Chang-an and Chen An-long,? Time Series Prediction based on Gene Expression Programming, WAIM04 (International Conference for Web Information Age 2004). LNCS (Lecture Notes In Computer science) Vol.3129, pp.55-64, edited by Q Li and G. Wang, Springer Verlag Berling Heidelberg??2004.8,ISBN 3-540-22418-1?? (EI 检索 ) 相关博文 1 “被打”和“北大” 的关联 --- 趣味数据挖掘系列之 一 2 烤鸭、面饼和甜 面酱之朴素关联 --- 趣味数据挖掘系列之二 3 一篇它引上万的大牛论文与数据血统论-- 趣味数据挖掘之 三 4 巧挖科学博客之均击量公式,兼谈干预规则 ---- 趣味数据挖掘之四 5 听妈妈讲 过去的故事,分房与分类 ----- 趣味数据挖掘之五 6 借水浒传故事,释决策树思路--- 趣味数据挖掘之六 7 宴会上的聚类 — 趣味数据挖掘之七 8 农村中学并迁选址、K-平均聚类及蛋鸡悖论--趣味数据挖掘之八 9 灯谜、外星殖民、愚公移山和进化计算 --- 趣味数据挖掘之九 10 达尔文、孟德尔与老愚公会盟:基因表达式编程--趣味数据挖之十 11 十大算法展辉煌,十大问题现锦绣---趣味数据挖掘之十一 12 数据挖掘中的趣味哲学 --- 趣味数据挖掘之十二 科技春耕时节的那道风景线-----基金漫谈 (这篇博文讨论过对基金批准率的干预) 假日聚会,戏说云物人海 -- 漫谈大数据 其它系列博文的入口 唐常杰博客主页 科学博客主页
个人分类: 科普札记|15373 次阅读|58 个评论
[转载]不确定性原理的前世今生 · 数学篇(二)
QIQIZHU 2011-11-26 21:09
傅立叶变换这种对偶关系的本质,是把一块信息用彻底打乱的方式重新叙述一遍。正如前面所提到的那样,一个信号可能在空域上显得内容丰富,但是当它在 频域上被重新表达出来的时候,往往就在大多数区域接近于零。反过来这个关系也是对称的:一个空域上大多数区域接近于零的信号,在频域上通常都会占据绝大多 数频率。 有没有一种信号在空域和频域上的分布都很广泛呢?有的,最简单的例子就是噪声信号。一段纯粹的白噪声,其傅立叶变换也仍然是噪声,所以它在空域和频 域上的分布都是广泛的。如果用信号处理的语言来说,这就说明「噪声本身是不可压缩的」。这并不违反直觉,因为信号压缩的本质就是通过挖掘信息的结构和规律 来对它进行更简洁的描述,而噪声,顾名思义,就是没有结构和规律的信号,自然也就无从得以压缩。 另一方面,有没有一种信号在空域和频域上的分布都很简单呢?换句话说,存不存在一个函数,它在空间上只分布在很少的几个区域内,并且在频域上也只占用了很少的几个频率呢?(零函数当然满足这个条件,所以下面讨论的都是非零函数。) 答案是不存在。这就是所谓的 uncertainty principle(不确定性原理)。 这一事实有极为重要的内涵,但是其重要性并不容易被立刻注意到。它甚至都不是很直观:大自然一定要限制一个信号在空间分布和频率分布上都不能都集中在一起,看起来并没有什么道理啊。 这个原理可以被尽量直观地解释如下:所谓的频率,本质上反应的是一种长期的全局的趋势,所以任何一个单一的频率,一定对应于一个在时空中大范围存在的信号。反过来,任何只在很少一块时空的局部里存在的信号,都存在很多种不同的长期发展的可能性,从而无法精确推断其频率。 让我们仍然用音乐来作例子。声音可以在时间上被限制在一个很小的区间内,譬如一个声音只延续了一刹那。声音也可以只具有极单一的频率,譬如一个音叉 发出的声音(如果你拿起手边的固定电话,里面的拨号音就是一个 440Hz 的纯音加上一个 350Hz 的纯音,相当于音乐中的 A-F 和弦)。但是不确定性原理告诉我们,这两件事情不能同时成立,一段声音不可能既只占据极短的时间又具有极纯的音频。当声音区间短促到一定程度的时候,频率 就变得不确定了,而频率纯粹的声音,在时间上延续的区间就不能太短。因此,说「某时某刻那一刹那的一个具有某音高的音」是没有意义的。 这看起来像是一个技术性的困难,而它实际上反映出却是大自然的某种本质规律: 任何信息的时空分辨率和频率分辨率是不能同时被无限提高的。 一种波动在频率上被我们辨认得越精确,在空间中的位置就显得越模糊,反之亦然。 这一规律对于任何熟悉现代多媒体技术的人来说都是熟知的,因为它为信号处理建立了牢不可破的边界,也在某种程度上指明了它发展的方向。既然时空分辨 率和频率分辨率不能同时无限小,那人们总可以去研究那些在时空分布和频率分布都尽量集中的信号,它们在某种意义上构成了信号的「原子」,它们本身有不确定 性原理所允许的最好的分辨率,而一切其他信号都可以在时空和频率上分解为这些原子的叠加。这一思路在四十年代被 D. Gabor (他后来因为发明全息摄影而获得了 1971 年的诺贝尔物理奖)所提出,成为整个现代数字信号处理的奠基性思想,一直影响到今天。 但是众所周知,不确定性原理本身并不是数学家的发明,而是来自于量子物理学家的洞察力。同样一条数学结论可以在两个截然不相干的学科分支中都产生历史性的影响,这大概是相当罕见的例子了。
个人分类: 醍醐灌顶文|1910 次阅读|0 个评论
教育部发明的互联网数据挖掘新方向: 网络海量可视媒体职能处理
burn 2011-11-26 09:17
129 次阅读|0 个评论
趣话机器智能
热度 2 lhj701 2011-11-8 20:02
趣话机器智能 最新的Iphone 4s Siri让普通老百姓对人工智能燃起了热情,但对诸如“机器学习、数据挖掘、模式识别”等等不是很清楚,查了百度,也是云里雾里,自己先趣话一下,日后学习后再来认证对错。 机器学习是给机器一个空白的脑子,让它自己学习如何像个人; 数据挖掘是把细碎的藏在沙子中的众多金粒子筛出来 ; 模式识别是让一个麦穗上的飞虫飞到高空,看到它待过的那棵麦穗原来处在一个巨大麦田怪圈中。 如果机器学习学会了用数据挖掘的办法进行模式识别,它觉得自己更像个人。
个人分类: 科普视频|3268 次阅读|4 个评论
几位学者对目前数据挖掘方法的“判词”
热度 9 Wuyishan 2011-11-1 06:50
几位学者对目前数据挖掘方法的“判词” 武夷山 美国 Montclair 州立大学的 John Wang 和另外两所大学的两位华裔学者在 International Journal of Business Intelligence and Data Mining (企业情报和数据挖掘杂志)( 注:黄富强博主认为,译为“商业智能”较好,不是企业情报 ) 2007 年第 2 期发表文章, Diminishing downsides of data mining ,文章评点了几种常用数据挖掘方法的特点,尤其是缺点。 1. 神经网络方法。很多挖掘工作都是基于神经网络方法,其缺点有两个,一是神经网络的学习过程很耗时,因此,对于大规模的数据集合,这个方法效率不高;二是不直观,仿佛是个黑箱处理过程。 2. 决策树方法。其主要缺点是,如果训练集是含有噪声的,就可能找不出有效的树。 3. 遗传算法。该算法需要很大的计算量,这就是其主要缺点。 4. 模糊逻辑。这个领域的研究,日本较发达,美国落后。在英语中, Fuzzy 有负面含义,在日语中,却暗含“聪明”之义。 5. 数据可视化。这种方法,在数据量很大的时候,就不易发现潜藏的模式了。所以,要采用三维表现手法,这对模式识别有帮助。 博主:又过去四年了,数据挖掘领域在不断发展,但上面的“判词”似乎没有被颠覆。
个人分类: 图书情报学研究|6390 次阅读|14 个评论
几种建模方法——看书随笔
yanghualei 2011-10-14 08:24
这两天打算看下运筹学,在序中看到一些建模的类型,然后回忆下来,给大家分享下:第一种建模方法: 机制建模法: 如果你对所要研究的问题的和系统的机制非常明确,这只需要把机制反映在数学模型上就可以了。 系统类比法: 就是如果要考察的系统和你熟悉的系统在现象的涌现上存在相同点,你就可以考虑类比法建模,当然类比包括概念、方法、关系以及机制的类比,就是把考察系统看做熟悉的系统,仿造熟悉的系统进行建模。 数据挖掘法: 如果你对考察系统的机制不是清楚,但又已经存在大量的数据,你就可以考虑用数据挖掘的方法,如数值分析,统计学等之类。 黑箱实验法: 如果你对机理也不清楚,又没有易获得的数据,但是数据和机理可以通过做实验获得,你就可以采取类似黑箱子得处理方法实验。 试探试猜想法: 如果机理也不清楚,现存数据又不存在,实验又不可以做,那你就可以采用纯理论的试探的理论构造法,但理论必须是合乎逻辑的,然后采取试探试的修正。当然建模的方法很多,应用的数学知识以及研究问题也很多,好的模型也并不是应用的数学很复杂 ,标准是:必须是在能满足目标需求的情况,模型和数学知识越简单越好。如果现实机理就比较复杂,那在反映机理方面的模型也相应的复杂。
个人分类: 数学沙滩|3957 次阅读|0 个评论
挖掘中国的乔布斯——搞个点子网站是需要的
热度 5 lidercoocer 2011-10-8 15:17
这几点要做到: 1、大家自由提点子,无论大小 2、用了点子的企业或者其他采用者需要向提点子者支付一点报酬 3、一套确认点子原创性的准则,以及企业是否采用其点子的判断标准 最大的阻力在,如何让企业和其他采用者愿意支付报酬 如果有了这个,那么会激发一大批的“原创者”,会有人大脑24小时连轴转来出点子,好玩 PS. 实际上,有乔布斯般眼光的人有的是,只是他们不在领导的位置上,无钱无力,就被埋没了
2995 次阅读|10 个评论
埃歇尔的画有待深入挖掘
热度 7 Wuyishan 2011-9-17 06:33
埃歇尔的画有待深入挖掘 武夷山 芬兰学者 Yrjő Mikkonen 在 international Journal of General Systems (国际广义系统杂志) 2005 年第 5 期发表文章, Ontology intermingling with ontocity and vice versa in M-C. Escher’s Reptiles(2004) (从埃歇尔 2004 年的画作《爬虫》看本体性与实体性的相互交织)。文章说: 埃歇尔的错觉画有很深的理论、概念和哲学层次的内容尚未被揭示出来。本文用外展研究方法( abductive research method )来揭示这一神秘。看来,我们所谓的系统性理解包括两个侧面:一是作为现实的实体性( Ontocity )概念,二是作为现实之概念表象的本体性概念。 《爬虫》画作( http://www.google.com.hk/imgres?q=Reptile%EF%BC%8C+EscHerum=1hl=zh-CNnewwindow=1safe=strictsa=Gtbm=ischtbnid=S9IP2FtMd-pprM:imgrefurl=http://im-possible.info/english/art/applied_art/daniele-parasecolo/reptiles.htmldocid=N-c-ERXY-SXkCMw=550h=510ei=oDxkTqroIIKpiAfCtpitCgzoom=1iact=hcvpx=158vpy=139dur=171hovh=216hovw=233tx=149ty=139page=1tbnh=161tbnw=185start=0ndsp=8ved=1t:429,r:4,s:0biw=1024bih=499 ) 文章摘要如下: Abstract: M.C. Escher is a graphic artist whose visual-spatial illusions scientists, and especially mathematicians eagerly study. However, there is much more than that. It seems that Escher's optical illusions have strikingly deeper theoretical, conceptual and philosophical layers not yet revealed. It is worth while using the abductive research method utilizing the possibilities of systems approach to reveal some of their mysteries. Escher's lithograph Reptiles is not only a work belonging to the theme of the illusion of space as Bruno Ernst, a close friend of Escher, states. This paper aims at proving in what ways Reptiles actually illustrates the concepts of onticity as reality and ontology as conceptual representation of reality, and their conceptual intermingling in a complex and systemic way. Thus, it appears that onticity and ontology, which are our ways of conceptual cognition are two facets of our systemic understanding. This paper also touches some aspects of Fuenmayor's phenomenological ontology. Keywords: Onticity ; Ontology ; Systemicity ; Systems ; Complexity ; Conceptuality
个人分类: 科文交汇|8498 次阅读|12 个评论
今年过节不收礼,收礼只收大美女
sheep021 2011-2-16 09:51
冯巩说:“经济问题背后都有作风问题”,可谓挖掘深刻。贪官与情妇,可谓“啤酒与尿布”的关系,堪称数据挖掘领域的惊人成果。 也难怪,这年头,啥都不缺,求人办事儿,想送点礼,还真不好送。不仅想起了 元好问那句“问世间情为何物,直教生死相许”的经典名句。千万别弄错,这句诗词可是赞美大雁的,不是赞美人。人,有时候还不如动物有情啊。 摸鱼儿-雁邱词 元好问 问世间情是何物,直教生死相许。 天南地北双飞客,老翅几回寒暑。 欢乐趣,离别苦,就中更有痴儿女。 君应有语,渺万里层云,千山暮雪,只影向谁去。 横汾路,寂寞当年箫鼓,荒烟依旧平楚。 招魂楚些何嗟及,山鬼暗啼风雨。 天也妒,未信与,莺儿燕子俱黄土。 千秋万古,为留待骚人,狂歌痛饮,来访雁邱处。 这首词的首句大家一定很熟悉。不过全词未必了解,今天特将其录下,并讲一讲其中的故事。当年,元好问去并州赴试,途中遇到一个捕雁者。这个捕雁者告诉元好问今天遇到的一件奇事:他今天设网捕雁,捕得一只,但一只脱网而逃。岂料脱网之雁并不飞走,而是在他上空盘旋一阵,然后投地而死。元好问看看捕雁者手中的两只雁,一时心绪难平。便花钱买下这两只雁,接着把它们葬在汾河岸边,垒上石头做为记号,号曰“雁邱”,并作《雁邱词》。 早就知道那句“问世间情是何物,直教生死相许”,但直到现在才读到全篇,才了解其中的故事也才真正读懂了它。后来一直很喜欢,常常默默念着那一句句刻骨铭心之语。 这是一首咏物词。在词前有小序说“太和五年乙丑岁,赴试并州,道逢捕雁者云:‘今旦获一雁,杀之矣。其脱网者悲鸣不能去,竟自投地死。’予因买得之,葬之汾水之上,累石为识,号曰雁邱。时同行者多为赋诗,予亦有《雁邱词》。” 这就是说,大雁殉情的事强烈的震撼了他,所以在词的开篇,便陡发奇问,破空而来。作者本要咏雁,却从“世间”落笔,以人拟雁,赋予雁情以超越自然的意义,想象极为新奇。也为下文写雁的殉情预做张本;古人认为,情至极处,“生者可以死,死者可以生”。“生死相许”是何等极致的深情! 遥想双雁,“天南地北”冬天南下越冬而春天北归,“几回寒暑”中双宿双飞,相依为命,一往情深。既有欢乐的团聚,又有离别的辛酸,但没有任何力量可以把它们分开。而“网罗惊破双栖梦”后,爱侣已逝,安能独活!于是“脱网者”痛下决心追随于九泉之下,“自投地死”。 过片以后,作者又借助周围景物衬托大雁殉情后的凄苦。在孤雁长眠之处,当年汉武帝渡汾河祀汾阴的时候,箫鼓喧闹,棹歌四起;而今平林漠漠,荒烟如织,箫鼓声绝,一派萧索。古与今,人与雁,更加感到鸿雁殉情的凄烈。但是死者不能复生,招魂无济于事,山鬼也枉自悲鸣,在这里,作者把写景与写情融为一体,更增加了悲剧气氛。 词的最后,是作者对殉情鸿雁的礼赞,他说鸿雁之死,其境界之高,上天也会嫉妒,虽不能说重于泰山,也不能跟莺儿燕子之死一样同归黄土了事。它的美名将“千秋万古”,被后来的骚人歌咏传颂。 漫谈 贪官 与 情妇 我国历来就有“自古贪官多好色”的说法。据高检统计,如今被查处的贪官污吏中95%都有“情妇”。一些腐败官员在金钱和美女的诱惑下,他们利用手中掌握的权力资源迅速剑财,然后包养二奶、三奶、N奶,这些有能力包养情妇的官员最后都成了阶下囚。情妇各有能耐,现在还报出有情妇竟争上岗的特大新闻。   林子大了,什么鸟都有。一个贪官养几个情人,几个贪官养一个情人现在都见怪不怪,可今天令人“耳目一新”的是情妇“才艺大比拼”的新鲜事。据报道:被“包养”的情妇也是要有些真本事,“搔首弄姿”也是要有技术含量的。山东青岛城阳某公司老板范某在金融危机的影响下资产缩水,为了节省开支,引进“超级女生”选秀的选拔方式,“PK”进入情妇包养权。让他所包养的5名情妇进行了三轮“竞赛”,以争夺最后的一个被包养名额。 5%贪污腐败官员没有情妇是一个危险的信号 http://blog.people.com.cn/blog/template/blog_template.html?log_id=1199343766220647site_id=635 2007年有统计数据,95%已查惩贪污腐败官员有情妇,5%没有。有评论猜想,一是这5%贪污腐败官员不好这一口,二是隐藏很深,还没有被发现,三是好这一口,但害怕由此引发“爆炸”而东窗事发,所以没敢接触。如果推理得当,如是,5%将是一个危险信号。 又狠又准, 情妇 扳倒 贪官 的10大密招 一是不少官员受社会环境的影响,思想空虚、道德堕落、信仰迷失,没有大的 .... 当然, 人们还不能过多地借助贪官情妇的力量扳倒贪官,因为他们本就是 ... “ 情妇 告状团”扳倒 贪官 让谁脸红 2007年9月9日 ... 又一个靠偶然和意外因素被“扳倒”的贪官!如果没有“情妇告状团”的告状,庞家钰贪污腐败案大概不会这么快就被揭发出来,庞家钰甚至可能至今仍在省政协副 ... 警惕“ 贪官 杀 情妇 ”连续剧愈演愈烈图 2010年12月16日 ... 毕竟天下没有“免费的午餐”,更没有“不散的宴席”,当贪官厌倦情妇但又无法“全身而退”,或情妇威胁到贪官的仕途时,丧失人性的疯狂举动或许就不可避免了 贪官 阿扁为何 没有情妇 陈水扁不养情妇 因台湾狗仔队太厉害。 陈水扁在台湾被起诉了,好象有四大罪状,照我们大陆贪官的标准那他是“五毒俱全”了,什么都具备了,但有一点不一样 ——他好像没有养情妇。 台湾“通奸罪”:捉奸在床即可告上法庭。 台湾是全世界极少数还有通奸罪的地区。
个人分类: 生活点滴|180 次阅读|0 个评论
科学网关于方舟子、肖传国之争的博文汇总
热度 4 outcrop 2010-9-28 23:34
应罗军建议 ,对方肖之争的博文和讨论的全貌与随时间推移的进展做了一个简单的挖掘,按时间顺序排列,第一篇为最早关于方肖的文章。 挖掘标准很粗糙,提取对象为标题包含:方舟子、肖传国、打架、肖方、方肖以及肖的文章;内容相关、但主题隐性相关的暂时无法发现。 文章统计截至2010年9月28日。 我们可以发现,大部分文章是谴责肖、支持方的。但也有部分博文,尝试从另外角度去分析这件事, 少数派报告 一样值得关注,希望大众媒体也能关注这部分声音。 粗略的找出了一些不同的声音, 红色标记了下 ,难免遗漏。 华科的脸面啊!方舟子遇袭案告破 方舟子被袭案告破之后 方舟子被袭案告破 嫌犯肖传国落网 正义最终胜利了 声援支持方舟子 从速审判肖传国 肖传国凶相毕露 方舟子死里逃生 肖传国的落网让人无语 大快人心,舟子遇袭案告破,肖传国落网 我不信肖传国会干这种蠢事! 说说肖传国事件的犯罪心理学原理等 肖传国是海德医生,还是被诬陷? 果然是肖传国!方舟子遇袭案告破 说实话,真不敢相信是肖传国教授干的 审判肖医生博您一笑! 方舟子的屁股与肖传国的脸 【方舟子案告破】科学家会武术,谁都挡不住? 果然是肖传国 方舟子遇袭案告破,支持肖的和说过风凉话的人咋办? 肖传国在科学网的博客应该封还是留? 典型案例:肖氏在院士道路上,学术穷而匕首见 从速启动博委会 立刻开除肖传国! 肖传国未入选中国科学院院士归罪于二方学术打假 方舟子遇袭案告破是北京警方送给痛恨造假的人的中秋节礼物 肖传国在两方被袭事件中的法律责任 院士候选人也垃圾 方舟子案告破之后,我们还要做些什么 学术打黑刻不容缓,打假打黑亦如此 方舟子成为英雄是当今社会的耻辱! 肖传国的博客 全他的罪证 肖传国终于名扬天下了 代表性粘贴 (肖传说 and 方先生) 正义与理性尚存看到肖传国被捕 方舟子案只是一个小小的民事案件而已? 打油诗一首:庆祝方舟子、方玄昌被袭案告破 热烈庆祝方舟子遇袭案告破 肖传国案件再次教育了我们 造化的力量--谨以此文向方舟子先生致敬 学术圈内难道就仅仅一个肖传国吗? 肖大夫买凶是一大新闻。信不信?(mirror) 方舟子和何祚庥对中医药的诋毁必须予以讨伐 除了方舟子,谁还在为中医药掘墓 方舟子 vs. 肖传国 肖氏反射弧还应该继续研究 科学打假的逻辑对科学新闻报道肖传国事件的反思 学术界不能没有对抗方舟子之人 多行不义必自毙评肖传国的堕落兼向方舟子进忠言 还会有下一个肖传国事件吗? 华中科大教授肖传国10万元雇凶报复 打假何须方舟子 方舟子与肖传国恩怨录 方肖之争,是一场科学斗争 肖传国身后的三件大事 《科学新闻》:华中科大肖传国真相调查(配诗) 被肖传国挤下来了 肖传国夫人的三点声明 肖传国博客之均点量飙升第八------兼议著作被引用数 建议将雇凶报复袭击学术打假斗士方舟子的肖传国送出科学网 建议将雇凶报复袭击学术打假斗士方舟子的肖传国送出科学网 对(方舟子+肖传国)事的认识 肖传国先生的不幸 假如肖不是肖,方不是方 方舟子:转基因水稻大老鼠、小老鼠能吃,为什么人不能吃呢 方舟子-肖传国事件与憨豆之12个效应 科学打假的逻辑科学新闻对决肖传国教授的反思 关于学界打假 不再悬赏袭击方舟子 第一回:肖教授堕落咎由自取,方勇士打假触类旁通 假如我是方舟子 肖传国紧追施一公和饶毅 科学网对肖-方之争的最高评价 方舟子应该重点对行使权力者打假 肖传国涉嫌故意伤害属个人行为 方、肖之争不仅是科学之争,更是利益之争 肖传国的科学网博客该不该关? 肖传国地下暴力革命活动简析 《科学新闻》:华中科大肖传国真相调查(配诗) 肖传国有可能是无罪的 《坎贝尔泌尿学》对肖传国等有关反射通道的动物实验的记载 肖传国:都是你们害了我! 方舟子及其团伙长期迫害肖传国的主要证据一览 (by 亦明) 肖传国脑子有病 饶毅教授2006年9月6日的判断和预测 在肖传国的案子中,全国媒体都在耍流氓 《科学》网站关注方舟子被袭案件告破 蒋劲松与方舟子 转贴:方舟子恶斗肖传国始末 为肖传国先生辩护 方舟子XXOO 反对删除肖传国的博客 美女、老人和打假距离和真相,距离产生美 为何郝忻给《科学》杂志的稿件不提肖传国揭发方舟子抄袭《科学》杂志文章的事情 方舟子先生是这样打假的? 关于华中科大是否应该开除肖传国的问题 方肖网络血仇十年反思录(1)读亦明书有感 我对方舟子先生批中医的看法 方肖网络血仇十年反思录(2)作者亦明猜测 肖传国就肖氏反射弧手术相关问题答亦明问 非专业人士不宜评价肖氏反射弧手术 任何人都可以评价肖氏反射弧 如果有人以崇高的理由杀方舟子... 肖氏反射弧决定方舟子的历史地位 对肖传国案的几点质疑余元洲 造假的和打假的因打假而打架 谁知道肖传国的妹夫到底姓什么? 方舟子的打假名单 (31名) 我为什么不喜欢方舟子? 北京共识VS华盛顿共识(2)华盛顿共识的本体论和认识论分析,兼及方舟子等对中医观点 方肖网络血仇十年反思录(3)冰冻三尺非一日之寒 学术打假与科学家的良心 从肖传国事件看到的 现在能不能定性肖传国为凶手? 与吴宝俊商榷 如何对待被打假 肖传国行凶案凸现院士制度的失败 方舟子反中医是肤浅之举 【科学网】方舟子与肖传国,我到底应该相信谁? Nile:肖氏反射弧真相解析 科学网有多少伪学者 历史没有真相:从中医到特斯拉、张颖清和肖传国 方舟子真有本事 方肖网络血仇十年反思录(4) 关于亦明资料 肖传国与媒体的权利 肖传国文:人工体神经-内脏神经反射弧治疗脊髓脊膜膨出患者大小便功能障碍 肖传国文:人工体神经内脏神经反射弧传出通路神经追踪研究 方舟子打假对现阶段学术界有积极意义 肖传国文:人工体神经-内脏神经反射弧的神经电生理研究 肖传国文:体神经-内脏神经吻合后再生神经逆行追踪和组织化学研究 肖传国文:体神经-内脏神经吻合后异类神经再生过程的蛋白质组学分析 肖传国文:大鼠体神经-内脏神经吻合后脑源性神经营养因子及其受体的表达变化 再从肖方事件谈自己对方舟子的困惑(隐藏后再发) 方舟子是打人還是打假? 各方避谈肖传国被捕 妻子称其无辜 学术打假是件很专业的事情 为什么要反对方舟子和韩寒之流? 肖传国是世界上最伟大的医生之一 美国FOX电视台对肖氏反射弧的报道 体制内打假可行而且势在必行 肖传国反假打人民英雄纪念碑 Health报道肖传国教授肖氏反射弧 美国有线电视网-CNN对肖氏反射弧手术的专题报道 质疑Dr Evan Kass, 皆谈肖手术 呼吁肖传国的家属控告方玄昌 肖传国的学术论文及其学术影响 我曾经有幸被方舟子打假 肖传国国内发表的论文(135篇)与被引用情况 CNN和FOX的报道做实了肖传国的造假 肖传国发表的外文论文被引用情况 Mendel:我并非孤独,谈我为何支持肖传国教授 【方舟子案告破】学界为何不愤怒 方舟子的打假行为是一种无政府的学术侠客行为 科学打假岂可全靠方舟子? 光明网专题:方肖十年血仇反思录 当方舟子已成往事 肖传国的案子可能水很深 肖英、杨智案与肖传国案 没错,肖传国招了 肖传国后悔了 太可惜啦! 我对《科学新闻》关于学术打假采访的问题回答 请尊重肖传国先生的基本人权 强烈建议媒体报道科学网博客上关于方肖之争的讨论 看肖方之争,恨钓鱼island,关科学网博客 肖传国错在什么地方? 【科学网】肖传国的故事 科学网关于方肖之争的博文和讨论挖掘
个人分类: 科技八卦|9101 次阅读|15 个评论
[转载]数据挖掘的10个常见问题 from 黄红星 blog
热度 1 liangqunlu 2010-8-15 14:46
数据挖掘的 10 个常见问题 from 黄红星 blog ( http://www.sciencenet.cn/u/hhx825/ ) Q1. Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性: 1. 处理大量实际资料更强势,且无须太专业的统计背景去使用Data Mining的工具; 2.资料分析趋势为从大型数据库抓取所需资料并使用专属计算机分析软件,Data Mining的工具更符合企业需求; 3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining目的是方便企业末端用者使用而非给统计学家检测用的。 Q2. Data Warehousing 和 Data Mining 的关系为何? 若将Data Warehousing(资料仓储)比喻作矿坑,Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的资料,是很难期待Data Mining能挖掘出什么有意义的信息的。 要将庞大的资料转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集资料的工具。「资料仓储」,简单地说,就是搜集来自其它系统的有用资料,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design Support System)所需的资料,供决策支持或资料分析使用。从信息技术的角度来看,资料仓储的目标是在组织中,在正确的时间,将正确的资料交给正确的人。 许多人对于Data Warehousing和Data Mining时常混淆,不知如何分辨。其实,资料仓储是数据库技术的一个新主题,在资料科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。 资料仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的资料,特别是指从线上交易系统OLTP(On-Line Transactional Processing)所得来的资料。将这些整合过的资料置放于资料仓储中,而公司的决策者则利用这些资料作决策;但是,这个转换及整合资料的过程,是建立一个资料仓储最大的挑战。因为将作业中的资料转换成有用的的策略性信息是整个资料仓储的重点。综上所述,资料仓储应该具有这些资料:整合性资料(integrated data)、详细和汇总性的资料(detailed and summarized data)、历史资料、解释资料的资料。从资料仓储挖掘出对决策有用的信息与知识,是建立资料仓储与使用Data Mining的最大目的,两者的本质与过程是两码子事。换句话说,资料仓储应先行建立完成,Data mining才能有效率的进行,因为资料仓储本身所含资料是干净(不会有错误的资料参杂其中)、完备,且经过整合的。因此两者关系或许可解读为「Data Mining是从巨大资料仓储中找出有用信息的一种过程与技术」。 Q3. OLAP 能不能代替 Data Mining? 所谓OLAP(Online Analytical Process)意指由数据库所连结出来的线上查询分析程序。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但Data Mining是用工具在帮助做探索。 举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但Data Mining则不然,执行Data Mining的人将庞大的结帐资料整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于资料中的潜在规则,于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。 Data Mining 常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data Mining此种自动找出甚或不会被怀疑过的资料型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP可以和Data Mining互补,但这项特性是Data Mining无法被OLAP取代的。 Q4. 完整的Data Mining 包含哪些步骤? 以下提供一个Data Mining的进行步骤以为参考: 1. 明确目标与理解资料; 2. 获取相关技术与知识; 3. 整合与查核资料; 4. 去除错误或不一致及不完整的资料; 5. 由数据选取样本先行试验; 6. 研发模式(model)与型样(pattern); 7. 实际Data Mining的分析工作; 8. 测试与检核; 9. 找出假设并提出解释; 10. 持续应用于企业流程中。 由上述步骤可看出,Data Mining牵涉了大量的准备工作与规划过程,事实上许多专家皆认为整套Data Mining的进行有80﹪的时间精力是花费在资料前置作业阶段,其中包含资料的净化与格式转换甚或表格的连结。由此可知Data Mining只是信息挖掘过程中的一个步骤而已,在进行此步骤前还有许多的工作要先完成。 Q5. Data Mining 运用了哪些理论与技术? Data Mining 是近年来数据库应用技术中相当热门的议题,看似神奇、听来时髦,实际上却也不是什么新东西,因其所用之诸如预测模式、资料分割,连结分析(Link Analysis)、偏差侦测(Deviation Detection)等,美国早在二次世界大战前就已应用运用在人口普查及军事等方面。 随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等,使得从资料中发掘宝藏成为一种系统性且可实行的程序。 一般而言,Data Mining的理论技术可分为传统技术与改良技术两支。传统技术以统计分析为代表,举凡统计学内所含之叙述统计、机率论、回归分析、类别资料分析等皆属之,尤其 Data Mining 对象多为变量繁多且笔数庞大的数据,是以高等统计学里所含括之多变量分析中用来精简变量的因素分析(Factor Analysis)、用来分类的判别分析(Discriminant Analysis),以及用来区隔群体的分群分析(Cluster Analysis)等,在Data Mining过程中特别常用。 在改良技术方面,应用较普遍的有决策树理论(Decision Trees)、类神经网络(Neural Network)以及规则归纳法(Rules Induction)等。决策树是一种用树枝状展现资料受各变量的影响情形之预测模型,根据对目标变量产生之效应的不同而建构分类的规则,一般多运用在对顾客资料的区隔分析上,例如针对有回函与未回含的邮寄对象找出影响其分类结果的变量组合,常用分类方法为CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)两种。 类神经网络是一种仿真人脑思考结构的资料分析模式,由输入之变量与数值中自我学习并根据学习经验所得之知识不断调整参数以期建构资料的型样(patterns)。类神经网络为非线性的设计,与传统回归分析相比,好处是在进行分析时无须限定模式,特别当资料变量间存有交互效应时可自动侦测出;缺点则在于其分析过程为一黑盒子,故常无法以可读之模型格式展现,每阶段的加权与转换亦不明确,是故类神经网络多利用于资料属于高度非线性且带有相当程度的变量交感效应时。 规则归纳法是知识发掘的领域中最常用的格式,这是一种由一连串的「如果/则(If / Then)」之逻辑规则对资料进行细分的技术,在实际运用时如何界定规则为有效是最大的问题,通常需先将资料中发生数太少的项目先剔除,以避免产生无意义的逻辑规则。 Q6. Data Mining 包含哪些主要功能? Data Mining 实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Regression和Time-series属于推算预测类;Association和Sequence则属于序列规则类。 Classification 是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将一组资料分为 可能会响应 或是 可能不会响应 两类)。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的资料来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类资料可能是来自我们的现有的客户资料,或是将一个完整数据库做部份取样,再经由实际的运作来测试;譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model,再利用这个Model来对数据库的其它资料或是新的资料作分类预测。 Clustering 用在将资料分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。Clustering与Classification不同的是,在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。 Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具,推估预测的模式已不在止于传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。 Time-Series Forecasting与Regression功能类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性,譬如时间的周期性、阶层性、季节性以及其它的一些特别因素(如过去与未来的关连性)。 Association 是要找出在某一事件或是资料中会同时出现的东西。举例而言,如果A是某一事件的一种选择,则B也出现在该事件中的机率有多少。(例如:如果顾客买了火腿和柳橙汁,那么这个顾客同时也会买牛奶的机率是85%。) Sequence Discovery 与Association关系很密切,所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔(例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是 68%)。 Q7. Data Mining 在各领域的应用情形为何? Data Mining 在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的资料仓储或数据库,皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。 于销售资料中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效行销强调的分众概念与数据库行销方式在导入Data Mining的技术后,使直效行销的发展性更为强大,例如利用Data Mining分析顾客群之消费行为与交易纪录,结合基本资料,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化行销的目的;制造业对Data Mining的需求多运用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。 近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,Data Mining可以从一些信用不良的客户资料中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向,并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。 Q8. Web Mining 和Data Mining有什么不同? 如果将Web视为CRM的一个新的Channel,则Web Mining便可单纯看做Data Mining应用在网络资料的泛称。 该如何测量一个网站是否成功?哪些内容、优惠、广告是人气最旺的?主要访客是哪些人?什么原因吸引他们前来?如何从堆积如山之大量由网络所得资料中找出让网站运作更有效率的操作因素?以上种种皆属Web Mining 分析之范畴。Web Mining 不仅只限于一般较为人所知的log file分析,除了计算网页浏览率以及访客人次外,举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等,只要由网络连结出的数据库够大够完整,所有Off-Line可进行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的数据库,实施更大规模的模型预测与推估,毕竟凭借网际网络的便利性与渗透力再配合网络行为的可追踪性与高互动特质,一对一行销的理念是最有机会在网络世界里完全落实的。 整体而言,Web Mining具有以下特性:1. 资料收集容易且不引人注意,所谓凡走过必留下痕迹,当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的;2. 以交互式个人化服务为终极目标,除了因应不同访客呈现专属设计的网页之外,不同的访客也会有不同的服务;3. 可整合外部来源资料让分析功能发挥地更深更广,除了log file、cookies、会员填表资料、线上调查资料、线上交易资料等由网络直接取得的资源外,结合实体世界累积时间更久、范围更广的资源,将使分析的结果更准确也更深入。 利用Data Mining技术建立更深入的访客资料剖析,并赖以架构精准的预测模式,以期呈现真正智能型个人化的网络服务,是Web Mining努力的方向。 Q9. Data Mining 在 CRM 中扮演的角色为何? CRM (Customer Relationship Management)是近来引起热烈讨论与高度关切的议题,尤其在直效行销的崛起与网络的快速发展带动下,跟不上CRM的脚步如同跟不上时代。事实上CRM并不算新发明,奥美直效行销推动十数年的CO(Customer Ownership)就是现在大家谈的CRM客户关系管理。 Data Mining 应用在CRM的主要方式可对应在Gap Analysis之三个部分: 针对Acquisition Gap,可利用Customer Profiling找出客户的一些共同的特征,希望能藉此深入了解客户,藉由Cluster Analysis对客户进行分群后再透过Pattern Analysis预测哪些人可能成为我们的客户,以帮助行销人员找到正确的行销对象,进而降低成本,也提高行销的成功率。 针对Sales Gap,可利用Basket Analysis帮助了解客户的产品消费模式,找出哪些产品客户最容易一起购买,或是利用Sequence Discovery预测客户在买了某一样产品之后,在多久之内会买另一样产品等等。利用 Data Mining可以更有效的决定产品组合、产品推荐、进货量或库存量,甚或是在店里要如何摆设货品等,同时也可以用来评估促销活动的成效。 针对Retention Gap,可以由原客户后来却转成竞争对手的客户群中,分析其特征,再根据分析结果到现有客户资料中找出可能转向的客户,然后设计一些方法预防客户流失;更有系统的做法是藉由Neural Network根据客户的消费行为与交易纪录对客户忠诚度进行Scoring的排序,如此则可区隔流失率的等级进而配合不同的策略。 CRM 不是设一个(080)客服专线就算了,更不仅只是把一堆客户基本资料输入计算机就够,完整的CRM运作机制在相关的硬软件系统能健全的支持之前,有太多的资料准备工作与分析需要推动。企业透过Data Mining可以分别针对策略、目标定位、操作效能与测量评估等四个切面之相关问题,有效率地从市场与顾客所搜集累积之大量资料中挖掘出对消费者而言最关键、最重要的答案,并赖以建立真正由客户需求点出发的客户关系管理。 Q10. 目前业界有哪些常用的Data Mining分析工具? Data Mining 工具市场大致可分为三类: 1. 一般分析目的用的软件包 SAS Enterprise Miner IBM Intelligent Miner Unica PRW SPSS Clementine SGI MineSet Oracle Darwin Angoss KnowledgeSeeker 2. 针对特定功能或产业而研发的软件 KD1(针对零售业) Options Choices(针对保险业) HNC(针对信用卡诈欺或呆帐侦测) Unica Model 1(针对行销业) 3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系统 Cognos Scenario and Business Objects
个人分类: 名家名言|2707 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-7 06:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部