科学网

 找回密码
  注册
科学网 标签 回归 相关日志

tag 标签: 回归

相关日志

人类认知系统的演化与“科技认知-行为系统”(四)
lvnaiji 2020-8-30 11:11
吕乃基 代结束语:人类认知-行为系统演化的前景 科技认知-行为系统并不是人类终极的认知-行为系统,50年前兴起的编程+计算+学习+,与此相应的认知-行为系统正在成形和完善,其标志是人工智能+区块链。 新的认知-行为系统既沿袭科技认知-行为系统的发展,将其推向极致。一方面进一步走向抽象,编程加数字化,“计算”已经成为一种“主义”。原则上,区块链可以介入所有需要和有待约定的关系和过程,介入所有的“to”或“2”的两头或多头;凭籍人工智能,对于来无踪去无影这样的“棋感”加以条分缕析。最新研究认为 ,好奇心的核心是一种算法:哪种路径能以最短时间获得有价值的知识。 另一方面,新的认知-行为系统提供虚实难辨的场景,提供种种“增强”的体验,还配备有激励机制,让人沉浸于其中,欲罢不能。浮士德在梅菲斯特引导下最后的满足仿佛已经到来。 知行合一的趋势在人工智能领域尤为明显,脑科学与人工智能互相促进。 第五套认知-行为系统又呈现新的特点: 当人类越来越多的历史和现实成为大数据,谁是第五套认知-行为系统的主体,人工智能专家、码农、电脑、互联网,还是“互联网大脑” ?人工智能技术是否能够如同以往的科技黑箱那样,为没有受过教育的人所使用,又将如何使用 ?对于广大“吃瓜群众”来说,“豢养”的广度和深度是否有增无减? 第五套认知-行为系统方兴未艾,尚未成熟,对个人与人类社会的影响有待进一步观察和研究。 鲍捷所给出的认知系统的递进还有一个有趣的尺度:时间。50万年、5万年、5千年、5百年,第五套是50年前,这当然是约数。如果按这一节奏,5年前,或者近期,已经或正在酝酿第六套认知-行为系统。第六套认知-行为系统很可能以量子计算和量子通讯为基础,“塌缩”与“纠缠”或许是其中的关键词。 量子计算的一大特点是“遍历”,于瞬间在多种可能性中得出最佳方案。迄今为止,计算机语言的基础是“非此即彼”。量子计算的特点是“亦此亦彼”,如何为亦此亦彼编程,什么是量子计算机的“语言”? 眼下,5G刚登上舞台,人们已经开始谈论6G,甚至6G后。之后将不再沿虚拟通讯发展到7G,而是全面超越之,变革为以真实信号为主的“超代通讯”,即SG(Super Generation)。SG超代通讯的信息处理和通讯内容是本真信息(True Information),而不再是模拟或数字代码信息。人类直接能够在本真地互动中处理与现实世界的关系。与此同时,继续深化“虚拟信息思维”以推进思维效率。人类可以视情况选择真实信号通讯和虚拟信号通讯两种之一 。 “量子-SG认知-行为系统”(姑且这般称呼)既是人类社会认知系统的最高阶段,看来同时又更加贴近50万年前哺乳动物的认知系统。这就提示,人类认知系统的演化并非线性,“哺乳动物认知系统”并非原始低等,其中还有大量未解之谜,以及有待发掘的在认知-行为上的优势。困扰人工智能专家的“莫拉维克悖论”,实际上就是哺乳动物在认知-行为上的优势之一。人类认知系统的回归将揭示莫拉维克悖论。 谁会是第六套认知系统,“量子-SG认知-行为系统”的主体?是马斯克正在进行的某种“脑机链接”的产物吗? 站在六套认知-行为系统50万年演化的视野,科技认知-行为系统处于其中的转折点,在进一步抽象的同时,开始朝人类“低阶”的认知-行为系统回归。 在回归临近起点之时,突破也即将来临。 https://tech.sina.com.cn/d/v/2018-09-02/doc-ihiixzkm3464252.shtml 刘锋, https://blog.csdn.net/zkyliufeng 图灵奖得主 Raj Reddy :不存在通用 AI ,但未来会出现超智能 http://baijiahao.baidu.com/s?id=1602769269779695829wfr=spiderfor=pc https://mp.weixin.qq.com/s/l8tjDDXSJq0U8_LkidvHaw
个人分类: 科技|2752 次阅读|0 个评论
R语言笔记——ggplot2画回归曲线,添加方程或P值
Hunshandake 2020-1-2 15:35
library(ggplot2) library(dplyr) # 加载 dplyr 包 library(ggpmisc) # 加载 ggpmisc 包 library(RColorBrewer) library(ggpubr) # 载入数据,计算均值和 se caomuxi-read.csv(E:/R/Rfiles/data.csv) windowsFonts(SH = windowsFont(Times New Roman)) #第一种方案,做点状图,加回归线,添加回归方程和R 2 a- ggplot(data=data,aes(x=Fert, y=Hight))+ geom_point(aes(color=treatment),size = 3)+ # 设置分组颜色和点的大小 geom_smooth(method = lm,linetype=3,se=FALSE,colour=black,span=0.8)+ # 添加回归曲线, se 取消置信空间, linetype 设置线型 stat_poly_eq(aes(label = paste(..eq.label.., ..adj.rr.label.., sep = '~~~~')), formula = y ~ x, parse = T,family = SH) + # 添加回归方程和 R 2 scale_x_continuous()+ scale_y_continuous(expand = c(0, 0),# 设定 x 轴和 y 轴的交叉点 name =Height (cm),# 设定 y 轴标题 breaks=seq(0,50,10),# 设定 Y 轴的数据间隔 limits = c(10,50) # 设定 Y 轴的数据上下限 )+ scale_color_brewer(palette = YlOrRd)+ theme() a 出图如下: #第二种方案,做点状图,加回归线,添加R 2 和P值 a- ggplot(data=data,aes(x=Fert, y=Hight))+ geom_point(aes(color=treatment),size = 3)+ # 设置分组颜色和点的大小 geom_smooth(method = lm,linetype=3,se=FALSE,colour=black,span=0.8)+ # 添加回归曲线, se 取消置信空间, linetype 设置线型 stat_fit_glance(method = 'lm', method.args = list(formula = y ~ x), mapping = aes(label = sprintf('R^2~=~%.3f~~italic(P)~=~%.2g', stat(r.squared), stat(p.value))), parse = TRUE,label.x = 0.95,label.y = 0.95,family = SH)+ # 方案 2 ,仅添加 R 2 和 P 值, label.x 和 label.y 设置文字位置。 scale_x_continuous()+ scale_y_continuous(expand = c(0, 0),# 设定 x 轴和 y 轴的交叉点 name =Height (cm),# 设定 y 轴标题 breaks=seq(0,50,10),# 设定 Y 轴的数据间隔 limits = c(10,50) # 设定 Y 轴的数据上下限 )+ scale_color_brewer(palette = YlOrRd)+ theme() a 出图如下:
个人分类: 软件使用|22788 次阅读|0 个评论
张海霞︱致IEEE主席:赞学术界回归常识
热度 18 张海霞 2019-6-3 11:59
张海霞︱致 IEEE 主席:赞学术界回归常识 2019 年 6 月 3 日 【题记】今天上午收到 IEEE 主席 José M. F. Moura 的来信 “IEEE 解除对编辑和同行评审活动的限制 ” ,赞赏 IEEE 的勇气,很高兴学术界回归常识。谢谢所有朋友的关心和支持,今后我会继续支持 IEEE 的各项工作,致力于推动学术的独立和自由发展,很荣幸和骄傲与你们同行! Dear Prof. José M. F. Moura, Cc to Prof. Toshio Fukuta, Prof. Lombardi Fabrizio, and Prof. Gianluca Piazza, I am so glad to get your email with subject “A message from the IEEE President: IEEE Lifts Restrictions on Editorial and Peer Review Activities”. This is the best news I ever heard from May 29th after I send out my open letters. Thanks for all your efforts to Lift Restrictions on Editorial and Peer Review Activities from IEEE under this special time period with outside pressure and insider resistance. This is a moment, we, Academic community, should be proud for our fight to keep the Independence and Freedom of Academic. As I mentioned in my statement, I will come back to IEEE NANO and IEEE JEMS editorial board until one day it comes back to our common professional integrity. Now, it is time to re-join the team and contribute my efforts with enthusiasm as usual. Let’s work together to make IEEE, an international academic community, great again. Haixia Zhang, Professor, Peking University June 3rd, 2019 附: IEEE 主席的来信 Dear Haixia Zhang, Last week the U.S. government issued export controls on Huawei Technologies Ltd and 68 of its affiliated companies. In response, IEEE issued guidance on actions required to comply with these controls. We acted promptly because we wanted to protect our volunteers and members from potential legal risk that could have involved significant penalties. As a non-political, not-for-profit organization registered in New York, IEEE must comply with its legal obligations under the laws of the United States and other jurisdictions. We also engaged the U.S. government to seek clarification on the extent to which these export control restrictions were applicable to IEEE activities.I am pleased to report that this engagement was successful and we have revised our guidance to remove any restriction on the participation of the employees of these companies as editors or peer reviewers in the IEEE publication process. To reemphasize, all IEEE members can continue to participate in the open and public activities of the IEEE, including our scientific and technical publications.Many members expressed apprehension with respect to IEEE’s initial guidance and its impact on editors and peer reviewers based on their employer affiliation. I understand the concern this raised for many of you and appreciate the feedback that IEEE leaders and I received.As an international organization operating in 160 countries, IEEE supports the free and open exchange of scholarly and academic work and the global advancement of science and technology. IEEE is committed to enabling an environment of international cooperation and the sharing of our members’ wealth of knowledge to drive innovation.We appreciate the patience of our members and volunteers as we worked through a legally complex situation. If you have any comments, questions, or concerns, please contact me atpresident@ieee.org.For more information, please visit www.ieee.org . Thank you for supporting IEEE in our mission to advance technology for humanity. José M. F. Moura2019 IEEE President and CEO
个人分类: 国际交流|10625 次阅读|19 个评论
《生物统计学》教材提纲——试验设计数据分析、计量经济学与流行病学
dzrdez 2019-3-23 10:16
《生物统计学》教材提纲 outline of Biostatistics 一,试验设计 Ⅰ Experiment design 二,采集和记录数据 Ⅱ Collection and recording of data 三,单变量分析 Ⅲ Univariate 1,估计 1 Estimate 2,比较 2 Comparison 3,相关 3 Correlation 4,回归 4 Regression 四,多变量分析 Ⅳ Multivariate 1,降维 Reduction 主成分分析 Principle component analysis, PCA 偏最小二乘 Partial least square, PLS 正交化偏最小二乘 Orthogonal partial least square, OPLS 2,聚类 Clustet 3,独立分析 Indepent compent analysis 4,多元线性回归 Multivariate linear regression 5,联立方程 Equation group 五,非参数分析 Ⅴ Nonparameter 1,率的检验 Test of ratio 2,逻辑斯谛回归 Logistic 3,生存分析 Survival analysis 六,非线性 Ⅵ Nonlinear 1,混沌动力学 Chaotic dynamics 2,复杂性与自组织 Complicity and self-organization 【正文待续】To be continued.
2294 次阅读|0 个评论
请教⑴:因变量与次要影响因子之间的拟合结果是怎样的?
热度 1 zhgatcl 2018-6-9 21:28
因变量与次要影响因子之间的拟合结果是怎样的? 假设某个因变量 Y 与三个自变量 X 1 、 X 2 、 X 3 的 三元线性拟合公式 高度正相关(相关系数 R 大于 90% ),并且知道自变量 X 1 是 主要影响因子(权重大约占 60%~70% ) ,其它两个自变量 X 2 、 X 3 都是 次要影响因子 (请特别注意 主次有别! ),那么,采用 Excel 多元回归现成的命令,由电脑进行因变量 Y 与次要影响因子 X 2 或者 X 3 的 一元线性回归分析 ,得到的结果是不是相关判定系数 R 2 不太理想而 Significance F 比较理想?其理由是 X 2 和 X 3 的的确确是因变量 Y 的影响因子,但不是主要影响因子。 如果以上判断(观点)不完全正确,因变量 Y 与次要影响因子 X 2 或者 X 3 的 一元线性拟合 的相关判定系数 R 2 和 Significance F 都有比较理想的可能,那需要什么条件?也就是说,什么条件下因变量与次要影响因子一元拟合的效果比较好?什么条件下因变量与次要影响因子一元拟合的效果不好? 由电脑进行因变量 Y 与两个次要影响因子 X 2 和 X 3 的 二元线性回归分析 ,相关判定系数 R 2 有可能比较理想吗?两个自变量的 P-value 有可能都比较理想吗( P-value 越小越好、一般要求小于 0.05 )?拟合得到的结果是不是相关判定系数 R 2 不理想、两个自变量或者其中一个自变量的 P-value 也不理想?其理由是自变量 X 2 和 X 3 都是次要影响因子,二元线性回归拟合公式中没有主要影响因子。 (请专家特别是数理统计专家、气象专家、水利专家赐教)
个人分类: 求教|3965 次阅读|3 个评论
人到中年
热度 1 张海霞 2017-2-6 18:49
周末跟先生去遛车的时候,车上的音响放的是伍佰的《浪人情歌》: “我会擦去我不小心滴下的泪水,还会装作一切都无所谓……” 不知道为什么我竟然忍不住笑了, 这熟悉的旋律和以前听着会流泪的歌词, 怎么突然之间变得很搞笑了呢?看看旁边一脸木然的先生,我忽然释然了:原来不知不觉间我们已经人到中年,轰轰烈烈的爱情早已变成指间细水长流一般的亲情,哪里还会为有那些不小心滴下的泪水啊…… 记得有次照镜子,我对自己的形象很不满意,跟旁边洗洗刷刷的老妈抱怨:“妈,你看我都成中年妇女啦!”老妈很是幽默:“你早就是啦!只是你自己不觉得罢了。”真的要是感谢老妈长期以来的“人间不拆”之恩:真相大家都看见了,只是不愿意道破天机而已。 看看周围,确实早已满是人到中年的迹象了:孩子个头都比自己高了,啥事儿也不用管了,原本利利索索的父母现在也已经逐渐老迈了,先生的头发已经开始发白了,每次照镜子只是自欺欺人地说“今天状态不太好”……出差的时候连续熬夜已经开始吃不消,跟孩子们出去玩,他们说的很多话已经跟不上,更不好意思的是:爬高上低的时候他们总是伸出手拉我:“老师,这里不好走,我扶您一下吧!”这什么情况?我啥时候不再是那个事事都身手敏捷的排头兵啦?!每次在外面开会,周围前来打招呼的青年才俊:“你这不是以前读谁谁研究生的那个吗?”“老师,我已经工作五年了……”“真的吗?我觉得你还没毕业呢 …… ” 你还说你不老,行吗? 中年,真的是在不知不觉中到来了,虽然我感觉自己还很年轻,可是我已经是上有老、下有小的中年人啦,已经 很久 不曾流露“爱上层楼”的少年急切,就连“嘈嘈切切错杂弹”的青涩也开始逐渐消减,但也远远体会不到“欲语泪先流”的凄凉和 “ 天凉好个秋”的禅意解脱,似乎还日日无望地挣扎在“苟苟且且”之中 ……所幸的是 胸中多了一些“大珠小珠”的散乱积淀,口袋中残留下不至于窘迫到无处藏身的也许存款,在多年的左冲右突和撞墙之后开始明白自己的所长与所短,仿佛也窥到了某些机缘可又影影绰绰看不到它的真颜 …… 老天,我们究竟如何才能让这段恍恍惚惚的日子变成有些许滋味又能带些起承转合机遇的时光呢?!有幸读到 野夫的新年致 辞《中年身世似逃禅》,特转给各位人到中年的朋友:期待大家能够如他一样 不妨放手把余下的不多心力和体力去 发展那些真正喜欢的志趣 ,成就真正的自己。 野夫。 1962 年出生于湖北,著名作家,出版人。 中年身世似逃禅 《 中国新闻周刊》特约撰稿|野夫 本文首发于 2017 年 1 月 23 日总第 790 期《中国新闻周刊》 一 岁暮天寒,一个人郁郁独行,忽然与中年狭路相逢。 彼此冷冷打量一番,各自倒抽一口寒气。也许久厌兵戈,一时英雄气短,按住腰间那柄祖传的岁月杀猪刀,实在不欲拔出来恶战一场。 这样的对视终觉尴尬,一方不肯让路,一方无心搏杀。两厢捉对,行者盘算着绕道而行。只是四面山河,肃然如桶,如埋伏已久之陷阱,竟是无路可逃。 天风凛冽,但见中年兀然霸道在那,满手暗器,嘿然怪笑地候着你的迎战。这一场蓄谋既久,事先张扬的暗算,任谁也插翅难飞。 惊惶之余,回想天下所有的遭遇,或者都是成就你今生的艳遇,忽然就有了几分气定神闲。虽千万人,横尸于此;虽千万人,吾往矣。设若一个区区中年,你竟战也不过,那接下来还将遭逢的余生,你与走肉何异? 一念及此,遂如小说家言 —— 老夫且硬生生迎了上去 …… 二 何谓中年?何日为始,何时为终? 古代的时间很慢,生命很短,却也显得漫长。四十就要不惑于人间绚烂,似乎中年便来得很早。金圣叹说:人生三十未娶则不得再娶,四十未仕则不得再仕。意思大抵是,三四十岁之后,所有的努力皆可放弃,对生活不必再存奢望。故而关汉卿要在杂剧里叹唱 —— 人到中年万事休。一个休字,真是道尽了中年的寒凉。 网上说,联合国的卫生组织,迩来重新划定了青、中、老的界限,将中年的边际,几乎无限拉长到一个古稀的年段。这算是对迟熟社会的一个奖赏,也可谓对这个难以成人的 “ 类人孩 ” 时代的某种戏谑。 窃以为,中年绝非一个年轮,不是钟表刻度上的一段时空。 中年是一种心态,抑或是心智成熟的一个纬度。 王羲之说,中年以来,伤于哀乐。与亲友别,辄作数日恶。这里的意思非常明白,人在青春里,万事唯知贪欢。对于岁月之逝,原是真无哀愁。那种客舟听雨的怅惘,从来未曾真懂。只有到了中年,才会敏感于人世苦乐;哪怕是与亲友小别,也会数日心情难过。 三 我于 44 岁如云而南,寄居苍洱之间读书饮酒,便有近乎于垂老投荒的感觉。那时古镇萧条,来的也多是盛世零落之人。翻检旧作,找出 “ 中年身世似逃禅,面壁澄怀学闭关 ”—— 那真是当时的情状。 中国旧式读书人,向有 “ 据于儒、依于老、逃于禅 ” 的传统。大意是说,最初以儒家救世情怀为立身之据,后来报国无门,惶惶如丧家之犬,只好以老庄之高蹈避世思想相依为命。然而老庄原非真正清静无为之人,若辈皆有自己的理想国,只是不屑于与此浊世对话而已。于是,最后只好逃入禅门,息影于佛前青灯下,在禅的一花五叶之间,饮茶听钟,出离愤怒,也不立文字。偶然兴起立下的,可做偈诵,可做灯传,亦可刨土添薪,化作舍利一如灰烬。 李叔同 39 岁祝发入山,转身为弘一法师,算是中年悟道。而更多的人,在这样的年龄,还在酒色猖狂的日子里浪掷青春。 董桥先生认为,中年是只会感慨不会感动的年龄,只有哀愁没有悲怒的年龄。这也许是他的独特体悟 。在我看来,中年情味陈窖酒,虽然没了初出蒸锅的火气,却有倍加沉郁的醉意。 不悲则已,悲则彻骨;轻易不怒,怒必伤人。 四 我从中年开始告别喧嚣浮躁的京城商业生活,蜗居于一个小村检点半生。那时已经非常拮据了,只能去下关的一个旧货市场,买回一车旧家具,勉强维持日常生活。中年人并不意味着对自己完全具备信心,但是对如何应付人间生存,一般不会像年轻人那么仓皇。 我的中年已然饱历沉浮荣辱,对于贫富贵贱算是基本看淡。 如果一个人到了中年,还没有活出自己的方向感,那他注定一生狼奔豕突,永远在焦虑中拼搏奔波。 我那时已经非常明确只身南来的活法 —— 就是写作。在中国,一个人要想凭借写作,且不依赖作协之类体制,而能较为优裕地生活的,其实寥寥可数。 我并不认为我可以卖文为生,但是,我彻底清醒地认识到 —— 我应该写了。写作是我的存在方式,除此之外,我将什么都不是。如果我没有将我所经历的一切记录于案,历史也必将错过对一些罪恶的指证。 也就是说,我在度过了大半生的孟浪狂躁之后,忽然在中年沉静下来。 那一年,我像获得了某种天启,我必须远离那个浮华且危险的都城。 当我背着背篓在乡村集市买菜做饭,在农家小灶沽酒买醉 —— 这些新鲜出炉的纯良土酿,点滴滋润着我开始很接地气的生活。我知道,我赢了,我终于找到了我最想要的日子。 五 很多时候,都是雨打梨花深闭门地活着。院子里手植的梨树石榴,一白一红,轮番点染着中年人的枯寂。邻人做了好菜,必是要送一碗来分享。自家开了新酒,也总要隔篱呼取。夜雨楼头,英雄美人偶来啸聚;尺八呜咽声中,不时还能唤出几行清泪。 天气晴好之日,独自会背一袋米,提一桶油,去苍山古寺聊做供养。那时的净空法师不似今日之忙,多在庭中金桂之下,泡一壶陈年老普洱,与我负暄闲话。他是武僧出身,腕上缠着几十斤重的熟铜念珠,斟酌之间,滴水不漏。 无为寺的山规甚严,一直不让用电。当年那些习武的僧童,而今都云游远方了。和尚见我,依旧还要留下用斋。每饭前,必同唱佛号;先退席者,必挨座行礼。这样的古风,仿佛还是虚云老和尚时代。想起虚云上师于江山鼎革时,义不赴京叩阙 —— 自古法王不拜世王 —— 这是怎样的磊落耿介。这样的法脉和道统,可惜只今余几? 古寺复建了药师殿,唤我为这山河留一点词句。我为正门撰联曰: 十二大愿足济世,有师为证;三千红尘除修心,无药可医。 再为侧门撰联云:良言如良药,具三聚净戒;心法即佛法,度一切有情。 这些话,年轻时写不来。看似中年后才有的证悟。至今在那殿门前挂着,老了再去看,是否会汗颜,却是未知。 六 被名山大水拥着的中年,似乎该有一些名门正派的贵气。该说的话,从未三缄其口。该做的事,向来一意孤行。 这是一个是非正邪极易混淆的时代,举目乌烟瘴气,只能重建君子心中那个道义江湖。 一入江湖岁月催,鬓已星星也。这都是古话,道的也是千古炎凉。江湖子弟江湖老,活的正是这样一点骨血。想当年青春许国,揖别了皂隶生涯;几十年风刀霜剑地在俗世突围,要的也就是这样的云水营生,自由西东。 一日,入魏宝山长春洞借宿,几百年的老道观,傲岸而寂然。逍遥道长与龚道士和一个火工道人,三人在此深林枯涧边,孤守一脉道法。夜来月下,搬出桂花私酿,与我等俗人痛饮。醉罢吹箫弹琴,仙乐飘飘;再于空庭踏罡步斗,打出另一番迥异中原的太极。这样的浮生闲日,何等快活逍遥。 道观香火寥落,不敷日用。道士须躬耕荒野,聊供盘飧。其处远离人烟,山冷水寒。询之:何以选择如此生涯?答曰:祖宗的衣钵,总会要人守着在。 虽然云山相隔,我辈守着的,亦是另一种祖宗家法。古语谓盛世拜佛,末世访道。 至于书生,千百年来,也就图个在治乱之间,维系那一脉文化江山,以免真正的亡了天下。 七 南迁十载,生年过半。海内外出书十余册,结缘天下同道上百万,我算是对得起我的中年。尽管生活多如黄遵宪诗云:中年岁月苦风飘,强半光阴客里抛。但这样的光阴,自问尚未虚掷。 方今之世,看着快似要到真正的一元复始之际了。我辈拼命也要从中年活到老年那里去的唯一兴趣,正是想要见证我们平生努力的这一切,该怎样在未来散枝开花。 朋辈勉之曰:该行的路我们已经行过了,该打的仗我们已经打过了。我曾过眼的天地烟云,我曾亲炙的当世贤哲,我曾结交的美人英雄,也许是他三世也不能遭逢的幸运。 十年前的大年三十上午,我路过喜州古镇,看见一个少女还在寒风中独守小摊,零售著名的喜州粑粑。我问她为什么还不回家去团年?她说她在昆明上大学,平日都是妈妈卖粑粑供她。她放假回来才能帮一下妈妈,只等这些粑粑卖完了,她就回去团年。那一刻,我忽然背身拭泪。我买完了她所有的几十个粑粑,对她说:你是好孩子,快回去吃年饭吧。 她端着空了的簸箕,对我躬身一揖说:叔叔,你是善良人,会有善报的。 这个白族少女的话,我视为对我中年的最高奖掖。我一直深怀善意地行走于大地上,背负欺凌侮辱,也背负着无数真善美的目光。正是这些弱小者的鼓励,使得我辈行走在中年的路上,走得还算很有力量。 (摘自《中国新闻杂志》)
个人分类: 生活点滴|5524 次阅读|1 个评论
机器视觉中的非线性最小二乘法
wanglin193 2016-9-8 19:46
pdf版下载: 机器视觉中的非线性最小二乘法(王琳).pdf 本篇笔记分两部分: 一:非线性最小二 乘( NLS) 问 题 Jacobian 矩阵J 计算 二:非线性最小 二乘( NLS) 下降 矩阵的快速学习方法 一 . 梯度下降法以及 Jacobian 矩阵计算 在 2010 年的 关于L-K和 AAM 的博客 里提到,模板 匹配公式的一阶泰勒展开 ΔT=J* Δp , J 是用于梯度下降的 Jacobian 矩阵 ,是高维矢量函数值 T=f(p) 相对与参数矢量 p 变化时的增量 ( 导数 ) 。 如果 p 是 n 维矢量, T 是 M 维矢量,则 J 是一个 的矩阵。 J 在 (i,j) 处的元素值是 (ə T i /əp j ) 。 对模板匹配问题,假设矢量ΔT是图像Patch和模板的差,Δp是模板匹配每次迭代的参数增量,模板匹配过程就是根据ΔT求Δp的过程: Δp =( J T J ) -1 J T ΔT 其中 J T J 是 高斯牛顿法中的海塞矩阵H = J T J 。因为 H 并不总是可逆,所以 Δ p =(H+λI) -1 J T Δ T 关于 λ 的说明: ( 无约束 ) 梯度下降法求函数最小化问题时, λ 的增加,减弱了海塞矩阵 H 的影响, λ 从 0 到正方向的递增过程对应了梯度下降法从 牛顿法 到 最速下降法 的切换。优化过程中根据目标函数的结果实时调整 λ 值的方法即是所谓 Levenberg-Marquardt 法 。 λ 的另外一个作用是可以限制回归结果ΔP的幅值,称为 Ridge regression。 所以求解模板匹配方法要在每步迭代时计算当前位置的梯度矩阵 J ,也就是估计输入图像(或模版图像)在参数变化时对应的变化量。 J 的计算可以使用解析法和数值法: 1. 解析法 :如果模板的几何变形可以用显式的公式来表达, 比如 Lucas-kanade ( L-K ) 方法中图像 Patch 的变形可以用 2 个参数的位移, 6 个参数的仿射变换或 8 个参数透射变换 Homography 来表达。 ə T i /əp j 可以用链式法则表示成图像的梯度和几何变化的内积的形式 ə T i /əp j =ə T i /əW,əW/əp; 再如 AAM revisited 文章介绍的 face alignment 方法,二维人脸特征点经过三角剖分形成多个三角面片,人脸这个非刚体变形模板可以用对应三角形的仿射变换来表达。 2.数值法: 如果是几何参数和模板的几何对应关系是非线性的 , 比如机器视觉的成像投影函数是非线性的,再如图像模板可能不是简单地用图像的灰度矢量来表示的,而是用高级的图像冗余特征如梯度、 Gabor 小波或者 SIFT/HOG 等表达,这些高维的表达方式非常不适合计算梯度。数值法求 J 是在对当前每个参数 pj 增加一个小的扰动量 (Purterbation) Δpj ,计算因此产生的增量 ΔTi 和 Δpj 的比值: ΔTi/Δpj 。因为 P 的每个分量是单独计算的,假设 pj 彼此之间是相互独立的,则矩阵 J 的列之间的相关性应该比较小。 另外,仅仅是为了提高 J 的鲁棒性,也可以用数值法计算,比如在上述解析法光流中求 J 需要计算图像或模板的梯度,其中就有很多变化,常规的 Sobel 算子只能考虑 3 × 3 邻域,必然受图像噪声的影响,此时可以考虑使用多尺寸模板度卷积的均值。再如 Tim Cootes 2001 年最初发表的 AAM 方法,计算人脸图像相对于人脸形状参数变化的 J 时,就是使用多次扰动结果的均值进行计算。 可以使用梯度下降法求解的非线性最小二乘问题: (1) L-K 方法 image registration 和 AAM 人脸对齐 :根据输入图像和模板 ( 或子空间模型 ) 的差,推出形状参数的变化。为了减少计算量, Jacobian 矩阵 J 和海塞矩阵 H 不是在图像 I 上而是在模板 T( 对于 AAM 是人脸训练样本的平均 Appearence A0 处 ) 上进行计算的。第 k 次迭代时,根据参数 Pk-1 把输入图像 warp 到模板 T 附近(对于 AAM 是利用刚性参数和 PCA 形状参数到输入图像上采样,填充模板图像位置的像素值),然后利用 warp 后的图像和模板的差计算得到 Δ pk 并 更新形状参数 Pk = Pk-1+ Δ pk ( 有时是矩阵乘法)。 ( 就是 所谓 Inverse Composition ? ) 。文章 Lucas-kanade20 years on: A unifying framework 就是最初把 L-K 方法和 AAM 统一到模板匹配的框架下的。 (2) 根据已知 3D 物体的空间结构和对应的一个 2D 图像投影估计 3D 物体的姿态 ( OpenCV 的 solvePnP () ): Pose 矩阵 有 6 个自由度,该问题是有 6 个参数的梯度下降问题。误差函数优化的目标是使估计的投影点和实际的投影点之间的距离最小。一个典型的应用是根据 Face Alignment 的 2D 特征点估计 3D 人脸模型的姿态。 (3) 机器视觉的光束平差 (Bundle Adjustment) : 根据 3D 空间物体 (通常是根据图像特征点匹配恢复出来的稀疏点云) 的多张 2D 图像上的投影点 P 2d , 同时计算每个摄像机的 6 自由度的 Pose 、所有 3D 空间点的坐标 P 3d =(x,y,z) T ,以及每个图像的摄像机内参 K (以及非线性的畸变参数)。 2D 图像 i 上投影的匹配误差是 3D 重建的投影点和 2D 观察点之间的距离: D ist i =|P 2d -K* *P 3d |, 所有图像上的匹配误差最小化 minE = min sum(Dist i ) 。 Bundle Adjustment 在张正友的相机标定方法中用于估计相机内参和畸变参数,标定棋盘上的点的空间位置和相机姿态作为副产品,也可以同时得到。通过已知内参的单目相机实时估计相机姿态 和三维点云坐标的算法叫做 SfM 或 SLAM 。如果摄像机是变焦的,原理上也能实时计算出相机内参,称为相机自标定。 (4) 两个 RGBD 图像(带颜色的深度图)配准的变换矩阵 ( ICP 算法) :用于计算 RGBD Odometry。可参考 。刚体配准需要 6 个参数,把一个深度图像形成的点云投影到另外一个深度图像 ( 可视为模板 ) 上进行配准。匹配的误差是两个 RGBD 的 RGB 及深度 Z 的差(也可以是 3D 点云坐标 XYZ 的距离)。另外,也有利用深度图像的 TSDF 体数据进行等值面配准的方法。 Matlab 里有求解非线性最小二乘问题的函数 X=lsqnomlin(myfun,X0,LB,UB,options) ,特别好用。只要定义好表达矢量差的函数 myfun() ,以及给定初值 X0 ,设置 options 等参数(比如设置是否使用 L-M 算法等),程序会自动计算 Jacobian 求出最优解 X 。以 CameraCalibration 为例, myfun() 中只要定义好所有 3D-2D 投影和检测到的 2D 点集的误差矢量,并且把所有待定参数,包括 n 个相机的 K 和 pose 、 m 个 3D 点坐标的初始值连接成参数矢量 X0 ,送进优化函数,返回的优化结果 X 再解码成对应参数。实际上初始参数选择比较随意,甚至不需要太精确的线性解 ( 张正友的文章中的 3.1 Close-formsolution 一节 ) 步骤就能收敛到精确解。也有许多基于 C++ 的开源库能很好地求解 NLS 问题,比如 Eigen 库中就有函数能够完成类似 lsqnomlin() 的功能。还有专门求解 BA 问题的开源库。 二 . 通过学习的方法计算下降矩阵 D 其实就是待定系数法,或者 看成 拟合超平面 的回归问题。 直接求解下面式子中的 D Δ p = D * Δ T 在梯度下降过程的当前位置通过给 p 加一组扰动采样得到对应的 Δ T 样本。假设样本个数为 m ,参数 P 是 np 维, T 是 nt 维的。则上式的矩阵维度是 = Δ p 和 Δ t 的采样方法和上面提到的估计 J 的数值法类似,不同的是:样本采样除了希望相互独立外 ( 高维空间中的采样:蒙特卡洛法? ) 。 m 的个数也可以远远大于参数 p 的维度 np 。 D 的计算: D = Δ p* Δ T T *( Δ T* Δ T T ) -1 其中 ( Δ T* Δ T T ) 是 维的矩阵,如果图像 patch T 的每个像素是由 HOG 或 SIFT 等特征表达的,比如图像 Patch 的 size 是 32*32 ,每个 pixel 位置的 HOG 特征是 128 维的, T 就是 nt=32*32*128=131072 维矢量,这样实时计算 ( Δ T* Δ T T ) 的逆矩阵时的计算量很大。解决的方法: (1).SVD法或PCA 降维,比如在 CVPR2013 SDM 文章中使用 PCA 对样本进行降维, 最终的特征矢量 T 是乘以一个降维矩阵的结果 。 (2).梯度下降法迭代求解,D(t) = D(t-1) + η* (- ə E /əD ),E是拟合残差,η是学习率 。这是神经网络用于更新连接权重的常用方法,它的好处在于可以支持对D矩阵的on-line学习,即每次只使用少量(mini-batch)甚至单个的训练样本对D进行更新。相当于一个使用线性激活函数且只有一层的神经网,适合于内存受限的场合 。 (3). 参考“ Online Learning of Linear Predictors for Real - Time Trackin g ”,把 对 维矩阵求逆的过程转化为对 矩阵求逆的过程(通常ntnp)。具体见下图 ( 其中模板 Homography 变形 np=8) : 通过学习解决 非线性最小二乘问题: (1) 模板匹配 : 可以参考 Hyperplane approximation fortemplate matching ,它就是用学习的方法估计下降矩阵的。 Δ p=D Δ T 被描述成一组超平面,求 D 的过程变成拟合超平面的过程。 (2) Face Alignment: 参见 SDM 论文。下降矩阵 D( 论文中的 R) 引导初始形状收敛到手工标定的训练样本形状,每次迭代在新位置计算 J 和 H 等过程替换为可以事先训练的回归过程。传统 ASM/AAM 方法只在平均形状处训练一个 D 矩阵,而 SDM 则训练出一个回归矩阵的序列,这样看 SDM 的训练过程好像得到了更多的信息。实际上传统 AAM 也在不同的图像尺度上训练多个 D , SDM 则在同一尺度上训练(每个特征点计算 HOG 的图像 Patch 是 32*32 )。传统 AAM 的形状用 PCA 参数表达,而 SDM 中的人脸变形参数直接使用形状坐标的 2D 偏移。 (3) 其它: 参考 SDM 作者的后续期刊文章 ,从文章名字就能看出,作者试图用学习下降矩阵的方法解决刚体跟踪, Face Alignment 和 3D 姿态问题。它的末尾结论部分提到对于有多个局部最小值的 NLS 求解可以把解空间进行划分,求一组回归矩阵的序列 {R} 就是后来的 GlobalSDM 方法。 参考的文章: . Active Appearance Models Revisited. Iain Matthews and Simon Baker. CMU-RI-TR-03-02 . Lucas-kanade 20 years on: A unifying framework. Baker, S., Matthews,I. IJCV (2004) . Active Appearance Model. Tim Cootes 2001 .Real-Time Visual Odometry from Dense RGB-D Images. Frank SteinbrückerJürgen Sturm Daniel Cremers . Hyperplaneapproximation for template matching. FreÂde ric Jurie and Michel Dhome. PAMI (2002) .Online Learning of Linear Predictors for Real-Time Tracking. Stefan Holzer1, MarcPollefeys2, Slobodan Ilic1, David Tan1, and Nassir Navab. ECCV2012 .Supervised Descent Method for Solving Nonlinear Least Squares Problems in Computer Vision
个人分类: ASM/AAM|8433 次阅读|0 个评论
[建议] 《科学网》10年:回顾、展望与“寻找前十”
热度 2 zlyang 2016-7-3 10:52
《 科学网 》10年: 回顾、展望 与“ 寻找前十 ” 2007年1月18日,科学网对外发布,下设新闻、论坛、博客、分类信息、资料贴吧、科学家、实名举报等频道。 2017年1月18日,是科学网开通10周年。搞点纪念活动吧! 在《科学网》最早 的前 100 注册用户里,开博客的是: (1) http://blog.sciencenet.cn/home.php?mod=spaceuid=12 方芳的博客,管理员,注册时间 2006-12-19 22:03 (2) http://blog.sciencenet.cn/home.php?mod=spaceuid=45 科学网的博客,管理员,注册时间 2007-1-5 15:18 (3) http://blog.sciencenet.cn/home.php?mod=spaceuid=57 注册时间 2007-1-8 (4) http://blog.sciencenet.cn/home.php?mod=spaceuid=69 张楠的博客,注册时间 2007-1-9 20:40 (5) http://blog.sciencenet.cn/home.php?mod=spaceuid=84 刘杨的博客,注册时间 2007-1-12 17:26 (6) http://blog.sciencenet.cn/home.php?mod=spaceuid=85 http://blog.sciencenet.cn/u/爱好者2004 雷永青的博客,注册时间 2007-1-12 18:11 (7) http://blog.sciencenet.cn/home.php?mod=spaceuid=93 何运良的博客,注册时间 2007-1-13 21:55 (8) http://blog.sciencenet.cn/home.php?mod=spaceuid=98 刘子鸿的博客,注册时间 2007-1-14 21:33 (9) http://blog.sciencenet.cn/home.php?mod=spaceuid=99 胡祖权的博客,注册时间 2007-1-14 22:16 其余的用户,都是谁?现在在做什么? 目前《博客总排行》前十: 1 黄安年 • 注册时间 2007-3-8 00:41 2 许培扬 • 注册时间 2009-7-6 11:19 3 杨学祥 • 注册时间 2007-6-9 20:03 4 陈 安 • 注册时间 2008-6-10 22:04 5 武夷山 • 注册时间 2007-4-25 13:54 6 孙学军 • 注册时间 2008-3-29 08:10 7 王鸿飞 • 注册时间 2007-1-20 10:56 8 饶 毅 • 注册时间 2007-6-7 14:09 9 王德华 • 注册时间 2008-4-7 13:45 10 喻海良 • 注册时间 2008-12-24 22:11 里面有 5 位是 2007 年来科学网的。 看来,成功与坚持有密切的关系。 抛砖引玉吧! 相关链接: 关于科学网 http://www.sciencenet.cn/aboutus/ 科学网《大事记》 http://www.sciencenet.cn/aboutus/default.aspx?id=4type=1 2007年1月18日,科学网对外发布,下设新闻、论坛、博客、分类信息、资料贴吧、科学家、实名举报等频道。 科学网博客排行 http://blog.sciencenet.cn/blog.php?mod=list 陈昌春,2015-2-2,本科1981级或1985届博友们看过来,秀秀你的人生感慨----30年忆往 http://blog.sciencenet.cn/blog-350729-864759.html 毁树容易种树难 【笔会“高考1981”】 众人:魏东平、祖乃甡、王德华、鲍得海、余昕、庄世宇、 刘苏峡,2009-08-02,之未去篇之想念篇 ——“高 考1981 ”博友及 嘉宾聚会 http://blog.sciencenet.cn/blog-2055-246994.html 感谢您的指教! 感谢您指正以上任何错误!
3455 次阅读|4 个评论
关于计量金融领域中回归模型的拟合优度
htsong1976 2015-10-23 19:52
18:47 读了小颖推荐的第七章,感觉在Wooldridge那本书书确定不强调R Square的作用。 往前回溯到第二章,伍德对此有个说明,参见书中第32-34页。 但同一页还有个例子,如上。 18:51 例子中又承认R方低会造成线性回归模型缺乏解释力的问题。 19:08 国内的大多数论文都强调高R方的重要性,荣泰生的《SPSS与研究方法》中第11章同时提及多元回归和带虚拟变量的回归,P379解释的R2系数的重要性。找到知乎上有一篇文章,这是做计量经济的学者写的,也是后面的争论也很有意思。 http://zhuanlan.zhihu.com/econpaper/19931167?utm_campaign=rssutm_medium=rssutm_source=rssutm_content=title 人大经济论坛上有个贴子,是做计量经济的学生问的。 http://bbs.pinggu.org/thread-2927882-1-1.html 跟我们讨论主题很相似。 19:11 简单总结下,伍德的观点是就算低R方,也说明自变量跟因变量的关联性是显著的,所有是有意义的。但是这种情况下,没有办法做预测,因为自变量能因变量的解释力有限,所有预测就不会靠谱。 lincy 一般研究如果理论贡献和实践意义比较大,即使r2较低也是可以接受的 lincy 我看到很多文章只有20%甚至更低 lincy 包括我自己的文章 19:15 lincy 还有一个原因是不同的人统计软件出来的结果都不同,但就像宋老师说的,这些文章一般强调理论解释、相关性或因果关系,预测方面可能有所局限性 可能这跟学科有关系,计量的人也想高R方,但是如果那样坚持可能就出不来结果了,毕竟不可控因素太多。 19:21 lincy 哦,呵呵,这个里面忘了改 但这样做风险比较大,因为只剩余一道P值的标准,但所谓的P值显著也是不可靠的,既有高估风险又有低估风险。 lincy 是的,这也是我们研究经常遇到的问题 lincy 现在用结构方程模型来做验证的比较多,会有拟合系数等一系列指标衡量,回归算是比较劳动日方法 lincy 是的,统计算法一直在改进,也一直被诟病 19:28 可以部分解决,也可以用Bootstrap,但又引入一个新的前提,即样本与总体的同分布。 这块部分原因还不在于统计方法本身,而在于统计的每个方法都有其严格的施用前提,但平时我们用的时候一般却是随手拈来。 lincy bootstrap就是pls的基本假设 19:33 这块不了解,我以为Bootstrap就是基于重采样技术的统计量计算方法,一般称为自助法的。 lincy 我也不懂具体的原理,一般就是直接拿来用的 19:36 一般我们在Bootstrap中是基于给定的样本做重抽样,然后根据抽样结果来算各种统计量,这对偏态的小样本情况比较常用。 19:40 lincy 那这就对了,pls就是适合小样本不符合正态分布的样本做的统计,还是要懂得原理才能更好应用
个人分类: 概率统计|3856 次阅读|0 个评论
生物灾害精细化预报算法试验研究——以潜山县马尾松毛虫为例
zhguoqin 2015-6-28 14:33
生物灾害精细化预报算法试验研究——以潜山县马尾松毛虫为例 张国庆 (安徽省潜山县林业局 安徽 246300 ) 摘要: 精细化预报建模,除了“精”、“细”之外,还要注重“简”的精细化预报基本要求,只有这样的算法模型,才能“化繁为简”,才能在生产实践中得到广泛应用。一个好的算法,就是要把复杂的事情交给计算机去做,最大程度地把人从繁重的劳动中解放出来。因此,算法与模型的的选择,应该按照“精”、“细”、“简”要求,应用最新数学、系统学成果和分析仿真工具,采用多种方式进行试验比较,选择合适的算法。就本次算法试验而言,对于潜山县马尾松毛虫精细化预报,采用多层感知器建立马尾松毛虫预报模型较好。 关键词: 生物灾害;马尾松毛虫;回归;神经网络;算法 1. 数据来源 马尾松毛虫发生量、发生期数据来源于潜山县监测数据,气象数据来源于国家气候中心。 2. 数据预处理 为了体现马尾松毛虫发生发展时间上的完整性,在数据处理时,将越冬代数据与上一年第二代数据合并,这样,就在时间上保持了一个马尾松毛虫世代的完整性,以便于建模和预测。 ( 1 ) 发生量数据处理 对潜山县 1983 ~ 2014 年原始监测数据预处理时,按照“轻”、“中”、“重” 3 个强度等级,分类按世代逐年汇总。 ( 2 ) 发生期数据处理 在对潜山县 1983 ~ 2014 年原始发生期监测数据按世代逐年汇总,然后,将日期数据转换成日历天,使之数量化,以便于建模分析。 ( 3 ) 气象数据处理 根据《 松毛虫综合管理 》、《中国松毛虫》等学术资料以及近年来有关马尾松毛虫监测预报学术论文, 初步选择与松毛虫发生量、发生期有一定相关性气象因子,包括卵期极低气温,卵期平均气温,卵期积温(日度),卵期降雨量,第 1 、 2 龄极低气温,第 1 、 2 龄平均气温,第 1 、 2 龄积温(日度),第 12 龄降雨量,幼虫期极低气温,幼虫期平均气温,幼虫期积温(日度),幼虫期降雨量,世代极低气温,世代平均气温,世代积温(日度),世代降雨量共 16 个变量。将来自于 国家气候中心的气象原始数据,按年度分世代转换成上述 16 个变量数据系列。 然后按照精细化管理的“精”、“细”、“简”的要求,选择对当前马尾松毛虫防治实践有着较高指导意义的发生面积和幼虫高峰期作为预报因子,采用 SSPS 进行偏相关性分析,再次排除相关性较低因子变量,并排除 世代降雨量、幼虫期降雨量、幼虫期极低气温、幼虫期平均气温、幼虫期积温等过时数据,以减少过多相关性较低变量对建模试验的干扰。 在数据汇总中发现,第一代与第二代之间的气象数据相差较大,为了保证试验的精确性,将第一代与第二代分开建模试验。各世代参加算法试验的变量如表 1 。 表1 参加算法试验的变量 因变量 自变量 第一代发生量 第1、2龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积,以及第1、2龄降雨量,卵期降雨量 第二代发生量 第1、2龄极低气温,上一代防治面积,卵期极低气温,上一代防治效果,第1、2龄降雨量,卵期降雨量 第一代幼虫高峰期 成虫始见期,第1、2龄平均气温,第1、2龄积温,第1、2龄极低气温,卵期极低气温,卵期平均气温,卵期积温 第二代幼虫高峰期 成虫始见期,卵期平均气温,卵期积温,第1、2龄极低气温,第1、2龄平均气温,第1、2龄积温,卵期极低气温 3. 试验工具 IBM SPSS Statistics 22 , Microsoft Office Excel 2007 。 4. 算法试验 ( 1 )回归试验 使用 IBM SPSS Statistics 22 和 Microsoft Office Excel 2007 ,多次选择不同的变量, 采用线性回归、 曲线回归、非线性回归、 Logistics 回归等回归建模试验的比较,再次排除了部分相关性较低的变量,最终选择了拟合度较高的线性回归模型,如表 2 。 表2 回归算法试验结果 ​ 最终参加试验的变量 算法试验结果 因变量 自变量 预报模型 显著性 第一代发生量 第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积 第一代发生面积 =18563.523-0.17× 上一代发生面积 +3223.329× 上一代防治效果 +305.634× 卵期极低气温 -1197.311× 第 1 、 2 龄极低气温 0.036 第二代发生量 第 1 、 2 龄极低气温,上一代防治面积 第二代发生面积 =-33943.89+1.3337872× 上一代防治面积 +1958.0085× 第 1 、 2 龄极低气温 0.053 第一代幼虫高峰期 成虫始见期,第1、2龄积温,第1、2龄平均气温 第一代幼虫高峰期(日历天) =34.055+0.585× 上一代成虫始见期 +0.002× 第 1 、 2 龄幼虫期积温(日度) 0.000 第二代幼虫高峰期 成虫始见期,卵期积温,卵期平均气温 第二代幼虫高峰期(日历天) =219.323+0.280× 上一代成虫始见期 -0.150× 卵期平均气温 0.000 从表 2 可以看出,显著性概率小于或非常接近 0.05 ,拒绝回归系数都为 0 的原假设,算法试验基本满足精细化预报试验要求。 ( 2 )神经网络径向基函数试验 使用 IBM SPSS Statistics 22 , 经过多次神经网络径向基函数试验,筛选拟合度高的马尾松毛虫精细化预报模型 ,试验结果如表 3 。 表 3 神经网络径向基函数算法试验结果 最终参加试验的变量 试验结果 因变量 自变量 R 2 第一代发生量 因子变量:选择第1、2龄极低气温,卵期极低气温; 协变量:幼虫期降雨量,卵期积温 线性 0.810 第二代发生量 因子变量:第1、2龄极低气温,上一代防治面积; 协变量:卵期极低气温 线性 0.883 第一代幼虫高峰期 因子变量:成虫始见期,第1、2龄积温; 使用分区变量分配个案:1、2龄平均气温 二次 0.842 第二代幼虫高峰期 因子变量:成虫始见期,卵期积温; 使用分区变量分配个案:卵期平均气温 三次 0.889 算法试验发现,采用径向基函数建立的马尾松毛虫预报模型,基本满足马尾松毛虫预报要求。 ( 3 )神经网络多层感知器试验 使用 IBM SPSS Statistics 22 , 经过多次神经网络多层感知器试验,筛选拟合度高的马尾松毛虫精细化预报模型 ,试验结果如表 3 。 表 4 神经网络多层感知器算法试验结果 最终参加试验的变量 试验结果 因变量 自变量 R 2 (线性) 第一代发生量 因子变量:上一代防治面积,上一代防治效果,卵期极低气温,第1、2龄极低气温; 协变量:卵期降雨量,第1、2龄降雨量 0.957 第二代发生量 因子变量:第1、2龄极低气温,上一代防治面积; 协变量:卵期极低气温; 使用分区变量分配个案:上一代防治效果 1.000 第一代幼虫高峰期 因子变量:成虫始见期,第1、2龄积温; 协变量:第1、2龄平均气温,第1、2龄极低气温; 使用分区变量分配个案:卵期极低气温 0.999 第二代幼虫高峰期 因子变量:成虫始见期,卵期积温; 协变量:卵期平均气温,第1、2龄极低气温; 使用分区变量分配个案:第1、2龄平均气温 0.999 算法试验发现,采用多层感知器建立马尾松毛虫预报模型, R 2 均大于 0.9 ,要优于径向基函数与回归方法建立的模型。 ( 4 )时间序列分析算法试验 在算法试验中,还采用了多种时间序列分析算法,试验结果的拟合度都较低,达不到预报模型要求。 5. 算法选择与组合 ( 1 )算法基本要求 精细化预报建模,除了“精”、“细”之外,还要注重“简”的精细化预报基本要求,只有这样的算法模型,才能“化繁为简”,才能在生产实践中得到广泛应用。模型拟合度再高,如果实际应用操作复杂,那也很难应用于实践。因此,这就要求我们创新算法,把复杂的事情交给计算机去做,最大程度地简化人的操作,这样的算法才是好的算法。 ( 2 )自变量数据的获取 对于马尾松毛虫精细化预报而言, 对 防治具有较高指导意义只有发生面积、发生强度与幼虫高峰期的预报。 就目前技术来说,用于建模的成虫始见期数据,采用性诱或灯诱获取最易于实现,而且成本低,数据可靠性高。发生面积和发生强度,建模中使用的是上一代数据,这个数据可以使用高分卫片由计算机自动获取,必要时采用成本低廉的遥控无人机对重点区域进行遥测,对高分数据进行校正,尽量避免使用劳动强度大、成本高、可靠性低的人工地面监测数据。 气象数据可以从国家气候中心直接获取,包括历史数据和周、旬预报数据。 ( 3 )算法的选择 不同的区域,不同的有害生物,其算法与模型不可能完全相同。算法与模型的的选择,应该按照“精”、“细”、“简”要求,应用最新数学、系统学成果和分析仿真工具,采用多种方式进行试验比较,选择合适的算法。就本次算法试验而言,对于潜山县马尾松毛虫精细化预报,采用多层感知器建立马尾松毛虫预报模型较好。 ( 4 )算法的组合 以 Arc GIS 为平台,结合 SPSS 或 MATLAB 分析仿真工具,对有害生物未来发生情况进行精确描述、分析和仿真,根据仿真结果,发布生物灾害精细化预报。 参考文献 张国庆, 基于生态论的生物灾害精细化预报理论研究 ,现代农业科技, 2014 ,( 19 ): 146 ~ 150 张国庆, 基于 TSE 分析理论的林业生物灾害精细化预报技术研究 ,现代农业科技, 2014 ,( 19 ): 153 ~ 155 张国庆, 基于系统关键因子分析理论的林业有害生物防治关键期分析技术研究 ,现代农业科技, 2014 ,( 19 ): 199 ~ 201 张国庆, 基于系统健康管理理论的林业生物灾害精细化预报管理研究 ,现代农业科技, 2014 ,( 19 ): 197 ~ 198 张国庆,森林健康与林业有害生物管理 ,四川林业科技, 2008 , 29 ( 6 ): 77~80 基金项目:林业公益性行业科研项目“全国林业生物灾害精细化预报及管理基础应用研究”( 201404410 );国家重大专项项目“高分森林灾害监测应用”( 21-Y30B05-9001-13/15 )
个人分类: 生物灾害学|760 次阅读|0 个评论
马尾松毛虫精细化预报回归建模试验
zhguoqin 2015-6-28 14:13
点击下载原文: 02 马尾松毛虫精细化预报回归建模试验.doc 马尾松毛虫精细化预报回归建模试验 张国庆 (安徽省潜山县林业局 安徽 246300 ) 摘要:通过线性回归、 曲线回归、非线性回归、 Logistics 回归等回归建模试验的比较,建立了显著性较高马尾松毛虫发生量和幼虫高峰期预报模型。通过试验发现,精细化预报建模,除了“精”、“细”之外,还要注重“简”的精细化预报基本要求。对于有害生物精细化预报算法而言,应该按照不同县或不同自然区域,采用多种建模算法进行试验比较,选择适合于本区域的精细化预报模型。就马尾松毛虫发生期预报而言, 对 防治具有较高指导意义只有幼虫高峰期的预报,而对于虫期监测而言,就目前技术来说,采用性诱或灯诱获取成虫始见期监测数据最易于实现,而且监测成本低,可靠性高。 关键词:马尾松毛虫;精细化预报;回归;建模;试验 1. 数据来源 马尾松毛虫发生量、发生期数据来源于潜山县监测数据,气象数据来源于国家气候中心。 2. 数据预处理 为了体现马尾松毛虫发生发展时间上的完整性,在数据处理时,将越冬代数据与上一年第二代数据合并,这样,就在时间上保持了一个马尾松毛虫世代的完整性,更便于建模和预测。 经过 SPSS 初步相关性分析,第一代发生量选择相关性绝对值较高的 第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积,第 1 、 2 龄降雨量; 第二代发生量选择 第 1 、 2 龄极低气温,上一代防治面积,卵期极低气温,上一代防治效果,第 1 、 2 龄降雨量,卵期降雨量; 第一代幼虫高峰期选择 成虫始见期,第 1 、 2 龄平均气温,第 1 、 2 龄积温,第 1 、 2 龄极低气温,卵期极低气温,卵期平均气温,卵期积温; 第二代幼虫高峰期发生期选择 成虫始见期 , 卵期平均气温,卵期积温 , 第 1 、 2 龄极低气温 , 第 1 、 2 龄平均气温,第 1 、 2 龄积温 , 卵期极低气温 。 3. 试验工具 IBM SPSS Statistics 22 , Microsoft Office Excel 2007 。 4. 第一代发生量回归建模试验 首先选择 第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积,第 1 、 2 龄降雨量进行线性回归,由于参加回归的变量过多,显著性达不到要求,回归建模试验失败。然后根据回归失败结果,排除相关性较低的变量,保留第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积 4 个变量,进行新的回归建模试验: GET FILE='F:\ 精细化课题 \2015 年度成果 \ 建模数据 \02 回归分析数据 \ 回归分析发生量数据第 1 代线性回归 4 元 .sav'. DATASET NAME 数据集 1 WINDOW=FRONT. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT 发生面积合计 /METHOD=ENTER 上一代防治面积 上一代防治效果 卵期极低气温 第 12 龄极低气温 /SCATTERPLOT=(*SDRESID ,*ZPRED) (*SRESID ,*ZPRED) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE MAHAL COOK LEVER MCIN ICIN SDBETA SDFIT. 实验结果如下: 从表 1 ~ 表 7 以及图 1 、图 2 来看,排除多余变量后的回归试验结果比较理想,显著性概率为 0.036 ,小于 0.05 ,拒绝回归系数都为 0 的原假设,回归模型为: 第一代发生面积 =18563.523-0.17 ×上一代发生面积+3223.329×上一代防治效果+305.634×卵期极低气温-1197.311×第1、2龄极低气温 5. 第二代发生量回归建模试验 采取同样的方法,分别选择 第 1 、 2 龄极低气温,上一代防治面积,卵期极低气温,上一代防治效果 对第二代马尾松毛虫发生量进行 SSPS 回归建模试验,和选择 第 1 、 2 龄极低气温,上一代防治面积 进行 SSPS 回归建模试验, 显著性均达不到要求,回归试验失败。由于算法上的差异,随后改用 EXCSL 对第 1 、 2 龄极低气温,上一代防治面积进行回归建模试验,试验结果接近显著性要求。结果如下: 从试验结果看,显著性概率为 0.05314 ,非常接近于 0.05 ,试验模型接近试验要求,回归模型为: 第二代发生面积 = -33943.89+1.3337872× 上一代防治面积 +1958.0085× 第 1 、 2 龄极低气温 6. 第一代发生期回归建模试验 首先选择 成虫始见期,第 1 、 2 龄平均气温,第 1 、 2 龄积温,第 1 、 2 龄极低气温,卵期极低气温,卵期平均气温,卵期积温,对第一代幼虫高峰期进行线性回归,由于参加回归的变量过多,显著性达不到要求,回归试验失败。然后根据回归失败结果,排除相关性较低的变量,保留成虫始见期,第 1 、 2 龄积温,第 1 、 2 龄平均气温 3 个相关性较高的变量,进行新的回归建模试验: GET FILE='F:\ 精细化课题 \2015 年度成果 \ 建模数据 \02 回归分析数据 \ 回归分析发生期数据第 1 代 .sav'. DATASET NAME 数据集 1 WINDOW=FRONT. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT 幼虫高峰期 /METHOD=ENTER 成虫始见期 第 12 龄平均气温 第 12 龄积温日度 /SCATTERPLOT=(*SDRESID ,*ZPRED) (*ZRESID ,*ZPRED) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE MAHAL COOK LEVER MCIN ICIN SDBETA SDFIT. 试验结果为: 从表 12 ~ 表 19 以及图 3 、图 4 来看,排除多余变量后的回归试验结果比较理想,显著性概率为 0.000 ,远远小于 0.05 ,拒绝回归系数都为 0 的原假设,同时在回归过程中还排除了变量 第 1 、 2 龄平均气温, 回归模型为: 第一代幼虫高峰期(日历天) =34.055+0.585 ×上一代 成虫始见期 +0.002 ×第1、2龄幼虫期积温(日度) 7. 第二代发生期回归建模试验 采用同样方法,对第二代幼虫高峰期进行回归建模试验。首先选择 成虫始见期 , 卵期平均气温,卵期积温 , 第 1 、 2 龄极低气温 , 第 1 、 2 龄平均气温,第 1 、 2 龄积温 , 卵期极低气温,进行试验 。 由于参加回归的变量过多,显著性达不到要求,回归试验失败。然后根据回归失败结果,排除相关性较低的变量,保留成虫始见期,卵期积温,卵期平均气温 3 个相关性较高的变量,进行新的回归建模试验: GET FILE='F:\ 精细化课题 \2015 年度成果 \ 建模数据 \02 回归分析数据 \ 回归分析发生期数据第 2 代 .sav'. DATASET NAME 数据集 1 WINDOW=FRONT. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT 幼虫高峰期 /METHOD=ENTER 成虫始见期 卵期积温日度 卵期平均气温 /SCATTERPLOT=(*SDRESID ,*ZPRED) (*ZRESID ,*ZPRED) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE MAHAL COOK LEVER MCIN ICIN DFBETA DFFIT. 试验结果为: 从表 20 ~ 表 26 以及图 5 、图 6 来看,排除多余变量后的回归试验结果比较理想,显著性概率为 0.000 ,远远小于 0.05 ,拒绝回归系数都为 0 的原假设,同时在回归过程中还排除了变量 卵期积温, 回归模型为: 第二代幼虫高峰期(日历天) =219.323+0.280 ×上一代 成虫始见期 -0.150 ×卵期平均气温 8. 讨论 对于发生期精细化预报而言,如果采用传统的形态结构预示法、发育进度法(包括历期法、分龄分级法、期距法)、有效积温法、物候法等,要么外业工作量大,要么精度达不到精细化预报要求,使得这些方法都不符合精细化预报的“精”、“细”、“简”的基本要求,这就需要探索新的预报算法,以满足精细化预报的要求。 此外,上述回归分析还表明了马尾松毛虫发生机制与环境的复杂性,仅仅就发生量与幼虫高峰期而言,不同世代的回归试验结果大不相同,正因为其复杂性,还导致了在本次回归建模试验中部分多元线性回归的失败,以及曲线回归、非线性回归、 Logistics 回归等回归建模试验的失败。 因此,笔者认为: ( 1 )鉴于当前我国林业有害生物监测数据是基于县级的,对于有害生物精细化预报算法而言,应该按照不同县或不同自然区域,采用多种建模算法进行试验比较,选择适合于本区域的精细化预报模型。 ( 2 )精细化预报建模,除了“精”、“细”之外,还要注重“简”。再精准的预报模型,工作量大,操作复杂,在生产实践中也是无法推广应用的。就马尾松毛虫发生期预报而言, 对 防治具有较高指导意义只有幼虫高峰期的预报,而对于虫期监测而言,就目前技术来说,采用性诱或灯诱获取成虫始见期监测数据最易于实现,而且监测成本低,可靠性高,本次试验,也证明了利用成虫始见期开展马尾松毛虫发生期预报的可行性。 参考文献: 张国庆, 基于生态论的生物灾害精细化预报理论研究 ,现代农业科技, 2014 ,( 19 ): 146 ~ 150 张国庆, 基于 TSE 分析理论的林业生物灾害精细化预报技术研究 ,现代农业科技, 2014 ,( 19 ): 153 ~ 155 张国庆, 基于系统关键因子分析理论的林业有害生物防治关键期分析技术研究 ,现代农业科技, 2014 ,( 19 ): 199 ~ 201 张国庆, 基于系统健康管理理论的林业生物灾害精细化预报管理研究 ,现代农业科技, 2014 ,( 19 ): 197 ~ 198 张国庆,森林健康与林业有害生物管理 ,四川林业科技, 2008 , 29 ( 6 ): 77~80 基金项目:林业公益性行业科研项目“全国林业生物灾害精细化预报及管理基础应用研究”( 201404410 )
个人分类: 生物灾害学|893 次阅读|0 个评论
[挖坑]回归分析的结果可以外推吗?有何前提条件?
zhangdong 2015-6-6 09:27
如题。纯坑。 如果不能,那跟相关分析、方差分析之类有何本质上的差别吗?
2838 次阅读|0 个评论
[转载]回归
itso310 2015-3-9 19:23
引自: http://www.cnblogs.com/fanyabo/p/4060498.html 一、引言    本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu,以及斯坦福无监督学习UFLDL tutorial http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial   机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t。比如下面这个例子:假设我们有一个包含47个房子的面积和价格的数据集如下:   我们可以在Matlab中画出来这组数据集,如下:   看到画出来的点,是不是有点像一条直线?我们可以用一条曲线去尽量拟合这些数据点,那么对于新来的输入,我么就可以将拟合的曲线上返回对应的点从而达到预测的目的。如果要预测的值是连续的比如上述的房价,那么就属于回归问题;如果要预测的值是离散的即一个个标签,那么就属于分类问题。这个学习处理过程如下图所示:   上述学习过程中的常用术语:包含房子面积和价格的数据集称为 训练集training set; 输入变量x(本例中为面积)为 特征features; 输出的预测值y(本例中为房价)为 目标值target; 拟合的曲线,一般表示为y = h(x),称为 假设模型hypothesis; 训练集的条目数称为 特征的维数 ,本例为47。 二、线性回归模型   线性回归模型假设输入特征和对应的结果满足线性关系。在上述的数据集中加上一维--房间数量,于是数据集变为:   于是,输入特征x是二维的矢量,比如x 1 (i) 表示数据集中第i个房子的面积,x 2 (i) 表示数据集中第i个房子的房间数量。于是可以假设输入特征x与房价y满足线性函数,比如: 这里θ i 称为假设模型即映射输入特征x与结果y的线性函数h的 参数parameters ,为了简化表示,我们在输入特征中加入x 0 = 1,于是得到: 参数θ和输入特征x都为矢量,n是输入的特征x的个数(不包含x 0 )。   现在,给定一个训练集,我们应该怎么学习参数θ,从而达到比较好的拟合效果呢?一个直观的想法是使得预测值h(x)尽可能接近y,为了达到这个目的,我们对于每一个参数θ,定义一个 代价函数cost function 用来描述h(x (i) )'与对应的y (i) '的接近程度: 前面乘上的1/2是为了求导的时候,使常数系数消失。于是我们的目标就变为了调整θ使得代价函数J(θ)取得最小值,方法有梯度下降法,最小二乘法等。    2.1 梯度下降法   现在我们要调整θ使得J(θ)取得最小值,为了达到这个目的,我们可以对θ取一个随机初始值(随机初始化的目的是使对称失效),然后不断地迭代改变θ的值来使J(θ)减小,知道最终收敛取得一个θ值使得J(θ)最小。梯度下降法就采用这样的思想:对θ设定一个随机初值θ 0, 然后迭代进行以下更新 直到收敛。这里的α称为 学习率learning rate。    梯度方向由J(θ)对θ 的偏导数决定,由于要求的是最小值,因此对偏导数取负值得到梯度方向。将J(θ)代入得到总的更新公式 这样的更新规则称为LMS update rule(least mean squares),也称为Widrow-Hoff learning rule。   对于如下更新参数的算法: 由于在每一次迭代都考察训练集的所有样本,而称为批量梯度下降batch gradient descent。对于引言中的房价数据集,运行这种算法,可以得到θ 0 = 71.27, θ 1 = 1.1345,拟合曲线如下图:   如果参数更新计算算法如下: 这里我们按照单个训练样本更新θ的值,称为随机梯度下降stochastic gradient descent。比较这两种梯度下降算法,由于batch gradient descent在每一步都考虑全部数据集,因而复杂度比较高,随机梯度下降会比较快地收敛,而且在实际情况中两种梯度下降得到的最优解J(θ)一般会接近真实的最小值。所以对于较大的数据集,一般采用效率较高的随机梯度下降法。    2.2 最小二乘法   梯度下降算法给出了一种计算θ的方法,但是需要迭代的过程,比较费时而且不太直观。下面介绍的最小二乘法是一种直观的直接利用矩阵运算可以得到θ值的算法。为了理解最小二乘法,首先回顾一下矩阵的有关运算:   假设函数f是将m*n维矩阵映射为一个实数的运算,即 ,并且定义对于矩阵A,映射f(A)对A的梯度为: 因此该梯度为m*n的矩阵。例如对于矩阵A= ,而且映射函数f(A)定义为:F(A) = 1.5A 11 + 5A 12 2 + A 21 A 22 ,于是梯度为: 。   另外,对于矩阵的迹的梯度运算,有如下规则: 。   下面,我们将测试集中的输入特征x和对应的结果y表示成矩阵或者向量的形式,有: , , 对于预测模型有 ,即 ,于是可以很容易得到: , 所以可以得到 。   于是,我们就将代价函数J(θ)表示为了矩阵的形式,就可以用上述提到的矩阵运算来得到梯度: , 令上述梯度为0,得到等式: ,于是得到θ的值: 。这就是最小二乘法得到的假设模型中参数的值。    2.3 加权线性回归   首先考虑下图中的几种曲线拟合情况: 最左边的图使用线性拟合 ,但是可以看到数据点并不完全在一条直线上,因而拟合的效果并不好。如果我们加入x 2 项,得到 ,如中间图所示,该二次曲线可以更好的拟合数据点。我们继续加入更高次项,可以得到最右边图所示的拟合曲线,可以完美地拟合数据点,最右边的图中曲线为5阶多项式,可是我们都很清醒地知道这个曲线过于完美了,对于新来的数据可能预测效果并不会那么好。对于最左边的曲线,我们称之为欠拟合--过小的特征集合使得模型过于简单不能很好地表达数据的结构,最右边的曲线我们称之为过拟合--过大的特征集合使得模型过于复杂。   正如上述例子表明,在学习过程中,特征的选择对于最终学习到的模型的性能有很大影响,于是选择用哪个特征,每个特征的重要性如何就产生了加权的线性回归。在传统的线性回归中,学习过程如下: , 而加权线性回归学习过程如下: 。   二者的区别就在于对不同的输入特征赋予了不同的非负值权重,权重越大,对于代价函数的影响越大。一般选取的权重计算公式为: , 其中,x是要预测的特征,表示离x越近的样本权重越大,越远的影响越小。 三、logistic回归与Softmax回归   3.1 logistic回归    下面介绍一下logistic回归,虽然名曰回归,但实际上logistic回归用于分类问题。logistic回归实质上还是线性回归模型,只是在回归的连续值结果上加了一层函数映射,将特征线性求和,然后使用g(z)作映射,将连续值映射到离散值0/1上(对于sigmoid函数,而对于双曲正弦tanh函数为1/-1两类)。采用假设模型为: , 而sigmoid函数g(z)为:    当z趋近于-∞,g(z)趋近于0,而z趋近于∞,g(z)趋近于1,从而达到分类的目的。这里的   那么对于这样的logistic模型,怎么调整参数θ呢?我们假设 ,由于是两类问题,即 ,于是得到似然估计为: 对似然估计取对数可以更容易地求解: 。 接下来是θ的似然估计最大化,可以考虑上述的梯度下降法,于是得到: 得到类似的更新公式: 。虽然这个更新规则类似于LMS得到的公式,但是这两种是不同算法,因为这里的h θ (x (i) )是一个关于θ T x (i) 的非线性函数。    3.2 Softmax回归   logistic回归是两类回归问题的算法,如果目标结果是多个离散值怎么办?Softmax回归模型就是解决这个问题的,Softmax回归模型是logistic模型在多分类问题上的推广。在Softmax回归中,类标签y可以去k个不同的值(k2)。因此对于y (i) 从属于{1,2,3···k}。   对于给定的测试输入x,我们要利用假设模型针对每一个类别j估算概率值p(y = j|x)。于是假设函数h θ (x (i) )形式为: 其中θ1,θ2,θ3,···,θk属于模型的参数,等式右边的系数是对概率分布进行归一化,使得总概率之和为1。于是类似于logistic回归,推广得到新的代价函数为: 可以看到Softmax代价函数与logistic代价函数形式上非常相似,只是Softmax函数将k个可能的类别进行了累加,在Softmax中将x分为类别j的概率为: 于是对于Softmax的代价函数,利用梯度下降法使的J(θ)最小,梯度公式如下: 表示J(θ)对第j个元素θj的偏导数,每一次迭代进行更新: 。    3.3 Softmax回归 vs logistic回归   特别地,当Softmax回归中k = 2时,Softmax就退化为logistic回归。当k = 2时,Softmax回归的假设模型为: 我们令ψ = θ1,并且两个参数都剪去θ1,得到: 于是Softmax回归预测得到两个类别的概率形式与logistic回归一致。   现在,如果有一个k类分类的任务,我们可以选择Softmax回归,也可以选择k个独立的logistic回归分类器,应该如何选择呢?   这一选择取决于这k个类别是否互斥,例如,如果有四个类别的电影,分别为:好莱坞电影、港台电影、日韩电影、大陆电影,需要对每一个训练的电影样本打上一个标签,那么此时应选择k = 4的Softmax回归。然而,如果四个电影类别如下:动作、喜剧、爱情、欧美,这些类别并不是互斥的,于是这种情况下使用4个logistic回归分类器比较合理。 四、一般线性回归模型   首先定义一个通用的指数概率分布: 考虑伯努利分布,有:    再考虑高斯分布:    一般线性模型满足:1. y|x;θ 满足指数分布族E(η)  2. 给定特征x,预测结果为T(y) = E   3. 参数η = θ T x 。   对于第二部分的线性模型,我们假设结果y满足高斯分布Ν(μ,σ 2 ),于是期望μ = η,所以: 很显然,从一般线性模型的角度得到了第二部分的假设模型。   对于logistic模型,由于假设结果分为两类,很自然地想到伯努利分布,并且可以得到 ,于是 y|x;θ 满足B(Φ),E = Φ,所以 于是得到了与logistic假设模型的公式,这也解释了logistic回归为何使用这个函数。
个人分类: 数据挖掘|1528 次阅读|0 个评论
回到圈子来
leeyea 2015-1-29 13:05
工作两年多,很少上科学网了。做的事情事务性更强,和在学校里那种“研究”的风格差异较大,以至于自己都感觉脱离了学术圈子,掉队了。 但实际上,这两年的工作基础性更强,用官方说法就是更“接地气”——研究交通事故勘查、处理、分析、鉴定和预防,虽然不再是读书时的仿真+实验,但经验的确增加许多,更重要的是,为后续进一步开展人、车、路相关的研究设立了靶子,发现了一些问题,可以说,在这基础上的研究意义和目的性会更好一些。 2015年,无论是重拾科研的习惯,还是职称评审的需要,都要求自己在研究上有所突破。尽管现在已经承担了国家科技计划的子题,但探索性的、基于现有工作之上的、结合博士研究基础的科研工作力求取得好结果。 当前任务:国基申报,加快节奏,加强凝练。
个人分类: 个人随笔|2501 次阅读|0 个评论
纯粹的我
热度 1 yaojunwei 2014-3-1 00:01
今天下了2014年第一场纯粹的雨, 不加带丝毫的雪花。 我喜欢这个纯粹 喜欢这个单纯 也喜欢这个纯净。 每次下雨心中总是有一种莫名其妙的恬静, 仿佛从喧嚣的闹市回归幽远的山林, 越发的感受到“淡泊以明志、宁静以致远”。 雨水对于天地是一种洗礼, 对我的心灵又是一种净化。 我在这反反复复的净化中不断使自己的内心得到升华。 想一想 人生有多少的纯粹? 我从啼哭中降生, 从纯粹的肉体和思想中萌芽, 纯粹的赤裸裸的抵达这个世间。 不知道我的这一降临对于世界是个什么概念, 但是可以肯定对于我的父母,对于我的姐姐, 更或者对于我自身却是一种百分之百的恩赐。 降生的一刻, 我同芸芸众生一般无二。 时至今日 我一如众生相似。 每当夜深人静的时候, 每当灯红酒绿的时候, 每当阴雨绵绵的时候, 每当我一次次挑战自我的时候, 每当我一次次超越自我的时候, 每当我一次次别人感觉应该骄傲的时候。。。。。。 纯粹 总是浮现在我的脑海中 不能拭去 我越发感觉我的良知在告诉我 做人就做个纯粹的人 不为世俗所同化 不为言论所动摇 不为虚荣所腐蚀 不为功利所蒙蔽 我想世人更尤我之思辨 世人也皆知世事变幻、人心叵测 纯粹的精神 纯粹的思想 纯粹的为人 纯粹的爱情 纯粹的人生 纯粹的世界。。。。。 这便是我纯粹的向往 我一直在孜孜不倦的追求 纵使只有我一个人 空留着西风的呜咽 我义无反顾 因为这便是纯粹的我 真实的自我 只是 我愿 这个纷繁的世间行走 不失纯粹的我 否则 生有何欢?
个人分类: 眠云居|2456 次阅读|1 个评论
用随机森林模型替代常用的回归和分类模型
热度 6 lixinhai 2013-9-27 16:57
随机森林模型有着惊人的准确性,可以替代一般线性模型(线性回归、方差分析等)和广义线性模型(逻辑斯蒂回归、泊松回归等)等等。 我2012年在人民大学组织的R语言会议上介绍了随机森林的用法(报告文件在 http://cos.name/wp-content/uploads/2012/05/17-lixinhai-random-forest.pdf )。以后不时有人给我写信交流模型使用心得,索要数据和代码。我感觉当时的介绍不太充分。正巧《应用昆虫学报》的主编戈峰老师邀我写一篇统计方法的稿件,我便把随机森林的基本原理和应用案例重新细化,形成一篇文章( http://www.ent-bull.com.cn/viewmulu.aspx?qi_id=1031mid=31191xuhao=42 )。文章的R语言代码显示效果不好(没有颜色,断行多),我便把文章和代码放到这个博客上。 文章正文(引用: 李欣海 . 2013. 随机森林模型在分类与回归分析中的应用 . 应用昆虫学报 , 50 , 1190-1197 ) 前言 随机森林( Random Forest )是一种基于分类树( classification tree )的算法( Breiman , 2001 )。这个算法需要模拟和迭代,被归类为机器学习中的一种方法。经典的机器学习模型是神经网络( Hopfield , 1982 ),有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代 Breiman 等人发明了分类和回归树( Classification and Regression Tree 简称 CART )的算法( Breiman et al . , 1984 ),通过反复二分数据进行分类或回归,计算量大大降低。 2001 年 Breiman 和 Cutler 借鉴贝尔实验室的 Ho 所提出的随机决策森林( random decision forests )( Ho , 1995 , 1998 )的方法,把分类树组合成随机森林( Breiman , 2001 ),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。后来 Breiman 在机器学习杂志上发表了他和 Cutler 设计的随机森林的算法( Breiman , 2001 )。这篇文章被大量引用(根据 Google Scholar ,该文章至 2013 年被引用 9000 多次),成为机器学习领域的一个里程碑。 随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用( Breiman , 2001 ),被誉为当前最好的算法之一( Iverson et al . , 2008 )。在机器学习的诸多算法中,随机森林因高效而准确而备受关注,在各行各业得到越来越多的应用( e.g Cutler et al. , 2007 ; Genuer et al . , 2010 )。 随机森林的算法最初以 FORTRUN 语言编码( Liaw , 2012 )。现在可以通过 R 语言或 SAS 等工具实现。 R 语言是一种用于统计分析和绘图的语言和操作环境( R Development Core Team , 2013 )。它是自由、免费、源代码开放的软件,近年来已经成为国际学术领域应用最广的统计工具。在国内, R 语言也在迅速普及。本文基于 R 语言介绍随机森林的应用。 R 语言中有两个软件包可以运行随机森林,分别是 randomForest ( Liaw , 2012 )和 party 。本文介绍 randomForest 的用法。 本文面向没有或只有初步 R 语言基础的生态学工作者,以三个案例,通过运行案例中给出的 R 语言代码,读者可以运行随机森林的算法,进行分类或回归分析,得到变量的重要性、模型的误差等指标,并可以进行预测。 Breiman 发表随机森林后,有若干文章深入探讨其算法( Biau , 2012 ),变量的比较( Archer and Kirnes , 2008 ; Groemping , 2009 )和变量间的交互作用( Winham et al . , 2012 )等。本文旨在介绍随机森林的应用方法,不涉及其本身的算法,也不涉及同其他平行方法的比较。 1 随机森林的原理 同其他模型一样,随机森林可以解释若干自变量( X1 、 X2 、 ... 、 Xk )对因变量 Y 的作用。如果因变量 Y 有 n 个观测值,有 k 个自变量与之相关;在构建分类树的时候,随机森林会随机地在原数据中重新选择 n 个观测值,其中有的观测值被选择多次,有的没有被选到,这是 Bootstrap 重新抽样的方法。同时,随机森林随机地从 k 个自变量选择部分变量进行分类树节点的确定。这样,每次构建的分类树都可能不一样。一般情况下,随机森林随机地生成几百个至几千个分类树,然后选择重复程度最高的树作为最终结果( Breiman , 2001 )。 2 随机森林的应用 随机森林可以用于分类和回归。当因变量 Y 是分类变量时,是分类;当因变量 Y 是连续变量时,是回归。自变量 X 可以是多个连续变量和多个分类变量的混合。在下面 3 个案例中,判别分析和对有无数据的分析是分类问题,对连续变量 Y 的解释是回归问题。 2.1 在判别分析中的应用 判别分析( discriminant analysis )是在因变量 Y 的几个分类水平明确的条件下,根据若干自变量判别每个观测值的类型归属问题的一种多变量统计分析方法。判别与分类在统计学概念上有所交叉,在本文中不强调两者的区别。案例 1 中有 3 种昆虫( A 、 B 和 C )形态接近,不过可以通过 4 个长度指标( L1 、 L2 、 L3 和 L4 )进行种类的识别。具体数据如表 1 。 表 1 3 种昆虫及其用于分类的 4 个量度指标 Table 1 The four length indices for classifying threeinsect species 物种 Species 量度 ( Length ) L1 L2 L3 L4 A 16 27 31 33 A 15 23 30 30 A 16 27 27 26 A 18 20 25 23 A 15 15 31 32 A 15 32 32 15 A 12 15 16 31 B 8 23 23 11 B 7 24 25 12 B 6 25 23 10 B 8 45 24 15 B 9 28 15 12 B 5 32 31 11 C 22 23 12 42 C 25 25 14 60 C 34 25 16 52 C 30 23 21 54 C 25 20 11 55 C 30 23 21 54 C 25 20 11 55 通过运行下列 R 语言代码,可以得到随机森林的结果 RF1 。 R 语言中的“ # ”表示注释,其后面的语句不被执行。当随机森林用于分类时,其结果 RF1 包含混淆矩阵( confusionmatrix )(表 2 ),显示判别分析的错误率。 install.packages(randomForest) # 安装随机森林程序包(每台计算机只需安装一次) library(randomForest) # 调用随机森林程序包(每次运行都要调用) insect - read.csv(d:/data/insects.csv, header = TRUE) # 从硬盘读入数据到对象 insect RF1 - randomForest(insect , insect , importance=TRUE, ntree=10000) # 运行随机森林模型 RF1 # 显示模型结果,包括误差率和混淆矩阵(表 2 ) 其中 insect 是一个包含 5 个变量 20 个记录的数据表。 insect 表示昆虫的量度,是一个 4 乘以 20 的矩阵; insect 表示昆虫的物种类别,是 20 个物种名组成的一个向量。表 2 显示模型对 A 的判别错误率为 28.6% ,对 B 和 C 的判别错误率为 0 。 表 2 随机森林(用于分类时)的混淆矩阵显示昆虫分类误差 Table2 Random Forest outputs a confusion matrix showing the classification error ​ A B C 分类误差 Class error A 5 2 0 0.286 B 0 6 0 0 C 0 0 7 0 注:每行表示实际的类别,每列表示随机森林判定的类别。 The row indicates real classification;the column indicates predicted classification. 随机森林的结果内含判别函数,可以用下列代码根据新的量度判断昆虫的物种类别。 new.data - data.frame(L1=20, L2=50, L3=30, L4=20) # 一个新的昆虫的量度 predict(RF1, new.data, type=prob) # 判别该量度的昆虫归类为 A 、 B 和 C 的概率 predict(RF1, new.data, type=response) # 判别该量度的昆虫的类别 在该案例中,该量度判别为 A 、 B 和 C 的概率分别为 82.4% 、 9.4% 和 8.2% 。随机森林将其判别为 A 。 2.2 对有无数据的分析 对于有或无、生或死、发生或不发生等二分变量的分析,一般用逻辑斯蒂回归( logistic regression )的方法。逻辑斯蒂回归实质上是对因变量 Y 作两个分类水平的判别。逻辑斯蒂回归对自变量的多元共线性非常敏感,要求自变量之间相互独立。随机森林则完全不需要这个前提条件。 Breiman 在 2001 年发表了具有革命意义的文章,批判了当前主流的统计学方法,指出经典模型如逻辑斯蒂回归经常给出不可靠的结论,而随机森林准确而可靠。 案例 2 以朱鹮为例,说明该方法的具体应用。朱鹮的巢址选择受环境变量的影响( Li et al. , 2006 , 2009 ; 翟天庆和李欣海, 2012 )。假设朱鹮选择一个地方营巢的概率取决于下列自变量:土地利用类型(森林、草地、灌丛或农田等)、海拔、坡度、温度、降水、人类干扰指数等。该问题的因变量为朱鹮 1981 年至 2008 年间的 532 个巢( Y=1 ),以及在朱鹮巢区的系统选择的(等间距) 2538 个点( Y=0 )(图 3A );自变量为这 3070 个地点对应的 8 个环境变量。应用随机森林对朱鹮巢址选择进行分析的 R 语言代码如下: ibis - read.csv('d:/data/ibis.csv', header = TRUE) # 从硬盘读入数据 ibis$use - as.factor(ibis$use) # 定义巢址选择与否( 0 或 1 )为分类变量。这是因变量 Y 。 ibis$landcover - as.factor(ibis$landcover) # 定义土地利用类型为分类变量 RF2 - randomForest(ibis , ibis , importance=TRUE, ntree=1000) # 运行随机森林 varImpPlot(RF2) # 图示自变量对的巢址选择的重要性 图 1 随机森林对影响朱鹮巢址选择的自变量的重要性进行排序 * Fig. 1 Ranking variable importance thatassociated with nest site selection of the crested ibis by Random Forest*. *MeanDecreaseAccuracy 衡量把一个变量的取值变为随机数,随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大 。 MeanDecreaseGini 通过基尼( Gini )指数计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性。该值越大表示该变量的重要性越大。 prec_ann 是年总降水量; t_ann 是年平均温度; elevation 是海拔; GDP 是国内生产总值; landcover 是土地利用类型; slope 是坡度; pop 是人口密度; footprint 是人类干扰指数。 从图 1 可以看到不同指标指示的变量重要性会略有差距,但是差距不会很大。 随机森林可以给出每个自变量对因变量的作用。下列 R 代码给出海拔对巢址选择的影响,结果在图 2 中,表示中等程度的海拔最适宜营巢。 partialPlot(RF2, ibis, elevation, 0, main='' , xlab='Elevation (m)', ylab=Variable effect) 图 2 随机森林算出的海拔对朱鹮巢址选择的影响 Fig. 2 Partial effect of elevation onnest site selection of the crested ibis. 随机森林可以通过下列代码预测任何地点朱鹮营巢的概率(图 3 ) pred - predict(RF2, ibis, type=prob)# 计算原数据 ibis 中 3070 个地点被朱鹮选择营巢的概率 # 绘制图 3A plot(ibis$x, ibis$y, type = n, xlab = ' 经度 Longitude', ylab = ' 纬度 Latitude') # 绘制坐标轴 for (i in 1:length(ibis$x)){ # 循环语句,从 1 到 3070 if(ibis$use !=1) points(ibis$x , ibis$y , col =grey80, cex = .8, pch = 19) # 非营巢点为灰色 if(ibis$use ==1) points(ibis$x , ibis$y , col = black, cex = .8, pch = 19) # 营巢点为黑色 } # 绘制图 3B ,颜色深的营巢概率高 plot(ibis$x, ibis$y, type = n, xlab = ' 经度 Longitude', ylab = ' 纬度 Latitude') # 绘制坐标轴 for (iin 1:length(ibis$x)){ # 循环语句,从 1 到 3070 图 3 A 朱鹮的巢址(黑色)和对照点(灰色); B 随机森林算出的每个点朱鹮选择营巢的概率(深色概率高) Fig.3 A. the nest site ofthe crested ibis (black dots) and the pseudo-absence points (grey dots); B. theprobability of nest site selection of the crested ibis calculated by RandomForest (dark color means higher probability) 2.3 回归分析 当因变量 Y 为连续变量时,随机森林通过一组自变量 X 对 Y 进行解释,类似经典的回归分析。 案例 3 依旧以朱鹮为例,介绍随机森林在回归分析上的应用。朱鹮是依赖湿地的鸟类,其生境可以分为一个个相邻的集水区。每个集水区内朱鹮的巢数同集水区的环境变量相关。用环境变量(包括连续变量和分类变量两个类型)解释集水区内朱鹮的巢数,可以被看作为一个回归的问题。下列代码读取数据并显示数据前 6 行: sheds - read.csv('d:/data/watersheds4.csv', header=T) # 读取数据 head(sheds) # 显示数据 sheds 的前 6 行,如表 3 所示。 NA 表示缺失值。 表 3 朱鹮栖息地每个集水区内朱鹮的巢数以及环境变量 Table 3 The number of nests andenvironmental variables for every watershed in the habitat of the crested ibis Nests Elevation Footprint Temperature Rice_paddy Water_body Wetland Elev_SD 1 597.83 44.54 14.02 0.14 0.52 0.07 197.54 0 588.74 32.41 14.09 0.15 0.08 0.01 148.32 0 513.84 NA 14.66 0 0.16 0 28.84 5 609.33 30.2 14.29 1.17 1.03 1.21 184.58 0 NA 35.88 13.32 0.18 0.17 0.03 NA 2 651.08 47.62 14.41 1.11 0.34 0.38 121.37 对于缺失数据, R 语言的 randomForest 软件包通过 na.roughfix 函数用中位数(对于连续变量)或众数(对于分类变量)来进行替换。 Dat.fill - na.roughfix(sheds) # 用中位数或众数替代缺失值 RF3 -randomForest(Nests ~ Elevation + Footprint + Temperature + Rice_paddy +Water_body + Wetland + Elev_SD, data=Dat.fill, ntree=5000, importance=TRUE,na.action=na.roughfix, mtry=3) # 运行随机森林 RF3 # 模型结果,显示残差的平方,以及解释变异(环境变量 X 对巢数 Y 的解释)的百分率 mtry 指定分类树每个节点用来二分数据的自变量的个数。如果 mtry 没有被指定,随机森林用缺省值。对于分类(判别)分析( Y 是分类变量),缺省值是自变量总数的平方根;如果是回归分析( Y 是连续变量),缺省值是自变量总数的 1/3 。 3 讨论 本文以三个案例介绍了随机森林的具体应用。随机森林结构比较复杂,但是它却极端易用,需要的假设条件(如变量的独立性、正态性等)比逻辑斯蒂回归等模型要少得多。它也不需要检查变量的交互作用和非线性作用是否显著。在大多数情况下模型参数的缺省设置可以给出最优或接近最优的结果。使用者可以调节 mtry 的取值来检查模型的缺省值受否给出误差最小的结果。使用者也可以指定所用的分类树的数量。在计算负荷可以接受的情况下分类树的数量越大越好。图 4 可以帮助使用者判断最小的分类树的数量,以便节省计算时间。 目前,人们已经对多种机器学习的模型进行了比较( e.g. Li and Wang , 2013 ; Kampichler et al . , 2010 ),随机森林经常独占鳌头( Kampichler et al . , 2010 ; Li et al . , 2012 )。随机森林通过产生大量的分类树,建立若干自 变量 X 和一个因变量 Y 的关系。随机森林的优点是:它的学习过程很快。在处理很大的数据时,它依旧非常高效。随机森林可以处理大量的多达几千个的自变量( Breiman , 2001 )。现有的随机森林算法评估所有变量的重要性,而不需要顾虑一般回归问题面临的多元共线性的问题。它包含估计缺失值的算法,如果有一部分的资料遗失,仍可以维持一定的准确度。随机森林中分类树的算法自然地包括了变量的交互作用( interaction )( Cutler, et al . , 2007 ),即 X1 的变化导致 X2 对 Y 的作用发生改变。交互作用在其他模型中(如逻辑斯蒂回归)因其复杂性经常被忽略。随机森林对离群值不敏感,在随机干扰较多的情况下表现稳健。随机森林不易产生对数据的过度拟合( overfit )( Breiman , 2001 ),然而这点尚有争议( Elith and Graham , 2009 )。 随机森林通过袋外误差( out-of-bag error )估计模型的误差。对于分类问题,误差是分类的错误率;对于回归问题,误差是残差的方差。随机森林的每棵分类树,都是对原始记录进行有放回的重抽样后生成的。每次重抽样大约 1/3 的记录没有被抽取( Liaw , 2012 )。没有被抽取的自然形成一个对照数据集。所以随机森林不需要另外预留部分数据做交叉验证,其本身的算法类似交叉验证,而且袋外误差是对预测误差的无偏估计( Breiman , 2001 )。 随机森林的缺点是它的算法倾向于观测值较多的类别(如果昆虫 B 的记录较多,而且昆虫 A 、 B 和 C 间的差距不大,预测值会倾向于 B )。另外,随机森林中水平较多的分类属性的自变量(如土地利用类型 20 个类别)比水平较少的分类属性的自变量(气候区类型 10 个类别)对模型的影响大( Deng et al . , 2011 )。总之,随机森林功能强大而又简单易用,相信它会对各行各业的数据分析产生积极的推动作用。 参考文献 Breiman L. 2001. Random forests. Machine Learning, 45, 5-32 Hopfield JJ. 1982. Neural networks and physical systems withemergent collective computational abilities. Proceedings of the NationalAcademy of Sciences of the United States of America-Biological Sciences, 79,2554-2558 Breiman L, Friedman JH, Olshen RA, Stone CJ. 1984. Classificationand Regression Trees. Chapman and Hall. Ho TK. 1995. Random Decision Forest. in Proceedings of the 3rdInternational Conference on Document Analysis and Recognition. 278-282. Ho TK. 1998. The random subspace method for constructing decisionforests. in IEEE Transactions on Pattern Analysis and Machine Intelligence.832-844. Breiman L. 2001. Statistical modeling: The two cultures.Statistical Science, 16, 199-215 Iverson LR, Prasad AM, Matthews SN, Peters M. 2008. Estimatingpotential habitat for 134 eastern US tree species under six climate scenarios.Forest Ecology and Management, 254, 390-406 Cutler DR, Edwards TC, Jr., Beard KH, Cutler A, Hess KT. 2007.Random forests for classification in ecology. Ecology, 88, 2783-2792 Genuer R, Poggi JM, Tuleau-Malot C. 2010. Variable selection usingrandom forests. Pattern Recognition Letters, 31, 2225-2236 Liaw A.2012. Package randomForest. R Development Core Team. 2013. R: A Language and Environment forStatistical Computing. R Foundation for Statistical Computing. Biau G. 2012. Analysis of a random forests model. Journal ofMachine Learning Research, 13, 1063-1095 Archer KJ, Kirnes RV. 2008. Empirical characterization of randomforest variable importance measures. Computational Statistics DataAnalysis, 52, 2249-2260 Groemping U. 2009. Variable importance assessment in regression:linear regression versus random forest. American Statistician, 63, 308-319 Winham S, Wang X, de Andrade M, Freimuth R, Colby C, Huebner M, BiernackaJ. 2012. Interaction detection with random forests in high-dimensional data.Genetic Epidemiology, 36, 142-142 Hosmer Jr DW, Lemeshow S. 1989. Applied Logistic Regression. JohnWiley Sons. Li XH, Tian HD, Li DM. 2009. Why the crested ibis declined in themiddle twentieth century. Biodiversity and Conservation, 18, 2165-2172 Li XH, Li DM, Ma ZJ, Schneider DC. 2006. Nest site use by crestedibis: dependence of a multifactor model on spatial scale. Landscape Ecology,21, 1207-1216 Zhai TQ ( 翟天庆 ) , Li XH ( 李欣海 ). 2012. Climate change induced potential range shift of thecrested ibis based on ensemble models. Acta Ecologica Sinica ( 生态学报 ), 32, 2361-2370 (in Chinese) Li XH, Wang Y. 2013. Applying various algorithms for speciesdistribution modeling. Integrative Zoology, 8, 124-135 Kampichler C, Wieland R, Calmé S, Weissenberger H, Arriaga-WeissS. 2010. Classification in conservation biology: A comparison of five machine-learningmethods. Ecological Informatics, 5, 441-450 Li XH, Tian HD, Li RQ, Song ZM, Zhang FC, Xu M, Li DM. 2012.Vulnerability of 208 endemic or endangered species in China to the effects ofclimate change Regional Environmental Change, DOI: 10.1007/s10113-10012-10344-z Elith J, Graham CH. 2009. Do they? How do they? Why do theydiffer? On finding reasons for differing performances of species distributionmodels. Ecography, 32, 66-77 Deng H, Runger G, Tuv E. 2011. Bias of importance measures formulti-valued attributes and solutions. in Proceedings of the 21st InternationalConference on Artificial Neural Networks (ICANN).
91103 次阅读|10 个评论
机器学习 --- 1. 线性回归与分类, 解决与区别
热度 4 ppn029012 2013-5-10 01:26
机器学习可以解决很多问题,其中最为重要的两个是 回归与分类。 这两个问题怎么解决, 它们之间又有什么区别呢? 以下举几个简单的例子,以给大家一个概念 1. 线性回归 回归分析常用于分析两个变量X和Y 之间的关系。 比如 X=房子大小 和 Y=房价 之间的关系, X=(公园人流量,公园门票票价) 与 Y=(公园收入) 之间的关系等等。 那么你的数据点在图上可以这么看 现在你想找到 房子大小和房价的关系, 也就是一个函数f(x) = y. 能够很好的表示 这两个变量之间的关系。 于是你需要 大概评估 一下这个 房子大小和房价大概是一个什么关系. 是 线性 的关系吗? 还是 非线性 的关系? 当然在这个问题里面, 线性的关系更符合这两者的关系。于是我们 选择一个合适的 线性模型 , 最常用的是 f(x) = ax+b. 然后用这个线性的模型 去 匹配 这些数据点。 1.1 怎么匹配? 有了数据点 和 你臆想出来的线性模型,怎么进行匹配,也就是怎么用这根线 最好地 描述些数据点的关系? 需要最好地描述点, 我们又需要一个关于“好”的定义。你也可以想出很多关于 “好”的定义 。下面有两个, 这两个定义都是 将模型与数据点之间的距离差 之和做为 衡量匹配好坏的标准 。 误差越小, 匹配程度越大。 但是 总的来说, 我们想要找到的模型, 最后是想要使 f(x) 最大程度地 与y相似, 所以我们想要尽量地减少 f(x)与y之间的差值。 所以在这里 用第二个图的“好的定义” 来评估这根线的匹配程度是很合理的。于是我们有了 误差公式 !!!!! 这个公式,说的是,可以通过调整不同的a 和 b的值,就能使 误差不断变化,而当你找到这个公式的 最小值 时,你就能得到 最好的a,b . 而这对(a,b)就是能最好描述你数据关系的 模型参数 。 1.1.1 沿导数下降法(Gradient Descent) 怎么找 cost(a,b)的最小? cost(a,b) 的图像其实像一个碗 一样,有一个最低点。 找这个最低点的办法就是,先随便找一个点(e.g. a=3, b = 2), 然后 沿着这个碗下降的方向找,最后就能找到碗的最低点。 cost(a,b) 的形状 怎么找(某一点)碗下降的方向? ? 答案是,找那一点导数的反方向。拿参数a 举个例子, a与cost 关系如下图, 只要将任意一个a, 沿着使cost 导数的反方向 慢慢移动,那么 最终有一天a值就会到达使 cost 最小的那一点. 于是你可以不断地移动a,b, 向着最低点前进。 当然在进行移动的时候也需要考虑,每次移动的速度,也就是\Alpha的值,这个值也叫做 (学习率) . 学习率的 增大 可以加速参数逼近最优的情况, 但是如果在快要到达函数的底端的时候,需要减小学习率,以免出现cost 不断增大或者不停摆动的情况(如下图, J(a,b)就是cost(a,b) )。 所以说,当出现以上两种情况时候,我们应该果断 选取一个较小的学习率 , 以保证cost能减少到一个稳定的值(我们称为 收敛converge). 1.1.2 直接求解最小点方法 这时候,有的人会问,为什么要让a不停地往下跑呢? 而且还需要设定学习率, 多麻烦, 直接让找 导数为0点(最小极值), 不就可以了吗? 嗯。。。也可以...但是各有优缺, 具体方法和优劣分析可见 Rachel-Zhang 的博客: http://blog.csdn.net/abcjennifer/article/details/7700772 总结一下: 回归问题的解决方法是: 1. 假定一个模型 2. 定义什么叫做最好的匹配(构造误差函数) 3. 用这个模型去匹配 已有的数据点 (训练集) 需要进一步讨论的问题: 如果参数(a,b)更多了该怎么办? 如果最合适的匹配模型并不是线性的怎么办? --- 选用一个 非线性模型 比如 y = ax^2 + bx + c. 如果误差(cost)与a,b(模型参数)的关系不是像碗一样的, 而是凹凸不平的该怎么办? ------ 这时候你就得注意你得到的cost的最低点(局部的最低)可能因初始点的不同而不同。 而这些最低点你需要进行比较,以确定是不是全局的最低 2.分类(Logistic regression) 分类问题也是一类很常见的问题。 比如说,怎么判定一个人是高富帅还是吊丝? 假如我是中央电视台的记者,采访了N个人, 拿到了第一手资料。资料如下 我们想要根据一个人的口袋钱数量,来预测一个人是(富帅) 还是 (吊丝). 我们能不能用回归的方法做呢? 显然是可以的 , 我们只要找到一个模型,然后再进行匹配就可以了。 但是因为分类问题的y值常常是一些离散的数字,(比如, 富帅为1, 吊丝为0), 所以我们已经不能用一个 简单的线性函数 来拟合这些数据了。我们需要一个更逼真的模型。 于是我们引入了一个更适合处理分类问题的函数--- 一个 非线性函数 , 阶跃函数。 这个函数的形状更像我们分类问题的数据分布,所以,用他来拟合分类问题的数据将 更适合 ! 所以我们有了一个新的模型, 通过调整a,b 的值,可以让模型不断改变以匹配数据点。 为了匹配数据点,我们又需要一个衡量匹配程度的函数,就像 回归问题一样的cost 函数. 于是同理我们可以得到cost 于是我们急切地想要把它用我们之前的gradient descent 的方法求解出使cost 最小的两个a,b值。 但是很遗憾的是, 这个cost函数关于a,b,是非凸(non-convex)的。 就像下面那张图那样坑坑洼洼。。。 所以你 没有办法 通过以上两种方法(1.1.1和1.1.2)求出这个cost函数的 全局最小值 。 所以你需要构造一个更好的cost函数, 在可以 衡量拟合程度 的同时 又是 一个关于a,b 的凸函数 (像回归问题的cost一样,和一个碗一样,只有一个极小值). 这怎么构造啊.... 幸好我们还有各种伟大的数学家,他们夜以继日,终于赶制出了一个形状和碗一样(convex)的cost函数. (Maximum Likelihoods Estimation 更具体的介绍请看 http://www.holehouse.org/mlclass/06_Logistic_Regression.html ) 现在我们又可以用我们熟悉的 导数方向下降法(gradient descent) 移动a, b的值,使cost 降低到最小。 最后,分类的问题就这样被解决了。 当然,更复杂的问题可能有: 现在是分成两类,如果数据需要分成三类或者更多该怎么办? ---- 假如有A,B,C三类, 把其中A类做为1,BC做为0,然后做Logistic regression, 得到模型a, 同理将B类做为1,AC作为0,得到模型b, 再同理得到模型c. 最后测试的时候, 对任意一个数据点x, 我们能够得到x分别属于A,B,C三类的概率值 最后比较大小,哪个大,这个x就属于哪一类 具体可看, http://blog.csdn.net/abcjennifer/article/details/7716281 (七) 3.总结(两个问题的区别) 这篇文章大概的意图是能想让大家了解, 机器学习中最基本的两类问题,线性回归和分类。 能让大家有个清晰的思想,对于这两类问题都有以下几个步骤, 如何选取一个 合理的模型 (线性的,or 非线性的(e.g. 阶跃函数, 高斯函数)). 制造一个美好的 误差函数 (可以评估拟合程度,而且还是convex函数) 采取一切可能的 技术 (e.g. 导数下降法,解极值方程法) 求出最好的模型参数 谈谈回归和分类的区别: 总的来说两个问题本质上都是一致的,就是模型的拟合(匹配)。 但是分类问题的y值(也称为label), 更离散化一些. 而且, 同一个y值可能对应着一大批的x, 这些x是具有一定范围的。 所以分类问题更多的是 (一定区域的一些x) 对应 着 (一个y). 而回归问题的模型更倾向于 (很小区域内的x,或者一般是一个x) 对应着 (一个y). 在把一个问题建模的时候一定要考虑好需求,让你的模型更好的与现实问题相对应。
个人分类: 机器学习|17447 次阅读|14 个评论
琉球可议
热度 1 sstone2009 2013-5-8 12:34
网上发出一篇新文章,题为《钓岛归中国,琉球也可议》,早晨看到,为之一振! 琉球,日本称之为冲绳,1879年,日本政府以武力派往不设军队的琉球,吞并琉球王国,将它改名为冲绳县。在这之前,琉球国是中华清国的诸侯国,朝贡不断。1895年,《马关条约》签订,琉球清政府没有能力重提琉球,琉球与台湾、钓鱼岛等被日本夺走。但,1941年,中国政府对日宣战,废除《马关条约》;随后,二站结束,《开罗宣言》、《波茨坦公告》做出了对战败国日本的处置,其中即有台湾、钓岛等归中国,“历史上悬而未决的琉球问题也到了可以再议的时候”。 再议琉球,一个重要先决条件是中国的强大。清政府的积弱是失去琉球的关键因素,强大也成了解决的关键因素。今天的中国,该已经初步具备的再议的先决条件了。 再议琉球,我们还需要明确战略目标,最高应定为琉球回归;其次为帮助琉球独立,并与之建立伙伴关系;再次,先搁置争议,在后人具备足够智慧和能力时再解决之,但搁置的条件是彻底解决好钓岛诸事。 再议琉球,我们还需明白,需要积极主动和足够坚决,由此我们必须采取一系列措施和手段,其一,需要进行广泛的舆论宣传,确定琉球为中国不可分割的一部分,不仅全体国民要非常了解,也要在国际上时刻提出;其次,要学习美国人的办法,建立或扶持“琉球回归或独立组织”,借助摆脱美国占领、日本殖民等现实目标,推进琉球脱离日本和回归中国进展;三是,谋求中国的其他附加利益。 再议琉球,在钓岛问题上,是以攻为守的高招;在中国梦的实现过程中,也是一记神来之招。
个人分类: 随笔|2562 次阅读|0 个评论
增量研究
热度 1 vcitym 2013-4-4 10:05
当人们对科技评价不断吐槽的时候,是想加入没有了评价会是什么样子? 当我们习惯了某种方式行为,那么突然去掉这种方式,有时候人们还真不知道该咋办。 当失去了外在的管理束缚,开始自己为所谓的真正科学研究付出的时候,人们会怎样去性为呢? 我的回答就是做增量研究。这里的增量研究就是不产生垃圾研究,不东拼西凑,不沽名钓誉,自己感觉这是自己辛苦出来的东西,那怕是很小很小的一点点,在自己可感的范围内判断是新的,不是重复的,我认为就是增量研究。然后将其放到一个纯净的实名网络开发获取,公开评价。这样的结果其实就是一种占有性研究,以崇尚首创和增量创新。 从这里可以知道,增量创新其实包括了原创或首创,也包括在原创基础上的改进或拓展。毕竟原创太少,改进或扩展的多。 在增量研究中,包括从不同的角度的改进或扩展,如理论、方法、技术、工程等。就是反对重复。 在增量研究中,可以减少浪费,促进科技发展减少摩擦力。 在增量研究中,所有的评价都是第三方(社会公众),研究者不知道具体谁在评价,因此评价结果会更客观。 在增量研究中,我们的教育理念也会发生变化,因为不再为了崇尚“至高荣誉”“争当将军”而拼命。取而代之是人人找到适合自己的发展个性空间。不再追捧xxx改变命运等几千年的所谓光宗耀祖传统文化,使每个人回归到本我,为自己活,活出正能量。 在增量研究中,当然也要对那些消极的东西进行打击,对危害人类生存、生活、道德的增量研究进行抵制和限制,使其减小到最低限度。 说到底,增量研究是一种理念,一种态度,一种行为目标。 当人们开始追求增量研究时,我们的社会可能开始真正回归。
个人分类: 杂谈|3733 次阅读|1 个评论
基于距离的权重回归、估计
hyalone 2013-2-4 20:41
回归时如果有异常点,会增大回归偏差,异常点是难界定的,因此数据量大时剔除异常点就变得不太可行。 回归时如果给每个点设置权重,权重的取值与回归中心的距离负相关,就可以在不剔除异常点的情况下回归,且基本不受异常点的影响。 这种回归对预测、估计很有用,对某个点Y值的估计,参考X值取值,用已知样本对X值进行回归、估计,离X值距离近的权重大、距离远的权重小,估计Y时更准确。方法用优化方法解决,权重可取 范围,目标是X回归的离差平方和+距离权重的偏离平方和。 缺失值处理同理,也可以用这种方法,但计算量会比较大。
个人分类: 统计|2996 次阅读|1 个评论
[转载]寂静的♥心语♥108 【一】
xiangfasong 2012-9-17 16:10
转载地址( http://blog.sina.com.cn/s/blog_612f04ed01017y86.html ) 非常感谢寂静师父 2 ♥ 要为灵魂找一个美丽的归宿,不要为肉体找一块豪华的坟墓。 3 ♥ 只要人生没有觉 悟 ,抓住的东西越多越苦。 4 ♥ 把钱放在头顶,人就沉重;把钱放在脚下,人就成长。 5 ♥ “财”是外在有形的,“富”是内在无形的。财可以靠掠夺,富只能靠修养。 6 ♥ 聪明的人 做 钞票 ,智慧的人 做 钱包。 7 ♥ 人若只看到钱,就成了钞票;人若能看到钱以外更广阔的世界,就成了钱包。 8 ♥ 钱本身永远是小钱,钱以外才是大钱。生意本身永远是小生意,生意之外才是大生意。 9 ♥ 贫苦,是不知布施修福;富苦,是不知散财消灾。 10 ♥ 成功(名利) = 55% 福报 + 30% 人脉 + 15% 技能。 11 ♥ 不要认为 你 认识的人就是你的人脉,只有你利益过的或崇敬你的人,才是你的人脉。 12 ♥ 智者不求有钱,但求值钱;不求利润,但求利人。 13 ♥ 有钱是表面,值钱是根源;有钱是有限,值钱是无限;有钱时暂时,值钱是永远。 14 ♥ 钱是真的纸,人是真的钱。所以智者不会为钱伤人,只会舍财救人。 15 ♥ 缺钱之苦不在赚钱少,而在计较用钱;有钱之苦不在赚钱难,而在不会用钱。 16 ♥ 未来的穷人不是没有钱的人,而是没有精神境界的人。 17 ♥ 赚钱只需技巧,赚大钱就要福报;用钱只需消费,用好钱就要智慧。 18 ♥ 迷惑的人用生命换取财富(现象),智慧的人用生命创造价值(能量)。 19 ♥ 人若只是为了钱,那就太 不值钱 了。 20 ♥ 事业是度人的平台,金钱是利人的工具,目的在于成就 自 他生命的喜悦、价值和意义。 21 ♥ 成大事者必有天助,天助之者必有天德。百年老店必有百年天德。 22 ♥ 事业是为了修积福慧,福慧 自 然能成就事业。 23 ♥ 企业 做 大 做 强靠物质, 做 高 做 久靠精神。物质不会百年,境界 自 会长青。 24 ♥ 愿意改变比已经改变更重要。 25 ♥ 基层用制度管事,中层用教育管人,高层用文化管心,顶层用信仰管魂。 26 ♥ 接受 自 己是爱的开始。 27 ♥ 当心中有了爱,才知生命尽是天籁。 28 ♥ 为 自 己着想,只会生出心机;为众生着想,才会生出智慧。 29 ♥ 苦难 是上天另一种形式的爱,他提醒我们从错误中回来。 30 ♥ 生意的真谛是爱的传递,不是利益的索取。 31 ♥ 只有爱错,爱从来就没有错。 32 ♥ 地大则物博。心是生命的田地,心大则福厚。 33 ♥ 放不下小事,立不起大志。立不起大志 ,放不下小事。 34 ♥ 只要 自 己没有成长,再高的收入都是低待遇;只要 自 己成长了,再低的收入都是高待遇。 35 ♥ 超人就是超过别人。超过别人的目的不是为了炫耀 自 己,而是为了引领大众。 36 ♥ 只有对别人有价值,在关系中 自 己才有存在价值。 37 ♥ 大成就的秘诀是: 做 别人不 做 的和 做 不 到 的,而不是与人竞争。 38 ♥ 人只有一种活法,那就是活得像人。除此之外都是死法,有百千万种。 39 ♥ 人生的一切,不是算来的,而是感来的;不是求来的,而是修来的。求是只望结果,修是培植因缘。感是得道多助,算是一厢情愿。 40 ♥ 根浅的树长不大,一旦长大就会倒下。 41 ♥ 一手 做 公益,一手 做 生意。 做 公益是存款, 做 生意是取款。 42 ♥ 心中有多少阴暗,生活就有多少灾难;心中有多少光芒,生活就有多少吉祥。 43 ♥ 常 做 别人贵人的 人 ,生活中就会常遇贵人。 44 ♥ 宇宙是平衡的:坏人损我们的好人会来补上;愚人欠我们的智者会来还上;凡人亏我们的上天会来奖赏。所以要谨慎得失,但不要患得患失。 45 ♥ 会 犯错 是小错, 犯错 而不认错改错,才是大错。 46 ♥ 人最大的愚蠢不是无 知,而是不愿放下金钱与面子向人学习。 47 ♥ 时间是检验真理的唯一标准。实践是检验真理的临时标准。 48 ♥ 改命须先认命,抗命就会没命。 49 ♥ 大智慧的 人不是关心他得到了什么,而是关心他创造了什么。 50 ♥ 孩子是父母的未来,父母更是孩子的未来。 51 ♥ 父母是原件,家庭是复印机,孩子是复印件。 52 ♥ 人必须为 自 己创造一个存在的价值,以便让 自 己存在;而后为 自 己创造一个美好的价值,以便使生命美好。 53 ♥ 如果一个人 心中见不到伟大,那他无论 做 多么轰轰烈烈的事都不会伟大。 54 ♥ 无私实是大私 , 自 私实是害私。 55 ♥ 人的一生争不到、求不到、想不到、算不到,一切都是 因缘果报 。 56 ♥ 物质向下比就满足快乐,精神向上比就纯净升华。 57 ♥ 人生外在的一切,都是思想、言语、行为在“物以类聚”的原理下吸引过来的。 58 ♥ 厚德载物,缺德损物。这里“物”不光指财物,还指家人、子孙、健康、平安、寿命等一切。 59 ♥ 只要让别人有利,就不 怕 自 己没利 。 60 ♥ 越 自 私越 自 卑,越无私越 自 信 。 61 ♥ 比生意更重要的是生活 ,比生活更重要的是生命,比生命更重要的是觉 悟 。觉 悟 是另一个更高层次、另一个更美世界的生命。 62 ♥ 心中没有亏欠,外面就没有亏损。 63 ♥ 公事私事,大事小事,善事恶事,只要破坏心态、让心 烦恼 ,就是坏事。 64 ♥ 修行苦,但不修行更苦;放下难,但不放下更难。 65 ♥ 被动的 付出 就是失去,主动的 付出 定将回报。 66 ♥ 令 人失望是一种罪业,给人信心是一种功德。 67 ♥ 修行,不修不行,越修越行。“ 修”有三意:一是修建,二是修正,三是修补;“行”有三意:一是功德,二是能力,三是行为。 68 ♥ 有“道”方能到,有“德”才能得。 69 ♥ 糊涂人常常为事赌气,明白人着眼解决问题 。 70 ♥ 凡是让人迷惑、迷茫、迷恋,不能使心灵觉 悟 的一切活动皆属 迷信 活动。 71 ♥ 不善的人事是 自 己罪业的现形,如意的境遇是 自 己功德的投影。 72 ♥ 永远要感恩生命中那些给你扔石头的人,因为他堆起了使你站得更高的台阶。 73 ♥ 一个人没有缺点也没有优点,只有特点。优点是特点的善用,缺点是特点的错用。 74 ♥ 高人静定,不来不去;小人恍惚,漂来飘去。 75 ♥ 生活的障碍和身心的 苦难 ,表面是给我痛苦,其实是在提醒我反省,让我知道忏悔与改变,使我点点完善。我向往快乐,我感恩 苦难 ! 76 ♥ 当我们远离 自 己的家园时,就会感到孤独;当我们远离 自 己的心灵时,就会遭受痛苦。 77 ♥ 能 付出 人所不能 付出 ,就能得到人所不能得到;能忍受人所不能忍受,就能成就人所不能成就。 78 ♥ 所谓“ 自 在”,就是 自 己还在,还与 自 己的良心和美德同在。 79 ♥ 只要内在没有失去(损德),外在就不会有失去,纵失去一定会再回来。只要内在没有得到(积德),外在就不会有得到,纵得到一定会再失去。 80 ♥ 人生真正的美好不是因为他已经美好,而是因为他内心一直保存着一个美好,并且坚信和向往。 81 ♥ 相信奇迹的信心比得到奇迹本身更珍贵。所以要永远提醒 自 己:“我相信奇迹!” 82 ♥ 做 恶的人很苦, 做 善的人很累,什么都不 做 的人无聊。智慧的人三种都不要。 83 ♥ 愚痴的人把 名字 扔在地上;普通的人把 名字 记在心上;聪明的人把 名字 刻在碑上;智慧的人把 名字 留在史上;觉悟的人让一切 随风飘 扬…… 84 ♥ 谁说“一人 做 事一人当”?一个人 做 的事,其后果绝不是一个人在承受,亲人与子孙必受牵连。所以一定要谨言慎行,不要因为暂时看不到恶果就放肆自己。 85 ♥ 心在哪里,命在哪里。念头是开关,一开是光明,一关是黑暗。 86 ♥ 苦难 本身并不可怕,心沉浸在 苦难 中才是 苦难 不断的根源。 87 ♥ 因为每一言行都是种子,所以人迟早会品尝到 自 己亲手培育的甜苦果子;因为每一选择都是基因,所以人迟早会走进 自 己亲 自 选定的好坏命运。 88 ♥ 只要有花,蝴蝶纵飞走了但它必来;只要无花,蝴蝶纵飞来了但它必去。这叫“花蝶效应”。 89 ♥ 恩有多少,福就有多少;恩有多贵,命就有多贵; 怨有多少,苦就有多少;怨有多深,障就有多深。 90 ♥ 只会加法不会减法的学生一定是失败的学生;只会加法不会减法的人生一定是沉重的人生。 91 ♥ 人生不可能得到什么也不可能失去什么。得到的都是 自 己曾经积存的,失去的都是 自 己曾经透支的。 92 ♥ 聪明是看清别人也能看到的 ;智慧是看见别人看不见的。 93 ♥ 纯净不是一尘不染,而是决不迷失信念。 94 ♥ 没有信仰,生命就像茫茫大海的孤舟;有了信仰, 苦难 就有了尽头。 95 ♥ 我们背离多少真理,就创造多少 烦恼 与忧虑。 96 ♥ 嫉妒 他人不是办法,成长 自 己才是力量。 97 ♥ 万物本无情,因有情心而有情;万物本有情,因无情心而无情。 98 ♥ 无用就成了废品。于人无益,就成了别人的废品;不爱国,就成了民族的废品;不行善,就成了世界的废品;无爱心,就成了天地的废品。废品的命运就是被抛弃。 99 ♥ 教育是高回报的投入,文化是最有效的管理。 100 ♥ 越诉苦越苦,越抱怨越怨;越感恩越恩,越分享越享。 101 ♥ 担心是一种诅咒。应把担心换成关心和信心。关心是一种有形的保护,信心是一种无形的保佑。 102 ♥ 苦难 是因为 自 己的灵魂弱小,幸福是因为 自 己的灵魂强大。损德使灵魂弱小,积德使灵魂强大。 103 ♥ 没有命运,只有选择。命运只不过是生命中不停地选择所连接起来的轨迹。 104 ♥ 心为何形?无形无相;心有多大?无边无量。 与无形无相、无边无量的心相比,有形有限的东西再多也等于零。 所以, 要让心满足,不能靠财富,只能靠开 悟 。 105 ♥ 史蒂芬霍金说:人若没有梦想不如死去。我说:人若没有大愿等于死尸。 106 ♥ 想成功的人必要经历失败。已成功的人必然还会失败。只有“人就该这么活”、心中没有失败也没有成功的人,才超越成败。 107 ♥ 愚者拼命,智者改命。 108 ♥ 人只能活在 自 己创造出来的世界。 《Al w ays W ith You》 和你同在 Do you kno w me, w ho I am?你知道我是谁,在哪里? I am al w ays w ith you.我与你不可分,在一起。 I am near you every day, 每一天都在靠近你, Al w ays share w hat you do.一直都在分担你, Follo w the path to any w here,跟随你,无论到哪里 A stranger in the w orld w ithout you.陌生的世界没有你, Forever I w ill be there,我永远在这里, The shado w you al w ays kne w .就如影子一样跟随你。 If you think I've gone a w ay,即使你认为我早已远离, And am never w ith you.甚至从未和你在一起。 Iam not so far a w ay,相信我并未远离, Al w ays shado w ing you.一直如影随形地伴着你。
个人分类: 博文转载|2116 次阅读|0 个评论
[转载]【转载】Logistic regression (逻辑回归) 概述
热度 1 zhjzh1016 2012-8-21 21:24
【原创】Logistic regression (逻辑回归) 概述 Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘) 那么它究竟是什么样的一个东西,又有哪些适用情况和不适用情况呢? 一、官方定义: , Figure 1. The logistic function, with z on the horizontal axis and ƒ ( z ) on the vertical axis 逻辑回归是一个学习f:X− Y 方程或者P(Y|X)的方法,这里Y是离散取值的,X= X1,X2...,Xn 是任意一个向量其中每个变量离散或者连续取值。 二、我的解释 只看公式太痛苦了,分开说一下就好。Logistic Regression 有三个主要组成部分:回归、线性回归、Logsitic方程。 1)回归 Logistic regression是线性回归的一种,线性回归是一种回归。那么回归是虾米呢? 回归其实就是对已知公式的未知参数进行估计。大家可以简单的理解为,在给定训练样本点和已知的公式后,对于一个或多个未知参数,机器会自动枚举参数的所有可能取值(对于多个参数要枚举它们的不同组合),直到找到那个最符合样本点分布的参数(或参数组合)。(当然,实际运算有一些优化算法,肯定不会去枚举的) 注意,回归的前提是公式已知,否则回归无法进行。而现实生活中哪里有已知的公式啊(G=m*g 也是牛顿被苹果砸了脑袋之后碰巧想出来的不是?哈哈),因此回归中的公式基本都是数据分析人员通过看大量数据后猜测的(其实大多数是拍脑袋想出来的,嗯...)。根据这些公式的不同,回归分为线性回归和非线性回归。线性回归中公式都是“一次”的(一元一次方程,二元一次方程...),而非线性则可以有各种形式(N元N次方程,log方程 等等)。具体的例子在线性回归中介绍吧。 2)线性回归 直接来一个最简单的一元变量的例子:假设要找一个y和x之间的规律,其中x是鞋子价钱,y是鞋子的销售量。(为什么要找这个规律呢?这样的话可以帮助定价来赚更多的钱嘛,小学的应用题经常做的呵呵)。已知一些往年的销售数据(x0,y0), (x1, y1), ... (xn, yn)做样本集, 并假设它们满足线性关系:y = a*x + b (其中a,b的具体取值还不确定),线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。 也许你会觉得---晕!这么简单!这需要哪门子的回归呀!我自己在草纸上画个xy坐标系,点几个点就能画出来!(好吧,我承认我们初中时都被这样的画图题折磨过)。事实上一元变量的确很直观,但如果是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell = a*x + b*y + c*z + d*zz + e。这个时候画图就画不出来了,规律也十分难找,那么交给线性回归去做就好。(线性回归具体是怎么做的请参考相应文献,都是一些数学公式,对程序员来说,我们就把它当成一条程序命令就好)。这就是线性回归算法的价值。 需要注意的是,这里线性回归能过获得好效果的前提是y = a*x + b 至少从总体上是有道理的(因为我们认为鞋子越贵,卖的数量越少,越便宜卖的越多。另外鞋子质量、广告投入、客流量等都有类似规律);但并不是所有类型的变量都适合用线性回归,比如说x不是鞋子的价格,而是鞋子的尺码),那么无论回归出什么样的(a,b),错误率都会极高(因为事实上尺码太大或尺码太小都会减少销量)。总之: 如果我们的公式假设是错的,任何回归都得不到好结果。 3)Logistic方程 上面我们的sell是一个具体的实数值,然而很多情况下,我们需要回归产生一个类似概率值的0~1之间的数值(比如某一双鞋子今天能否卖出去?或者某一个广告能否被用户点击? 我们希望得到这个数值来帮助决策鞋子上不上架,以及广告展不展示)。这个数值必须是0~1之间,但sell显然不满足这个区间要求。于是引入了Logistic方程,来做归一化。这里再次说明,该数值并不是数学中定义的概率值。那么既然得到的并不是概率值,为什么我们还要费这个劲把数值归一化为0~1之间呢?归一化的好处在于数值具备可比性和收敛的边界,这样当你在其上继续运算时(比如你不仅仅是关心鞋子的销量,而是要对鞋子卖出的可能、当地治安情况、当地运输成本 等多个要素之间加权求和,用综合的加和结果决策是否在此地开鞋店时),归一化能够保证此次得到的结果不会因为边界 太大/太小 导致 覆盖其他feature 或 被其他feature覆盖。(举个极端的例子,如果鞋子销量最低为100,但最好时能卖无限多个,而当地治安状况是用0~1之间的数值表述的,如果两者直接求和治安状况就完全被忽略了)这是用logistic回归而非直接线性回归的主要原因。到了这里,也许你已经开始意识到,没错, Logistic Regression 就是一个被logistic方程归一化后的线性回归,仅此而已。 至于所以用logistic而不用其它,是因为这种归一化的方法往往比较合理(人家都说自己叫logistic了嘛 呵呵),能够打压过大和过小的结果(往往是噪音),以保证主流的结果不至于被忽视。具体的公式及图形见本文的一、官方定义部分。其中f(X)就是我们上面例子中的sell的实数值了,而y就是得到的0~1之间的卖出可能性数值了。(本段“可能性” 并非“概率” ,感谢 zjtchow 同学在回复中指出) 三、Logistic Regression的适用性 1) 可用于概率预测,也可用于分类。 并不是所有的机器学习方法都可以做可能性概率预测(比如SVM就不行,它只能得到1或者-1)。可能性预测的好处是结果又可比性:比如我们得到不同广告被点击的可能性后,就可以展现点击可能性最大的N个。这样以来,哪怕得到的可能性都很高,或者可能性都很低,我们都能取最优的topN。当用于分类问题时,仅需要设定一个阈值即可,可能性高于阈值是一类,低于阈值是另一类。 2) 仅能用于线性问题 只有在feature和target是线性关系时,才能用Logistic Regression(不像SVM那样可以应对非线性问题)。这有两点指导意义,一方面当预先知道模型非线性时,果断不使用Logistic Regression; 另一方面,在使用Logistic Regression时注意选择和target呈线性关系的feature。 3) 各feature之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。 逻辑回归不像朴素贝叶斯一样需要满足条件独立假设(因为它没有求后验概率)。但每个feature的贡献是独立计算的,即LR是不会自动帮你combine 不同的features产生新feature的 (时刻不能抱有这种幻想,那是决策树,LSA, pLSA, LDA或者你自己要干的事情)。举个例子,如果你需要TF*IDF这样的feature,就必须明确的给出来,若仅仅分别给出两维 TF 和 IDF 是不够的,那样只会得到类似 a*TF + b*IDF 的结果,而不会有 c*TF*IDF 的效果。
个人分类: 基本知识|6893 次阅读|1 个评论
香港有多特殊?
热度 4 jefei 2012-6-30 22:58
今晚听广播听到胡锦涛主席参加香港回归十五周年庆祝晚会,中央广播电台还搞了个“现场直播”。听着这个现场直播,我禁不住在想要是我国四大古都之首、世界四大文明古都之一的西安搞一个建城多少多少年的庆祝晚会,能请到哪位中央领导人出席?估计中央是奢望不上了,能请到个部级领导估计就心满意足了。不说历史,就是同为近代发展起来的经济中心,解放前著名的大上海,改革开放后世界经济影响力也不断上升的“东方明珠”上海,搞一个建城多少多少周年晚会,或者解放多少多少周年晚会,又能请到哪位中央领导出席?更别说内地诸多历史不那么悠久、经济影响力不那么大的各个大中小城市了。 看到香港如此被重视,心里难免有些酸溜溜的,而为什么它那么被中央重视呢?自然是政治考虑,要证明中国有能力管理好一个国际化大都市,并以此证明“一国两制”的可行性与伟大,为以后台湾回归做铺垫。虽然能如此理解,但对比下香港和内地城市,尤其前不久还爆出输港食品合格率达百分之99.999,而内地却深受食品安全之害,依然不由地想为何当年英国殖民者不选择我们那里殖民呢.... 以前听老人说过,对待很多孩子时,重要的是要“一碗水端平”,偏爱某一个是取祸之道。现在因老人当年偏爱某一子女而引起的赡养纠纷也时有发生。我想,管理一个国家的道理也应与此相似,不应人为地制造地区间、民族间的不平等,这样容易造成地区间的偏见,这种偏见在很多时候就是不满或纠纷发生的根源,并不利于社会的和谐与稳定 历史无可改变,未来由我们创造。希望未来不再有内地人与香港人、北京人与上海人、汉族与非汉族之分,我们都有一个身份,那就是中华人民共和国国民,是中华民族之一员!
个人分类: 我的看法|1788 次阅读|7 个评论
在旅途中遇见
热度 6 pup 2012-2-11 10:50
在旅途中遇见
在旅途中遇见 兰井是桂林市的一条小巷子,也是一家人文色彩的咖啡店,隐匿在王府花园旁边低调的老房子里,却因为我的在乎,它于是那么闪耀。前两次来到兰井巷,都是在夜色笼罩下。幽暗的深巷里散落着零星的几家小店,微弱的路灯将影子拉得很长,我甚至听得见自己紧张的呼吸声。一个人从东华门走到兰井咖啡店后,便不敢继续往前探步。 当我第三次来到这里时,正赶上桂林数日烟雨之后的暖阳,居委会的刘奶奶喜滋滋地在晾晒被子,她看到两个摄影家端着胶片机走走停停,便热情地上前搭话,说有个老人经常义务打扫兰井巷,念叨着要请摄影家将好人好事拍下来给予表扬。摄影家一边点头含笑,一边偷偷按下快门,像阳光一般热情的刘奶奶并不知道自己本身就是一道美丽风景。喧闹的还有绽放的月季,花瓣上还残留着昨日的水珠;阳光柔软地亲吻着墙头上的青苔;懒洋洋的微风让人酣醉,误以为这个春天比往年来得更早一些…… 这一刻,时光如此美好,美好得就像放逐和私奔。我走进兰井咖啡店,说不清楚的安静突然袭来,我多么期待接下来的数小时,能在这里画地为牢,一杯咖啡就好。 兰井咖啡店是桂林一群文化人的心头好,很多次从各处网络碎片里读到它,从好友得意且怜惜的言谈中熟悉它。它不是一所普通的老房子,而是谢和庚和王莹的故居,曾见证了乱世里的生死爱情,如今它就像一个梦中的女子,从云端徐徐靠近我,哪怕就一个眼神,彼此已默许。当我随手捧起暖气旁边一篇裱好的关于眼前这条小巷的文章,只读了几行字,泪水竟开始在眼眶里打转,也许,比眼泪更透明的,是我那灿烂的忧伤。不敢说这忧伤是因为这篇小文中历史的力量,也不完全是因这老房子的沧桑独唱,掺杂着或许还有我个人的回归流浪。 情绪的高潮和低谷也不过是一线之间,从温情脉脉到瞬间放空,可能随时随地,比如此时此地。但我相信兰井有这样一种魔力,能让我越过时空的边境,躲过回忆的追捕。所以,当我无一可握时,我靠近它;当我靠近它时,情不自禁地在安静中怒放。 逼仄的兰井巷,淡淡的时光。 想象中经油墨印刷之后的兰井咖啡店,半掩的门,寂静的巷。 休假中的兰井咖啡店. 兰井咖啡店原是谢和庚的故居。跟着墙上的文章去寻访那段历史。
个人分类: 生活家|4946 次阅读|7 个评论
回归
cnyqin 2011-12-16 04:55
回归联系中...希望一切顺利... :)
902 次阅读|1 个评论
我胡汉三又回来了!
热度 5 Sonny 2011-4-8 20:04
阔别科学网半年,前面一段时间上临床、写论文、考博,一直是处于焦头烂额不知所措的状态。今天终于决定杀回科网了!各位博友们,等着偶对大家进行骚扰哈~~~~
个人分类: 未分类|3034 次阅读|7 个评论
R语言学习笔记(三)
热度 3 maolingfeng 2011-4-2 20:03
(联系方式: maolf小老鼠ibcas.ac.cn 或者 maolingfeng2008小老鼠163.com ) 3.22统计和作图(statistics and graphic) 1\quantile(x)函数为四等分点的边界数值 也可自己设置等分点,如 quantile(x,seq(0,1,0.1)),为十分 2、对于缺损值的处理,一定要加入,na.rm=T的参数设定 mean(vetor1,na.rm=T) 340.168 3\对于一个向量的基本统计如中值,最大最小,平均值,可以用summary() 4\直方图hist(x,breaks=a)其中a可以-c(0,1,4,20)枚举一些向量值 n - length(x) plot(sort(x),(1:n)/n,type="s",ylim=c(0,1)) 5、Q-Q plot 函数形式qqnorm(x) 6、对于箱式图boxplot case: data(IgM) par(mfrow=c(1,2)) boxplot(IgM) boxplot(log(IgM)) par(mfrow=c(1,1)) d对于两个向量的比较 a-rnorm(50) b-rnorm(50) boxplot(a,b) 7\hist(expend.lean,breaks=10,xlim=c(5,13),ylim=c(0,4),col="white") ###其中break代表的是分的group的组数, 8、一个矩阵的产生,并且赋予其行列名字 a-rnorm(24) caff.marital-matrix(a,nrow=4,byrow=T)##按行排列 caff.marital colnames(caff.marital)-c(1:6) rownames(caff.marital)-LETTERS ###字母的顺序为大写LETTERS 格式 caff.marital ##其中的rownames和colnames可以进行括号内双引号枚举 9、柱状图利用的函数是barplot,其中针对的是默认按照列来计算的,如果是行数据,怎进行t转置 beside=T barplot(prop.table(t(caff.marital),2), legend.text=colnames(caff.marital),col="white", beside=T) ##R语言将无法寻找到空白的位置放legend的内容,会覆盖其中的一个向量,因此,需要用函数locator(),见后面 10、对于t检验可以两个函数形式t.test()和wilcox.test,其中wilcoxon test在有些地方叫做Mann-Whitney test t test是假定为数据时从正态分布的里面出来的。 t检验可以个出95%置信区间的具体数值,t.test(x,conf.level=0.99,mu=34),mu中给出想要检测的值,缺省值mu=0 conf.level=0.99为给定具体的置信区间。 11、两组数据的显著性t检验, t.test(expend~stature)###里面包含了种不同的数值obese和lean两种类型, energy expend stature 1 9.21 obese 2 7.53 lean 3 7.48 lean ... 20 7.58 lean 21 9.19 obese 22 8.11 lean 例子:case expend - c(rnorm(10)) stature- c("obese","lean","obese","lean","obese","lean","obese","lean","obese","lean") d - data.frame(expend,stature) t.test(expend~stature) 11、两组数据变化var.test(expend ~ stature),t.test(vetor1~ vetor2,paired = T) 12\对于两组数据回归并且做回归线 线性回归为 veotr1- rnorm(20) vetor2- rnorm(20) plot(vetor1,vetor2) abline(lm(vetor1~vetor2)) 对于已经回归的函数可以除了summary可以提取到概况信息 外,还可以利用fitted()来提取 每个点对应的预测值(在回归最优化的那个方程下,计算的y值),和resid()来提取每个点对应的残差 a- lm(vetor1~vetor2) fitted(a) resid(a)###可以看到结果为每个元素对应的数值,这个可以变换预测值和真实值,并且进行回归分析 ####自编函数 vetor1- rnorm(20) vetor2- rnorm(20) pre_obv_grap- function(obvx,obvy) { regr- lm(obvy~obvx) b- fitted(regr) plot(b,obvy) a- list(b,regr,obvx,obvy) return(a) } pre_obv_grap(vetor1,vetor2) ########特别重要,当一个函数的返回值具有多个的时候,可以在函数里面用 ###这样函数内部的返回值的结构将不会变化,可以看到里面的对象list()里面不用““ lines((vetor1 ,fitted(regr)))###主要要利用is.na()函数去除数据中元素缺损的地方 ######明天重点关注残差作图page112 ## 在R中的指数回归形式可能是,有待进一步验证,再看看glm的帮助 glm(y~x,family=poisson(link=log),data=dataframe) 比如 glm(the.data$y~the.data$x+the.data$b) 可以写成 glm(y~x+b,data=the.data) 指数函数其实是非线性的,但是又是内在线性的,因为指数函数可以通过两端log之后变为线性函数,所以可以用glm线性模型做回归,poisson族里默认的link就是log,就是ln,得到的参数a,b可以直接写入函数y=exp(ax+b)中 x=c(1,1,2,2,2,3,3,4,5) y1=c(2.718,2.718,7.387524,7.387524,7.387524,20.07929023,20.07929023,54.57551085,148.3362385) glmexpo=glm(y1~x, family=poisson) summary(glmexpo) 意思就是通过这个回归出来的a,b对应的函数形式是y=exp(ax+b)而不是y=aln(x)+b的 resid(glmexpo) 回归函数R^2和P值的调用和获取的获取通过三步计算可以得到 1.计算模型残差平方和RSS. @#####函数resid()###里面要跟回归函数,这个回归函数就是指数或者其他的就可以选择 2.计算Y的样本方差SSY。 ####函数var() 3.R^2=1-(RSS/SSY) ####计算线性回归函数的R平方的函数,等同于cor(y,x) R_squa- function(y,x)###请输入两个变量其中如果换回归模型,如指数回归模型,则lm()函数变化 { RSS- sum(resid(lm(y~x))^2)###计算x,y线性回归的残差平方和 SSY- sum((y)^2-mean(y)^2)###计算y值和平均值平方差的和 R_squa- 1-(RSS/SSY) return(R_squa) } a- read.csv("j1.csv",header= TRUE, row.names= 1) jjj- R_squa(a$ty,a$d) jjj ###测试关于指数回归的函数形式,明天继续研究? R_squa2- function(y,x)###请输入两个变量其中如果换回归模型,如指数回归模型,则lm()函数变化 { y- log(y) RSS- sum(resid(lm(y~x))^2)###计算x,y线性回归的残差平方和 SSY- sum(y^2-(mean(y))^2)###计算y值和平均值平方差的和 R_squa- 1-(RSS/SSY) return(R_squa) } a- read.csv("j1.csv",header= TRUE, row.names= 1) jjj- R_squa2(a$ty,a$d) jjj summary(lm(a$ty~a$d)) 0.3174286#####明天印证excel,并且对a,和b,值进行反推 a- read.csv("j1.csv",header= TRUE, row.names= 1) y- log(a$ty) x- a$d RSS- sum(resid(lm(y~x))^2)###计算x,y线性回归的残差平方和 SSY- sum(y^2-(mean(y))^2)###计算y值和平均值平方差的和 R_squa- 1-(RSS/SSY) RSS- sum(resid(glm(a$ty~a$d,family=poisson))^2) Excel是这样拟合的,对拟合模型Y=a*ebX,先将模型转化为 ln(Y)=ln(a)+bX,然后对这个方程式用最小二乘法进行线性拟合。 ###用Linest帮助中R2定义来解决,引文如下: ####回归分析时,Microsoft Excel 计算每一点的 y 的估计值和实际值的平方差。这些平方差之和称为残差平方和 (ssresid)。然后 Microsoft Excel 计算总平方和 (sstotal)。当 const = TRUE 或被删除时,总平方和是 y 的实际值和平均值的平方差之和。当 const = FALSE 时,总平方和是 y 的实际值的平方和(不需要从每个 y 值中减去平均值)。回归平方和 (ssreg) 可通过公式 ssreg = sstotal - ssresid 计算出来。残差平方和与总平方和的比值越小,判定系数 r2 的值就越大,r2 是表示回归分析公式的结果反映变量间关系的程度的标志。r2 等于 ssreg/sstotal。 那么可以用公式计算ssreg和sstotal,然后可以得到R2 22.关于两个向量获取并调用其检验值P值的办法 sum.rst- summary(lm(y~d)) p_value- sum.rst$coefficients p_value ##计算提取回归p值的函数,记住是线性回归 p_value- function(y,x)##输入两个向量 { sum.rst- summary(lm(y~x)) p_value- sum.rst$coefficients return(p_value) }
个人分类: R语言学习笔记|24631 次阅读|3 个评论
回归《史记》本文,探讨项羽身死之地
热度 1 黄安年 2011-1-14 10:36
回归《史记》本文,探讨项羽身死之地 受权发布李广柏文 黄安年的博客 /2011 年 1 月 14 日发布 小 引 项羽乌江自刎的故事,在我国已流传千百年之久,读书人大抵都熟知。现代学者撰写的秦汉史和中国通史,几乎都写到项羽乌江自刎的结局,只有极少数著作是例外。范文澜所著《中国通史》,关于项羽的结局写的是:前二 0 二年,垓下决战,项羽败死。其前后叙述中未提及乌江。( 1 )欧美学者撰写的《剑桥中国史》,是这样写的:最后阶段的斗争在今安徽省的垓下展开,刘邦的军队在那里成功地包围了项羽。《史记》以形象而生动的文字叙述了项羽成功地突破刘邦的战线逃跑的过程,最后他只带了 28 名追随者,接着非常英勇地自杀了。( 2 ) 1985 年 2 月 13 日《光明日报》的《史学》栏,发表安徽定远县中学老师计正山先生的文章,题为《项羽究竟死于何地?》。文章提出:项羽乃欲东渡乌江为民间传闻,司马迁借以完善项羽的英雄形象;项羽真正的殉难地不在乌江而是东城,即今安徽定远东南(距乌江约三百里)。这篇一千多字的文章,很多史学专业方面的人士未予重视,但引起了冯其庸先生的注意。冯先生为此三次前往安徽,调查历史上的垓下、东城、乌江等地的方位、地形及各地间的距离。他将实地调查的收获与种种史料结合起来进行分析推断,写出二万多字的《项羽不死于乌江考》,发表于《中华文史论丛》 2007 年第 2 期和《艺衡》第二辑。 冯先生的文章,首先一一列出《史记》中关于项羽死于东城的明确记载;并指出,全部《史记》没有一处说项羽死于乌江的。这是从《史记》书中得到的基本事实。冯先生通过实地考察自垓下到东城再到乌江的路程,也确信项羽垓下突围那一天到不了离东城尚有二百四十里的乌江。对于流行的乌江自刎之说,冯先生认为,那是因为后人误解了《项羽本记》里项王乃欲东渡乌江那段文字。冯先生说,《项羽本纪》末尾那段文字可能有错简,容易引起误解,但只要认真研读《史记》对这一问题的相关记载,就可以看到,项羽身死东城是无可怀疑的,在《史记》本身找不出一点与此矛盾的地方,《史记》里确实不存在乌江自刎之说。( 3 ) 冯先生的文章发表以后,受到学界的好评。当然,质疑一个传统看法,必定会引来不同的意见,甚至激烈反对的意见。争论,有利于是非的明朗化和学术的进步。冯先生也在文章中说了:我这是一个尝试,未必正确,写出来欲以求教而已。( 4 )冯先生虽然九十高龄,但愿意跟大家切磋,欢迎人们提出不同意见。 2008 年,安徽和县项羽与乌江文化研究室为维护乌江自刎说,编印了一本书,名为《一个不容置疑的史实》。这本书的第一篇文章是袁传璋先生所作。最近,袁传璋先生在《文史哲》 2010 年第 2 期发表文章,指责冯先生不明句法、史法 , 纯属凭虚造说,学风与学术品性失正;又指责卞孝萱先生及《中国文化报》、《光明日报》一片溢美之词,误导读者。袁先生那个咄咄口气,好像他早已获得了真知。可是,细读袁先生的文章,看出他对于讨论的问题并没有深入的了解与研究,离真知还远着呢!袁先生咬定项羽是在乌江渡口自刎的,而他用以支持这个论点的证据,都是唐宋以后的人抄来抄去的文字;此外,就是一些想象之词,加上对《史记》本文的曲解。我有几位同事读到袁先生的文章,甚为诧异,怂恿我写文章参与争论。我喜欢考证和推理,听了同事们的意见和建议,就不揣冒昧了。 讨论项羽身死之地,我觉得先要明确各种史料的不同价值。目前,我们还没有发现直接反映项羽之死的地下文物资料和地上遗存,司马迁当年记叙项羽身死之地所依据的文献及口头资料也荡然无存。我们讨论项羽身死之地,所能依据的原本史料就只有《史记》了。《史记》是一部信史。我们的研讨工作,就是要通过《史记》努力接近历史的真相。至于《史记》以后一代一代的复述、诠释、艺文,等等,在项羽之死的问题上,都是间接再间接、转手又转手的资料,其价值不能与《史记》相提并论。谭其骧先生在论述历史地理研究中如何正确对待历史文献资料时,就告诫学人不要轻信前人对古代文献资料所作的解释,不要贸然把前人记载的传说当作真实史料看待。谭其骧先生说: 不要把传说当作真实史料。有些文献资料来源于民间传说。尽管传说一经用 文字记录下来也就是文献资料了,但事实上传说往往并不反映历史真实,我们做 研究工作不能贸然把这种资料当作真实史料看待。 这一类被前人记载下来的靠不住的传说,各种书里都有,研究工作者要随时 注意培养锻炼自己的鉴别能力,不能见了刊印在古书上的资料不加辨别,一概置 信。例如上海的地方志里说黄浦江是战国时楚国的春申君开凿的,春申君名   叫黄歇,黄浦即因而得名,又给黄浦加上歇浦、春申江、申江几个别名。这完   全是胡说,如何信得?!现今上海市区是南北朝以后才成陆的,春申君时代这里   还是一片海域,他怎么可能跑到海里来开河?方志里这一类荒唐的说法很多,千   万不能上当。      不要轻信前人对古代文献资料所作的解释。 由于古人行文极为简练,   后代的注疏家和研究者对这些文献所作的解释,难免没有误会、走样之处。所以   我们处理这些文献资料,就该把古书原文和后人注释分别对待,不能混为一谈;   不应该盲从过去那些注疏家和研究者的解释,应该凭籍我们自己所掌握的历史知   识和地理知识,运用科学方法去正确理解判断这些资料所反映的古代地理情况。    先秦有一个云梦泽,但古书里云梦二字不一定指云梦泽,多数场合都   指的是楚王的一个以云梦为名的游猎区。云梦泽是这个游猎区的一部分,云 梦游猎区是跨大江南北的,而云梦泽则只存在于大江北岸,主要在江汉之间。从 西晋初年杜预注《左传》,错误地把《左传》中的云梦解释成云梦泽,从而 产生了云梦泽跨大江南北的说法。这种误解自晋以后逐步发展,到了清初的经学 家胡渭手里,竟然把整个江汉平原、洞庭湖区连同附近丘陵地带都包括在云梦泽 范围之内。这种极端荒谬的说法直到建国以后还为一些地理学家所采用,看来主 要是由于他们没有能够察觉到杜预到胡渭的解释并不符合于先秦古籍中云梦 的原意。我在前若干年注意到这个问题,作了一番研究,后来写成了一篇题为《云 梦与云梦泽》的文章 。我的方法是先直接从先秦记载去理解先秦云梦的真实情 况,再一一破除杜预以来所有经学家和舆地学家的谬说,然后运用汉以后关于云   梦泽的可靠记载,去理清云梦泽在历史时期的演变过程。( 5 ) 谭其骧先生这些话讲得多么好啊!凡是关注项羽身死之地的学人都要明白,研究历史地理问题,应该利用第一手史料和原本史料,不要找几条靠不住的解释或传说,就以为得到了真知。袁传璋先生用唐宋以后直到清朝的人抄来抄去的文字,来支持自己的论点,如果他那也算史料,至多也只能算是第四手、第五手、第六手的史料。说实在的,袁先生引的那些材料,冯先生都看过,笔者也看过,只是不肯轻信而已。章太炎、胡适曾经把考证比作法庭上打官司。法庭上的辩论、判决,处处要以事实为根据。第四、第五、第六手的材料,还有想象加抒情的言词,不足为据。因此,我要强调一下,如果真想探讨项羽身死之地,必须回归《史记》本文。 《史记》记项羽之死 《史记》多次明确记载项羽死于东城。冯先生的文章一一列举了出来。袁传璋先生却反复地讲:冯其庸教授引据《项羽本纪 . 太史公曰》称项羽身死东城,以否定《项纪》正文项羽于乌江自刎的记叙。( 6 )如果读者没有看到冯先生的文章,只看到袁传璋先生的文章,便会以为冯先生仅仅凭《项羽本纪》太史公曰的身死东城那一句话,就作出了项羽不死于乌江的结论。袁先生把冯其庸先生的主要论据窜改了。众所周知,在学术争论中,有意改窜对方的论点论据以便于自己进行批驳,是不道德的。为了阐明事实真相,我这里把冯先生已经列举过的《史记》中关于项羽死于东城的明确记载,再抄录出来。 《史记》卷八《高祖本纪》:    五年,高祖与诸侯兵共击楚军,与项羽决胜垓下。项羽卒闻汉军之楚    歌,以为汉尽得楚地,项羽乃败而走,是以兵大败。使骑将灌婴追杀项羽东城,    斩首八万,遂略定楚地。( 7 ) 《史记》卷九五《樊郦滕灌列传》(樊哙、郦商、滕公、灌婴合传):    项籍败垓下去也,婴以御史大夫受诏将车骑别追项籍至东城,破之,所    将卒五人共斩项籍,皆赐爵列侯。降左右司马各一人,卒万二千人,尽得其    军将吏。下东城、历阳。渡江,破吴郡长吴下,得吴守,遂定吴、豫章、会    稽郡。( 8 ) 《史记》卷七《项羽本纪》:    项王军壁垓下,兵少食尽,汉军及诸侯兵围之数重。夜闻汉军四面皆楚    歌,项王乃大惊,曰:汉皆已得楚乎?是何楚人之多也!项王则夜起,饮    帐中。有美人名虞,常幸从;骏马名骓,常骑之。于是项王乃悲歌慷慨,自    为诗曰:力拔山兮气盖世,时不利兮骓不逝。骓不逝兮可奈何,虞兮虞兮奈    若何!歌数阕,美人和之。项王泣数行下,左右皆泣,莫能仰视。    于是项王乃上马骑,麾下壮士骑从者八百馀人,直夜溃围南出,驰走。    平明,汉军乃觉之,令骑将灌婴以五千骑追之。项王渡淮,骑能属者百馀人    耳。项王至阴陵,迷失道,问一田父,田父绐曰左。左,乃陷大泽中。以    故汉追及之。项王乃复引兵而东,至东城,乃有二十八骑。汉骑追者数千人。    项王自度不得脱,谓其骑曰:吾起兵至今八岁矣,身七十馀战,所当者破,    所击者服,未尝败北,遂霸有天下。然今卒困于此,此天之亡我,非战之罪    也。今日固决死,愿为诸君快战,必三胜之,为诸君溃围,斩将,刈旗,令    诸君知天亡我,非战之罪也。乃分其骑以为四队,四向。汉军围之数重。项    王谓其骑曰:吾为公取彼一将。令四面骑驰下,期山东为三处。于是项王    大呼驰下,汉军皆披靡,遂斩汉一将。是时,赤泉侯为骑将,追项王,项王    瞋目而叱之,赤泉侯人马俱惊,辟易数里。与其骑会为三处。汉军不知项王    所在,乃分军为三,复围之。项王乃驰,复斩汉一都尉,杀数十百人,复聚    其骑,亡其两骑耳。乃谓其骑曰:何如?骑皆伏曰:如大王言。    于是项王乃欲东渡乌江。乌江亭长檥船待,谓项王曰:江东虽小,地    方千里,众数十万人,亦足王也。愿大王急渡。今独臣有船,汉军至,无以    渡。项王笑曰:天之亡我,我何渡为!且籍与江东子弟八千人渡江而西,    今无一人还,纵江东父兄怜而王我,我何面目见之?纵彼不言,籍独不愧于    心乎?乃谓亭长曰:吾知公长者。吾骑此马五岁,所当无敌,尝一日行千    里,不忍杀之,以赐公。乃令骑皆下马步行,持短兵接战。独籍所杀汉军数    百人。项王身亦被十馀创。顾见汉骑司马吕马童,曰:若非吾故人乎?马    童面之,指王翳曰:此项王也。项王乃曰:吾闻汉购我头千金,邑万户,    吾为若德。乃自刎而死。王翳取其头,馀骑相蹂践争项王,相杀者数十人。    最其后,郎中骑杨喜,骑司马吕马童,郎中吕胜、杨武各得其一体。五人共    会其体,皆是。故分其地为五:封吕马童为中水侯,封王翳为杜衍侯,封杨    喜为赤泉侯,封杨武为吴防侯,封吕胜为涅阳侯。       太史公曰:吾闻之周生曰舜目盖重瞳子,又闻项羽亦重瞳子。羽岂    其苗裔邪?何兴之暴也!夫秦失其政,陈涉首难,豪杰蜂起,相与并争,不    可胜数。然羽非有尺寸,乘势起陇亩之中,三年,遂将五诸侯灭秦,分裂天    下而封王侯,政由羽出,号为霸王,位虽不终,近古以来未尝有也。及羽背    关怀楚,放逐义帝而自立,怨王侯叛己,难矣。自矜功伐,奋其私智而不师    古,谓霸王之业,欲以力征经营天下,五年卒亡其国,身死东城,尚不觉寤,    而不自责,过矣。乃引天亡我,非用兵之罪也,岂不谬哉!( 9 ) 《史记》卷十八《高祖功臣侯者年表》:    魏其(周定),以舍人从沛,以郎中入汉,为周信侯,定三秦,迁为郎    中骑将,破籍东城,侯,千户。    高陵(王周),以骑司马,汉王元年从起废丘,以都尉破田横、龙且,追    籍至东城,以将军击布,九百户。( 10 ) 另外,灌婴部下抢得项羽肢体的五人,即王翳、吕马童、杨喜、杨武、吕胜,皆赐爵列侯,在《高祖功臣侯者年表》中注明击斩项羽、共斩项羽或从灌婴共斩项羽。《樊郦滕灌列传》记他们随从灌婴追项籍至东城,破之,共斩项籍。这五人共斩项羽的地点自然是在东城。   以上是《史记》中有关项羽之死的文字。从《高祖本纪》、《樊郦滕灌列传》,到《高祖功臣侯者年表》,再三再四再五地明确记载项羽死于东城。特别是《项羽本纪》写了乌江亭长与项羽对话之后的悲壮场面,紧接着的太史公曰,仍然称项羽身死东城,尚不觉寤。全部《史记》对于项羽身死之地,没有异词。  项羽死于东城,是确定无疑的。 那后世为什么又流行乌江说呢?乌江说唯一的依据,是《项羽本纪》最后项王乃欲东渡乌江,乌江亭长檥船待两句记叙以及乌江亭长同项羽的对话。这一段文字究竟是否表明项羽死于乌江,就要进行具体分析了。 项王乃欲东渡乌江,乌江亭长檥船待十五个字,加上乌江亭长同项羽的对话,或许容易理解为项羽到了乌江而临江不渡;但认真细心地推敲,这一段文字并没有说项羽到了乌江。再联系前后文看,项羽那一天是到不了乌江的。如果研究者去事件发生地作一番实地考察,就会完全明白,项羽不是死于乌江。历史上流行的乌江说,追根溯源,确是出于对项王乃欲东渡乌江一段文字的误读。 班固对项羽死于东城的认同   《史记》关于项羽死于东城的记载,班固完全认同而没有异议。《汉书》的《高帝纪》记曰: 五年,十二月围羽垓下。羽夜闻汉军四面皆楚歌,知尽得楚地,羽与数   百骑走,是以兵大败。灌婴追斩羽东城,楚地悉定。( 11 ) 《汉书》卷四十一《樊郦滕灌傅靳周传》记曰:    项籍败垓下去也,婴以御史大夫将车骑别追项籍至东城,破之,所将卒五    人共斩项籍,皆赐爵列侯。降左右司马各一人,卒万二千人,尽得其军将吏。    下东城、历阳,度江,破吴郡长吴下,得吴守,遂定吴、豫章、会稽郡。( 12 ) 《汉书》卷十六《高惠高后文功臣表》:    魏其严侯周止,以舍人从起沛,以郎中入汉,为周信侯,定三秦,以为骑 郎将,破项籍东城,侯,千户。    高陵圉侯王虞人,以骑司马,汉王元年从起废丘,以都尉破田横、龙且,    追籍至东城,以将军击布,侯,九百户。( 13 ) 灌婴部下因抢到项羽肢体而封侯的五人,在《汉书》的《高惠高后文功臣表》亦如《史记》的《高祖功臣侯者年表》,注明其共斩项羽、共击斩项羽或从灌婴共斩项羽。不言而喻,他们都是随从灌婴追项籍至东城所立之功。   《汉书》卷三十一《陈胜项籍传》关于项羽末路的一段文字:    羽壁垓下,军少食尽,汉帅诸侯兵围之数重,羽夜闻汉军四面皆楚歌,乃惊曰:汉皆已得楚乎?是何楚人多也!起饮帐中。有美人姓虞氏,常幸从;骏马名骓,常骑。乃悲歌慷慨,自为歌诗曰:力拔山兮气盖世,时不利兮骓不逝。骓不逝兮可奈何,虞兮虞兮奈若何!歌数曲,美人和之。羽泣下数行,左右皆泣,莫能仰视。    于是羽遂上马,戏下骑从者八百馀人,夜直溃围南出驰。平明,汉军乃觉 之,令骑将灌婴以五千骑追羽。羽渡淮,骑能属者百馀人。羽至阴陵,迷失道, 问一田父,田父绐曰左。左,乃陷大泽中。以故汉追及之。羽复引而东,至 东城,乃有二十八骑。追者数千,羽自度不得脱,谓其骑曰:吾起兵至今八岁 矣,身七十馀战,所当者破,所击者服,未尝败北,遂伯有天下。然今卒困于 此,此天之亡我,非战之罪也。今日固决死,愿为诸军决战,必三胜,斩将, 艾旗,乃后死,使诸君知我非用兵罪,天亡我也。于是引其骑因四隤山而为圜 陈外向。汉骑围之数重。羽谓其骑曰:吾为公取彼一将。令四面骑驰下,期山东为三处。于是羽大呼驰下,汉军皆披靡,遂杀汉一将。是时,杨喜为郎骑,追羽,羽还叱之,喜人马俱惊,辟易数里。与其骑会三处。汉军不知羽所居,分军为三,复围之。羽乃驰,复斩汉一都尉,杀数十百人。复聚其骑,亡两骑。乃谓骑曰:何如?骑皆服曰:如大王言。    于是羽遂引东,欲渡乌江。乌江亭长檥船待,谓羽曰:江东虽小,地方 千里,众数十万,亦足王也。愿大王急渡。今独臣有船,汉军至,亡以渡。羽笑曰:乃天亡我,何渡为!且籍与江东子弟八千人渡而西,今亡一人还,纵江东父兄怜而王我,我何面目见之哉?纵彼不言,籍独不愧于心乎?谓亭长曰:吾知公长者也,吾骑此马五岁,所当亡敌,尝一日千里,吾不忍杀,以赐公。乃令骑皆去马,步持短兵接战。羽独所杀汉军数百人。羽亦被十馀创。顾见汉骑司马吕马童,曰:若非吾故人乎?马童面之,指王翳曰:此项王也。羽乃曰:吾闻汉购我头千金,邑万户,吾为公得。乃自刭。王翳取其头,乱相蹂蹈争羽相杀者数十人。最后,杨喜、吕马童,郎中吕胜、杨武,各得其一体。故分其地以封五人,皆为列侯。       赞曰:周生亦有言,舜盖重童子,项羽又重童子,岂其苗裔邪?    何其兴之暴也!夫秦失其政,陈涉首难,豪杰蜂起,相与并争,不可胜数。然    羽非有尺寸,乘势拔起陇亩之中,三年,遂将五诸侯兵灭秦,分裂天下而威海    内,封立王侯,政繇羽出,号为伯王,位虽不终,近古以来未尝有也。及羽背    关怀楚,放逐义帝,而怨王侯畔己,难矣。自矜功伐,奋其私智而不师古,始    霸王之国,欲以力征经营天下,五年卒亡其国。身死东城,尚不觉寤,不自责    过失,乃引天亡我,非用兵之罪也,岂不谬哉!( 14 )   班固纂修《汉书》时,凡《史记》已经写了的,即采用《史记》的文字,但有所剪裁,调整,改易;班固认为《史记》原文有不足或不妥的,俱适当订补。如《史记》在《高祖本纪》之后,接以《吕后本纪》,中间没有《惠帝本纪》;班固考虑到惠帝是帝位的继承者,在《汉书》中增设了《惠帝纪》。《史记》中,没有专门为张骞立传;班固将《史记》的《大宛列传》加以改易、补充,成《张骞李广利传》。《史记》设《项羽本纪》;《汉书》将项羽编入列传,与陈胜合传。《项羽本纪》里某些详写的史实,包括鸿门宴那样的精彩描写,在《汉书》里移进了《高帝纪》。《史记》的《高祖本纪》记刘邦为泗水亭长,《樊郦滕灌列传》记刘邦任亭长的是泗上亭, 有一字之差。《汉书》的《高帝纪》和《樊郦滕灌傅靳周传》统一称这个亭为泗上亭。《史记 . 项羽本纪》记项羽有美人名虞;《汉书 . 陈胜项籍传》记有美人姓虞氏。 《史记 . 项羽本纪》中有称项王的,《汉书》一律改为羽。《史记 . 项羽本纪》记项羽火烧咸阳以后欲东归,有人劝他留在关中,项羽却说富贵不还乡,如衣锦夜行,这个人背地里议论:人言楚人沐猴而冠耳,果然。项羽得知,就把这个人杀了。《史记》只称此人为说者,《汉书 . 陈胜项籍传》记这位说者为韩生。我们如果将《史记》的《高祖本纪》、《项羽本纪》、《陈涉世家》、《樊郦滕灌列传》、《高祖功臣侯者年表》,同《汉书》中的《高帝纪》、《陈胜项籍传》、《樊郦滕灌傅靳周传》、《高惠高后文功臣表》,仔细加以对比,可以看到字句上有不少的出入。值得我们深思的是,《史记》关于项羽死于东城的多次记载,班固一个不漏地照原样写在《汉书》里,甚至太史公曰的身死东城,尚不觉寤,也变成他班固的赞。笔者在《汉书》中没有发现关于项羽身死之地还有另外的说法。    按袁传璋先生的解释,《史记》写项羽死于东城的文字,文义不足。班固如果也有袁先生这种想法,那应该会在《汉书》的有关部分添加字句以足义。可是,班固没有这么作。班固完全认同《史记》关于项羽死于东城的记叙。 后世的误读、臆改与讹传 《史记》、《汉书》只说项羽欲东渡乌江,没有说项羽到达乌江。后世流行乌江自刎说,皆因错会《史记》、《汉书》本文的意思,以为项羽那天奔到了乌江边而后自刎。据现存文献考索,这种误解,始于东汉末年的荀悦。荀悦生于东汉建和二年(西历 148 年),卒于建安十四年(西历 209 年)。他奉献帝抄撰《汉书》,略举其要的诏命,撰成编年体史书《汉纪》三十卷。其卷三关于项羽垓下突围后的记叙是:   五年十有二月,诸侯皆会垓下,围项羽数重。夜闻汉军四面皆作楚歌,羽惊曰:汉已尽得楚乎?是何楚人歌之多也!夜起饮帐中,有美人曰虞姬,有骏马曰骓。羽乃慷慨悲歌曰:力拔山兮气盖世,时不利兮骓不逝。骓不逝兮可奈何,虞兮虞兮奈若何!羽遂上马,从八百馀骑,直夜溃围南出。平明,汉军乃觉之,命骑将灌婴以五千骑追羽。羽至阴陵,迷失道路,汉军追及之。至 东城,乃有二十八骑。追者数千。羽谓其骑曰:吾起兵八岁矣,身经九十馀战, 所当者破,未尝败。今困于此,固天亡我,非战之罪也。今日固决死,愿为诸 军决战。于是引其骑因四隤山为圆阵。汉军围之数重。羽谓其骑曰:吾为公 取彼一将。于是羽大呼驰下,汉军皆披靡,遂取汉一将。骑将杨喜追羽,羽还 叱,喜人马俱惊,辟易数里。羽分其骑为三处,汉军不知羽所在,分军为三处, 复围之。羽乃驰击汉军,复取一都尉,杀百人。羽复聚其骑,亡两骑。于是羽 引军东至乌江,亭长曰:江东虽小,地方千里,众数十万,亦足以王也。愿大 王急渡。今独臣有船,汉军至,无以渡。羽曰:籍与江东子弟八千人渡江而 西,今无一人还者,纵江东父兄怜而王我,我何面目见之哉?吾知公长者也。 吾骑此马五岁,常以一日行千里,吾不忍杀之,以赐公。乃令骑皆去其马,短 兵接战,复杀汉军百人。羽亦被十馀创,乃自刭而死。本传曰:羽背关怀 楚,放逐义帝,自矜功伐,而不师古,霸王之业,始欲以力征经营天下,五年 卒亡,身死东城,尚不觉悟,以为非己之罪, 岂不过哉!( 15 ) 《史记》写的是项王乃欲东渡乌江,《汉书》写的是羽遂引东,欲渡乌江;荀悦却改为羽引军东至乌江,接以亭长的愿大王急渡等语。东至乌江就是到达了乌江。这是对《史记》、《汉书》本文的重大改窜。同时,荀悦又把项羽自刎前独杀汉军数百人,改为杀汉军百人;荀悦觉察到了如果项羽那天到达乌江,又独杀汉军数百人,时间上有矛盾。 顾炎武曾经批评《汉纪》:荀悦《汉纪》,改纪、表、志、传为编年,其叙事处,索然无复意味,间或首尾不备。其小有不同,皆以班书为长,惟一二条可采者。( 16 )荀悦奉旨抄撰汉书,他将项羽欲东渡乌江改为东至乌江,不仅违背了《史记》、《汉书》的本义,也开启了后世乌江自刎之说。西晋虞溥的《江表传》中出现项羽败至乌江一语。( 17 )项羽败至乌江而自刎的说法,渐渐流行。大约唐朝的时候,乌江县的江边修建了霸王祠,指为项羽自刎之地,骚人墨客多有凭吊吟叹者,于是项羽乌江自刎一说,又衍生出诗文、辞赋乃至戏曲。这,距项羽之死已经千年以上了。用文学和民俗学的眼光看,这些艺文作品以及由传说形成的所谓遗迹,都有相当的价值,应当永久地存在;而以考据的眼光看,它们都不能作为论证项羽身死之地的史料。和县项羽与乌江文化研究室编印的书中,多位作者把霸王祠及相关诗文作为项羽死于乌江的证据,而且不容置疑。笔者觉得好笑。最近,几家电视台正在热播历史剧《杨贵妃秘史》,颇有新意,如果五百年后中国再出一个袁传璋教授,说不定要把这部电视剧作为考证杨贵妃生平的史料呢! 乃欲东渡乌江未到乌江 乌江自刎说的唯一根据,是《史记 . 项羽本纪》中项王乃欲东渡乌江,乌江亭长檥船待两句记叙以及乌江亭长同项羽的对话。现在我们依次加以分析,看乌江自刎一说能否成立,看这种说法是不是出于对《史记》本文的误读。 《史记》写项羽从大泽中脱身,引兵而东,至东城,乃有二十八骑,而追上来的汉军骑兵有数千人。项羽估计自己逃不脱了。为了表明此天之亡我,非战之罪也,项羽将其人马分作四队,冲入敌阵,他亲自斩汉军的一将。项羽的人冲出来以后,分三处汇合在山的东面。汉军不晓得项羽在哪一处,便将人马分成三部分把项羽的三处人马都围起来。项羽带领大家再向汉军冲杀,他又斩杀汉军的一都尉,还杀死汉兵数十百人。当项羽重新聚集自己的部下时,只剩下二十六名骑兵了。这时候,项羽乃欲东渡乌江。 欲的意思是想要;东为名词活用,意思是往东;渡是渡过,从此岸到彼岸。对于这句话,冯先生有很确当的解释: 《项羽本纪》的这句话,是意向性的话,是想东渡乌江,而不是已经到了乌江。一个欲字,充分说明了它的意向性和它的未遂性,这是一。其次是东渡这个词,既具有方向性,又有距离感。东字表明乌江在东城的东面,而且含有一定的距离(据安徽省交通部门提供的资料,东城离乌江还有二百四十华里)。如果说项羽已经到了乌江渡口,而且渡船已在等待,项羽是站在乌江岸边,那就不是欲东渡的问题,而是立刻上渡船的问题了。( 18 ) 冯先生的解释符合《史记》本义与地理实际。欲是《史记》的常用字。楚、汉鸿沟之约以后,《项羽本纪》写汉欲西归,《高祖本纪》写汉王欲引而西归。两次用欲,不表示汉军有向西的行动。随后张良、陈平献计,刘邦立即发兵袭击东去的楚军。项羽乃欲东渡乌江,也是欲而已,表示项羽未到乌江,离乌江还远呢。如果项羽已经到了乌江边,或接近了乌江,就不能用欲东(想要往东去)。已经到了乌江边,或接近了乌江,还什么欲东! 关在书斋里研读《史记》,以为乌江离东城很近,项羽想着想着就到了乌江。这是许多读书人相信乌江自刎说的原因之一。现在我们讨论项羽垓下突围后是否到了乌江,有必要弄清楚乌江在哪里。今年四月中旬,深圳创维公司总裁杨东文先生,支持我的研究工作,陪我一起察看了自芜湖以下的长江两岸,又驱车北上,经全椒、滁州,到定远,过淮河,到固镇、灵璧,察看了当年项羽自垓下南逃所经之地的地形地势,并看了垓下、东城的遗址。经过实地考察,心里就有数了。 近世多有学人认为乌江是指安徽和县的乌江浦。日本学者泷川资言的《史记会注考证》,在项王乃欲东渡乌江句下考证:安徽和州有乌江浦,在乌江故县东。( 19 )这隐约地说乌江指乌江浦。王伯祥先生《史记选》的注是:乌江即今安徽省和县东北四十里江岸的乌江浦。( 20 )这就明确地说乌江是指乌江浦。长期作为高等学校教材的《中国历代文学作品选》上编第二册,对项王乃欲东渡乌江的注是:乌江,今安徽省和县东北四十里长江岸的乌江浦。( 21 )仅仅在王伯祥注的江岸前加个长字,把即改成逗号。   乌江浦之名,始见于唐代李吉甫编撰的《元和郡县图志》。《资治通鉴》的胡三省注提到过乌江浦,胡三省的根据也是《元和郡县图志》。《元和郡县图志》成书于元和八年(西历 813 年)。其和州乌江县条下记云:乌江浦,在县东四里,即亭长艤船之处。( 22 )按古人行文习惯,在县东四里是指在县城(县治所在)东边四里。乌江县一带的长江是斜北行,县东四里恰恰在长江岸边。历史上以浦为名的,或为水边,或为河口(河流注入江海的入口处),或为小河汊、小水泊。《元和郡县图志》说乌江浦是亭长艤船之处,那它就是江边某处,或许是个渡口(渡头)。把乌江解释为乌江浦,东渡乌江的意思就是东去从乌江浦渡过大江。这样说,从文法上看,勉强讲得通,但它的依据还是孤证,而且是出于项羽死后一千年的文献中。通常情况下,孤证不为定说。 《史记》中有南渡平阴津,至雒阳( 《高祖本纪》),渡白马津(《高祖本纪》),下脩武,渡围津(《曹相国世家》)等句子。( 23 )渡乌江好像与这种句子相似。但认真推敲起来,渡乌江不能与南渡平阴津、渡白马津、渡围津等相提并论。因为平阴津、白马津、围津都是津名。根据《说文》、《水经注》等书对津的解释和记述来体会,津是江河上从此岸到彼岸的水路,不是指岸边的一个渡口(渡头)。( 24 )所以平阴津、白马津、围津等能够用在动词渡之后,表示渡过这个津。而乌江如果只是江边某一处地名,或只是江边一个渡口(渡头)的名字,直接与动词渡连接,就很有些别扭。渡乌江,固然可以勉强理解为渡于乌江,但这个意思写成从乌江渡才更为明白通畅。如《史记 . 高祖本纪》记汉二年三月汉王从临晋渡(从临晋渡河)。( 25 )据颜师古的《汉书》注,临晋居河之西滨。( 26 )司马迁不写成渡临晋,也不写成渡于临晋,而写为从临晋渡,是有道理的。司马迁写渡乌江,不写成从乌江渡,也是有他的道理的。渡是从此岸到彼岸。将渡字后面的乌江,解释为河流(江、河、川等)的名字,要显得自然合理一些。 渡也是《史记》的常用字。《项羽本纪》里有项梁乃以八千人渡江而西,项梁渡淮,项王渡淮,汉王则引兵渡河,复取成皋,章邯乃渡河击赵,秦始皇游会稽,渡浙江,等等。渡后面带着江、河、淮等名词,意思是渡过江,渡过河,渡过淮水。东渡乌江应该也是这样,意思是渡过名为乌江的那条江。乌江亭长对项羽说,愿大王急渡、汉军至,无以渡。两个渡字后面的宾语省略了,被省略的宾语也是乌江。 乌江如果作为河流(江、河、川等)的名字,那肯定不是一条小河。亭长的船把项羽送走了,乌江便可以拦住数千汉兵。这当然不是一条小河。这一天早晨汉军数千骑兵从垓下出发,渡过淮河,在阴陵附近追上了项羽。淮河已顺利渡过了,能阻拦数千汉兵的乌江,必定是比淮河更大的江河。江淮丘陵地区稍大的河流只有池河和滁河,河道浅而窄,拦不住数千汉兵。再者,亭长说,渡过了乌江,就是地方千里,众数十万人,亦足王也的江东;项羽不肯渡江,也是无颜见江东父老。亭长和项羽两人的对话,表明乌江是江东、江西的分界。淮河以南,比淮河更大的江河,又在古代作江东、江西分界的,就是长江,具体地说,是长江自芜湖以下斜北行的那一段。顾炎武《日知录》里面说: 考之六朝以前,其称江西者,并在秦郡、历阳、庐江之境。盖大江自历阳 斜北下京口,故有东西之名。《史记 . 项羽本纪》:江西皆反。今之所谓 江北,昔之所谓江西也。故晋《地理志》以庐江九江,自合肥以北至寿春,皆 谓之江西。今人以江、饶、洪、吉诸州为江西,是因唐贞观十年分天下为十道, 其八曰江南道;开元二十一年,又分天下为十五道,而江南为东西二道,江南东 道理苏州,江南西道理洪州,后人省文,但称江东、江西尔。 (27) 历阳,今安徽和县。秦郡,今南京市六合区。《项羽本纪》中,亭长和项羽两人把乌江视为江东、江西的分界,那乌江当然就是长江自芜湖以下斜北行的那一段。 古人大致上把长江自芜湖以下斜北行的那一段,称为乌江。这是有历史文献资料作为佐证的。 其一,《三国志 . 魏书 . 诸夏侯曹传》写曹仁: 仁与徐晃攻破邵,遂入襄阳,使将军高迁等徙汉南附化民于汉北,文帝遣使 即拜仁大将军。又诏仁移屯临颍,迁大司马,复督诸军据乌江,还屯合肥。黄初 四年薨,谥曰忠侯。( 28 ) 据《三国志 . 魏书 . 文帝纪》记载,黄初二年四月以车骑将军曹仁为大将军,同年十一月以大将军曹仁为大司马。( 29 )黄初三年十月,孙权复叛,帝(曹丕)自许昌南征,诸军兵并进,权临江据守。( 30 )黄初四年初因瘟疫流行,魏国撤回各路军兵。三月八日曹丕返回洛阳。黄初四年三月十九日(丁未)曹仁死。( 31 )从黄初三年十月开始的魏、吴之间的这次战争,是曹丕称帝以后魏、吴之间的第一场战争,也是曹仁任大司马到去世的一年多时间里魏、吴间唯一的一次战争。关于这场战争,裴松之注引《魏书》所载曹丕丙午诏书云: 孙权残害民物,朕以寇不可长,故分命猛将三道并征。今征东诸军与权党   吕范等水战,则斩首四万,获船万艘。大司马据守濡须,其所禽获亦以万数。中   军、征南,攻围江陵,左将军张郃等舳舻直渡,击其南渚,贼赴水溺死者数千   人, (32) 诏书中说大司马曹仁据守濡须。历史上有濡须山,有濡须水。濡须水是巢湖通往长江的水道,江对岸是芜湖。《元和郡县图志》淮南道和州含山县下记云:濡须山,在县(指含山县引者注)西南七十五里。濡须水,源出巢县西巢湖,亦谓之马尾沟,东流经亚父山,又东南流注于江。( 33 )巢县今为巢湖市的居巢区,含山县今为巢湖市所辖县。古代这一带江面辽阔。曹仁统领的大军据守濡须,也就是抵近长江西岸。而《三国志 . 诸夏侯曹传》写曹仁督诸军据乌江。这可见濡须、芜湖这一带的长江,古人称为乌江。《三国志》记同一个战场的敌对两军,孙权是临江据守,曹仁是督诸军据乌江,那么,乌江与江自然都是指那一段长江。濡须水是条小河,那一带除长江外,再没有另外可以据的大江了。陈寿撰写《三国志》,有关魏国和吴国的史料,主要依据先已成书的《魏书》、《吴书》和《魏略》。一定是已有的史料中记曹仁督诸军据乌江,陈寿才能记下这么一笔。 其二,《元和郡县图志》卷二十八江南道宣州当涂县下记载: 采石戍,在县西北三十五里。西接乌江,北连建业,城在牛渚山上,与和州 横江渡相对。隋师伐陈,贺若弼从此渡。隋平陈置镇,贞观初改镇为戍。( 34 ) 戍是防卫用的营垒、城堡。牛渚,即牛渚山,在今天马鞍山市的长江边,山脚突入长江的部分叫采石矶。江对岸是和县(历阳)。此采石戍,在长江右岸,因西端在长江边而称西接乌江。这可见历史上把牛渚这一带的长江称为乌江。 又,裴駰的《史记集解》对乌江注:瓒曰:在牛渚。( 35 )裴駰是裴松之的儿子,南朝刘宋时期的人。这位称为瓒的,据颜师古说,是晋初人。( 36 )现存的关于项王乃欲东渡乌江的旧注,这算是最早的了。这个在牛渚的注,同《元和郡县图志》记采石戍时所说的乌江,是一致的,也是表示牛渚、和县(历阳)地段的长江叫乌江。 事实上,马鞍山一带的老百姓,长期把牛渚、和县地段的长江称为乌江。民间传说,项羽不肯渡乌江,乌江亭长将项羽的乌骓马渡至对岸,乌骓上岸后思念主人,翻滚自戕,马鞍落地化为一山,即马鞍山。这同传说项羽自刎于今乌江镇江边,地点又不一样。传说,自然不能当真,但能说明那个地方的老百姓把牛渚、和县一带的长江视为乌江。 其三,《水经注》的相关记载。张守节《史记正义》在项王乃欲东渡乌江句下注: 《注水经》云:江水又北,左得黄律口,《汉书》所谓乌江亭长檥船以待项 羽,即此也。( 37 ) 《水经注》的这一条,不见于流传至今的《水经注》。清代殿本《史记》的《史记卷七考证》于此引文下注云:此条今本《水经注》无之。( 38 )这一部分早已散佚了,幸好有张守节的《史记正义》把这一条保存下来,让我们今天有一个佐证。至于《水经注》记下的黄律口,如今不知道具体在什么地方;但《水经注》的这一段话,很清楚地说乌江亭长檥船之处是在长江边上,而且是在长江向北行的那一段的江边。这段话无疑也就是说,乌江亭长愿大王急渡的江,是长江;所谓乌江,指那里的长江。《水经注》的作者郦道元是南北朝时的北魏人,在现存的历史文献中,他这段话是最早解释乌江亭长檥船之处的。 长江自芜湖以下斜北行的一段,芜湖、濡须处于这一段之首,乌江县(西晋始置,县治在今和县乌江镇)处于这一段的尾部,牛渚、历阳处于这一段的中间。根据以上存在于史籍中的零星文字,我们有理由相信,古人大致上把这一段长江称为乌江。古代由于活动范围和信息资源的限制,人们很难掌握长江的全貌,因而长江的某些部分就有另外的名称,如金沙江、荆江、浔阳江,等等。乌江,也是长江一段的名称    笔者主张把乌江解释为长江的一段(长江自芜湖以下斜北行的那一段),不同意解释为乌江浦。但笔者认为,两种解释,还可以继续讨论与探索。重要的是,无论是把乌江理解为长江的一段,还是理解为长江边上的泊船处,项羽乃欲东渡乌江,是想要往东去渡过长江。这是肯定无疑的。 亭长是县吏,檥船不是驾船    项羽乃欲东渡乌江是心中所想,表示没有到乌江,离乌江还远。那紧接着的乌江亭长与项羽的见面及对话,就不能认为是在长江边上。读者对此可能有所疑惑。如果我们正确了解了亭长的身份和职务的性质,了解了檥船的词义,便可以明白乌江亭长并不是驾着船在长江边迎候项羽。   袁传璋先生说:战争时期亭长自必掌控渡江之舟。作为西楚霸王的臣民,得到项王正在四隤山与汉军追骑激战的情报,亭长不难判断项王此番南下必为渡江,于是他将渡船栊在码头期待项王迅急登舟。( 39 )袁先生这些想象算得上生动而新奇。可惜,考证是凭史料说话,想象之词作不了证据。袁先生若写个电视剧,题名为亭长在行动,这些想象之词或许能派上用场。   《汉书 . 百官公卿表》写道:大率十里一亭,亭有长;十亭一乡,乡有三老、有秩、啬夫、游徼。我们过去把亭长理解为村长、保长一类的角色。近年有学者进一步研究文献资料和出土文物,认为秦汉的亭不是地方一级行政单位,而是县廷派驻在外负责禁盗贼等事的机构,有点类似于现代的派出所。当时基层的行政区域依次是县、乡、里。各个亭当然也会有负责的区域,但亭不是一个行政区域。亭长也不是村长、保长之类的基层行政头目;而是县廷之吏。( 40 )笔者以为,这样的看法大致上是符合历史实际的。我们看,《史记 . 高祖本纪》开头:高祖,沛丰邑中阳里人。里之上并没有某某亭。《高祖本纪》记载,刘邦及壮,试为吏,为泗水亭长,廷中吏无所不狎侮。又记载,高祖为亭长,乃以竹皮为冠,令求盗之薛,治之,时时冠之(薛县故址在今山东滕州市南),高祖以亭长为县送徒郦山,徒多道亡。( 41 )《汉书 . 高帝纪》颜师古对廷中的注释是:廷中,郡府廷之中。( 42 )从刘邦任亭长时狎侮廷吏及其差事的活动范围来看,亭长不是守着本村本土的基层行政头目;做亭长的人常出入县廷,又外出到很远的地方为县廷办差事。   由于亭长不是守着本村本土的基层行政头目,而是经常出入县廷、外出办差并交际广泛的官吏,这时候又是战乱时期,项羽在东城附近与乌江亭长见面就是合乎情理的事情了。至于他们是什么缘由见的面,见面的具体安排如何,史书上没有说,我们也不必去猜测。史书是记载历史,不是复制历史。历史事件有很多具体过程和细节,史书是记不下来的。   再说檥船,旧注解说不一。裴駰的《史记集解》引诸家说:   应劭曰:檥,正也。孟康曰:檥音蚁,附也,附船著岸也。如淳曰:南   方人谓整船向岸曰檥。( 43 ) 而司马贞的《史记索隐》,又说: 檥字,服、应、孟、晋各以意解尔。邹诞生作漾船,以尚反,刘氏亦有 此音。( 44 ) 司马贞对他之前各种关于檥的注释都表示怀疑。他介绍的邹诞生作漾船,也只能算是一说。这可以看出,直到唐代,关于檥字还没有确定的解释。 唐宋时的地理书《太平寰宇记》、《舆地纪胜》等把乌江亭长檥船待,改为乌江亭长艤船待。流传下来的《元和郡县图志》,淮南道等部分已缺佚,《舆地纪胜》引录《元和郡县图志》的文字也作亭长艤船待。又,左思的《蜀都赋》中有试水客,艤轻舟一句。李善注中引《项羽本纪》及旧注文字,均作艤船。( 45 )好像唐宋时候檥和艤已经相混。宋朝人编撰的《广韵》,也注明檥同艤。以后诗文中用艤舟、艤船的甚多,意思是拢船靠岸。现代学人注释《项羽本纪》,对檥船也大都解释为拢船靠岸。然而,这样的解释在两汉文献中找不到依据。《史记》、《汉书》俱作檥船,《水经注》的引用也作檥船。《说文解字》中有檥,没有艤。 我们对檥船的解释,也要回归司马迁、班固的时代,要撇开后人杂乱的解说,直接从古代经典文献入手,探讨檥船本来的意义。《说文 . 木部》:檥,榦也。榦,筑墙耑木也。 (46) 所谓筑墙耑木,是古代筑墙时于夹板两头所立的起固定作用的木柱。段玉裁注:耑为两头也。假令版长丈,则墙长丈。其两头所植木曰榦。段玉裁又说:《释诂》云:桢、翰、儀,榦也。许所据《尔雅》作檥也。人儀表曰榦,木所立表亦为榦。其义一也。《史记》乌江亭长檥船待,檥船者,若今小船两头植篙为系也。 (47) 段玉裁根据《说文》、《尔雅》等典籍,对檥船作出了自己的解释。《史记集解》里诸家中,应劭是东汉人。应劭解檥为正,也是有根据的;因为榦有正的意思。郝懿行《尔雅义疏》解释说:按两边立木所以榦正墙体,故榦又训正。《易》榦父之蛊,《诗》榦不庭方,虞翻注及《韩诗章句》并云榦,正也。( 48 )榦训正,《易 . 蛊》的榦父之蛊,意为整顿前人败坏的事业;《诗经 . 大雅 . 韩奕》的榦不庭方,意为安定不朝觐的方国诸侯。榦训为正,檥,榦也,所以榦、檥都有正的意思。檥作为正讲,就是整理、安顿的意思。檥船,大体上可以理解为安置着船,备有船。 无论是把檥船理解为若今小船两头植篙为系者,还是理解为安置着船,备有船,都说明在司马迁、班固的时代,檥船并没有在水上驾船靠岸的意思。亭长檥船待,也就不必解释为亭长驾着船向岸边靠拢迎接项王。 联系前后文看,乌江亭长是在东城附近与项羽见面的。檥船待,是表示他备有船。 联系前后文看,项羽那天到不了乌江 项羽乃欲东渡乌江,乌江亭长檥船待,表示项羽未到乌江,离乌江还远。如果联系前后文看,项羽垓下突围那一天是到不了乌江的。 我们看《史记》所写,项羽从垓下直夜溃围南出,渡过淮河,到阴陵,陷进了大泽中。平明从垓下出发的汉骑兵,赶上了项羽。项羽从大泽中脱身,带着人马往东逃,至东城,乃有二十八骑,而追上来的汉军骑兵有数千人。项羽估计自己逃不脱了,为了表明此天之亡我,非战之罪也,项羽带领大家向汉军冲杀了两次。这两次冲杀,溃围,《史记》紧接在至东城之下写的,表示两次冲杀发生在东城附近。两次冲杀中,项羽亲自斩汉军的一将,斩汉军的一都尉,还杀死汉兵数十百人,当项羽重新聚集自己的部下时,只剩下二十六名骑兵了。众人都表示拜服,说诚如大王所言。《史记》在此又接着写于是项王乃欲东渡乌江。于是是个顺接连词,表示后一事紧接着前一事。也就是说,项王乃欲东渡乌江,是紧接着两次冲杀、众人都表示拜服之后的。此时,项羽的人马还在东城附近。 长江西岸离东城最近的点在今和县的乌江镇一带。据安徽省交通部门向冯先生提供的资料,乌江镇离东城有二百四十华里。笔者在这条路上,来回看了几次,其地形地势,极不适宜于骑兵奔驰。二百四十里路,不是一想就可能跑到的,也不是想着想着一会儿就到了的,也不是两人短暂对话的时间就能到达的。 项羽在东城附近的第一次冲杀、溃围,《项羽本纪》是这样写的:乃分其骑以为四队,四向。汉军围之数重。项王谓其骑曰:吾为公取彼一将。令四面骑驰下,期山东为三处。于是项王大呼驰下,汉军皆披靡,遂斩汉一将。司马迁没有写项羽把人马聚在小山上,但有令四面骑驰下,期山东为三处的句子,表明这次冲杀是从山上往下冲的。班固在《汉书》中补足了文义,写道: 于是引其骑因四隤山而为圜陈外向。汉骑围之数重。羽谓其骑曰:吾为公 取彼一将。令四面骑驰下,期山东为三处。于是羽大呼驰下,汉军皆披靡,遂 杀汉一将。 四隤山是四面皆为缓坡的小山。颜师古注引孟康的解释:四下隤陁也。隤陁就是斜坡、缓坡的意思。孟康和颜师古把四隤山解释为四下隤陁的山,没有说它是某一个山的名字。中华书局标点本也没有在四隤山旁打上山名或地名的标号。《水经注》卷三十(淮水)写道: 淮水又东,池水注之。水出东城县,东北流,逕东城县故城南。汉以数千骑 追羽,羽帅二十八骑引东城,因四隤山斩将而去,即此处也。( 49 ) 郦道元明确地说项羽因四隤山斩将的地方,在东城县故城附近。这表明,至少在郦道元的时代,人们仍认为项羽因四隤山(凭借四下隤陁的山)的冲杀是发生在东城县城附近。 袁传璋先生为证明项羽到达了乌江边而后自刎,提出四隤山是距乌江不足三十华里的一座山,项羽由此 片刻可至 乌江。( 50 )袁传璋先生的根据,是宋代和清代的几种地理书籍。这几种书籍所著录的四隤山(或四溃山),位置各有不同,袁传璋先生选取离乌江最近的一说,即南宋王象之《舆地纪胜》所记在乌江县西北三十里。 我国古代的历史故事在民间流传时,民间常把某某地方附会为历史故事的发生处。因此,谭其骧先生特别告诫学人不要贸然把前人记载的传说当作真实史料看待。四隤山在乌江县西北三十里的说法,明显不符合《史记》、《汉书》及《水经注》的记叙,袁先生却深信无疑。尤为好笑的是,袁先生郑重引以为据的文字有这样一句:今山石上有走马足痕。项羽当年马蹄的痕迹,到南宋时还留在这座四隤山上!稍明事理的读者,都知道这是传说与附会。 笔者不想在四隤山的问题上过多讨论,我们考察一下从垓下到长江边的路程,便可以明白,项羽垓下突围那一天是到不了长江边的。 从垓下,至东城,有三百多里;从东城到最近的长江边,有二百四十里。淮河以北是平原,淮河以南是山地和丘陵。东城一带和东城以南百多里,山峰绵亘,冈峦起伏,当地百姓有地无三尺平之说。池河绕东城的城南和城东,流向淮河,像一根青藤把东城县城倒挂在那里。池河和长江的支流滁河,是拦在东城与长江之间的两条有名的河流。此外,丘陵岩层间还有许多小河、小溪、小沟壑、小水泊,有的有名字,有的没有名字。项羽在东城冲杀两次以后,凭他尚未耗尽的勇气,当然有可能翻山越岭、涉水蹚河,继续冲杀,所以他还想到往东去渡乌江。但是,处于这种极不适宜骑兵奔驰的地形地势条件,又在数千汉军的围追堵截之中,项羽继续往前冲是非常困难的,是不可能冲杀多远的。笔者在东城遗址附近考察的时候,曾对同行的朋友说:项羽跑到这个地方,真是走进了绝地。项羽在穷途末路、知天亡我的情况下,放弃东渡乌江的想法,最后作自杀性的一搏。 项羽两次冲杀,亲自斩汉军的一将、一都尉,杀数十百人。在同乌江亭长对话后,项羽率二十六骑,弃马步行,作自杀性的拼搏,独籍所杀汉军数百人,项王身亦被十馀创。读者算一算,先杀死汉兵数十百人,后杀死汉军数百人,需要多少时间?灌婴所部,是刘邦特别组织的一支骑兵部队,能征惯战,屡屡击败楚军。( 51 )这数十百人和数百人不会站在那里等项羽去杀,他们要拼搏,所以项羽身亦被十馀创;即使不拼搏,也要骑着马跑,项羽赶着杀,也需要时间。数十百人,起码五十人以上,算五十人;数百人,起码两百人以上,算两百人。项羽前后杀死汉兵起码两百五十人。若平均三分钟杀一人,这两百五十人杀下来,也要十几个小时。而项羽步战独杀汉兵数百人以后,天还没有黑,因为遇到故人吕马童,彼此都认得出。项羽自刎后,汉军争夺他的尸体,自相残杀,死数十人。这场争夺也不像是在黑暗中进行的。这样算起来,项羽从垓下溃围南奔,渡淮河,陷大泽,先后与汉军骑兵搏斗,杀汉军一将、一都尉,杀数十百人和数百人,共需时间十多个小时。那他这一天赶路的时间只有两、三个小时或稍多一点时间,大体上也只能走垓下到东城这一段路程。项羽的马日行千里,古代的一里比后世的一里要短。顾炎武说:千里之马,亦日驰五六百里耳。( 52 )两、三个小时,三、四个小时,项羽的乌骓只能从垓下跑到东城一带。 项羽那一天是到不了乌江边的,也不可能接近乌江。项羽到不了乌江,也就不存在乌江自刎的事。   项羽死于东城     《史记》再三再四再五地明确记载项羽死于东城。这是无可争辩的。经过前面的分析,我们又可以明了,《项羽本纪》关于项羽之死的具体描叙,实际也是表示项羽死在东城。现存的《史记》文本,没有写项羽死于乌江。   东城为秦置县,属九江郡。秦以前为楚地。公元前 223 年,秦军攻占楚国新都寿春,灭楚国。公元前 221 年,秦统一全国,全面推行郡县制,在淮河以南、赣江流域以东一片地区,设九江郡,郡治寿春(今安徽寿县)。由于历史文献的缺失,秦朝的九江郡究竟包括哪些县,现在还没有准确的说法;各县的地域范围,更是不得其详。现在基本可以考定是秦九江郡属县的,有:寿春、曲阳、安丰、新淦、锺离、六县、阴陵、东城、历阳、居巢、番阳等。另外,有人认为,全椒、建阳也是秦所置县。( 53 )东城县处于江淮丘陵中部,县城(县治)在池河北侧(今定远县城东南五十里)。历阳县(今和县)在滁河与长江之间,县城濒临大江,对岸即牛渚山,灌婴下东城、历阳,渡江,应当是从这里渡过长江。   秦朝在江淮地区实行郡县制,不过十来年时间,陈胜、吴广起义,诸郡县苦秦吏者,皆刑其长吏,杀之以应陈涉。( 54 )陈胜起义的当年(公元前 209 年),陈胜的部属葛婴带兵到了东城。葛婴在东城立襄强为楚王,随后听说陈胜已经称王,葛婴便杀了襄强。公元前 207 年秦朝灭亡。公元前 206 年,项羽自立为西楚霸王,领有梁、楚九郡之地;又分封天下诸侯,黥布被封为九江王,领有秦九江郡的大部分地方,王都在六县(今安徽六安市区)。不久,黥布背叛项羽,投奔刘邦,被立为淮南王,黥布所领有的九江地方被楚军占领。垓下决战之前,黥布策动驻守九江地方的楚军背叛项羽,参与垓下围攻项羽的战斗。   随着农民起义和秦朝灭亡,秦朝的郡县官僚行政体制土崩瓦解。各地大小城邑,成为乱世英雄们反复争夺的要地。顾炎武说:秦楚之际,兵所出入之途,曲折变化,唯太史公序之如指掌。( 55 )我们看《陈涉世家》写陈胜、吴广起义: 陈胜自立为将军,吴广为都尉。攻大泽乡,收而攻蕲。蕲下,乃令符离 人葛婴将兵徇蕲以东。攻铚、酂、苦、柘、谯,皆下之。行收兵。比至陈, 车六七百乘,骑千馀,卒数万人。攻陈,陈守令皆不在,独守丞与战谯门中。   弗胜,守丞死,乃入据陈。( 56 ) 陈胜的起义部队,由大泽乡出发,攻蕲,攻铚、酂、苦、柘、谯,直至陈,并攻下陈。蕲、铚、酂、苦、柘、谯、陈,都是秦朝的县名,分别属于泗水郡(或称泗川郡)、砀郡、淮阳郡(或谓当称陈郡)。它们出现在司马迁笔下,都是指县城。司马迁将这些县城联起来,清晰地勾画出陈胜起义之初的军事行动。   司马迁叙述军队的行进与作战,涉及县名,一般都是指县城(县治所在),如城阳、濮阳、荥阳、成皋、下邑、陈留、雍丘、外黄、定陶、东阿、下邳、新蔡、固陵、钜鹿、沛、巩、砀、薛、邹,等等。至固陵,是到达固陵县城。围钜鹿,是包围钜鹿县城。军下邳,是驻扎在下邳县城。定陶未下,是定陶县城没有攻下来。破秦军濮阳东,是在濮阳县城的东面击溃秦军。项梁使沛公及项羽别攻城阳,屠之,是攻下城阳县城,屠杀城阳县城的军民。 古代邑外谓之郊,习惯上说城邑,也包括其城郊;到达某城城郊,即可以称为至某城。《陈涉世家》写陈胜的部队至陈,是到了陈县县城附近;后面攻陈、入据陈才进到城内。《高祖本纪》写刘邦起事之初,派雍齿守丰邑,雍齿背叛,刘邦十分恼怒,率领五六千人从前线还军丰,因兵力不足,刘邦请项梁援助,项梁拨给刘邦五千将士,刘邦即引兵攻丰,雍齿逃跑。( 57 )刘邦还军丰,是驻军于丰邑附近;项梁拨给他五千将士以后,才攻进丰邑。这可见至某某城之郊,或军某某城之郊,便可以说至某城,或军某城。项梁渡过淮河以后,凡六七万人,军下邳。垓下决战前,刘邦的大军至固陵,而信、越之兵不至,刘邦带的军队至少十万人以上。( 58 )现代人计算,秦楚之际的县城,东西、南北,一般各为一、二公里,六七万人军下邳,十万以上的人至固陵,肯定不能都驻城内,而是驻城内外。   《史记》涉及东城的有:《陈涉世家》写葛婴至东城,立襄强为楚王。《项羽本纪》写项王乃复引兵而东,至东城,乃有二十八骑;身死东城,尚不觉寤。《樊郦滕灌列传》写婴以御史大夫受诏将车骑别追项籍至东城,下东城、历阳。《高祖本纪》写刘邦使骑将灌婴追杀项羽东城。《高祖功臣侯者年表》记魏其破籍东城,高陵追籍至东城。唐代张守节《史记正义》对历阳的注是:和州历阳县,即今州城是也。对东城的注是:县在濠州定远县东南五十五里。( 59 )前一条注不考虑历阳县境(一个县的区域),直接以州城为历阳,州城即历阳县城。唐朝和州的州治在历阳县城,州城即县城。后一条注,定远和东城也都是指县城;因为秦朝的东城县和南北朝以后的定远县,在县境上有很大一部分是重叠的。就县城说,东城在定远东南五十五里;就县境说,两者之间没有距离,还重合一部分。从这儿可以看出,张守节认定司马迁所记的东城、历阳,是指东城县城、历阳县城。《史记》各篇的东城,都是指东城县城。项羽至东城,身死东城,灌婴追杀项羽东城,事件发生在东城县城郊外,可以说至东城,身死东城。 乌江说言不成理 乌江自刎说是否可信,过去没有人论证过。冯其庸先生的《项羽不死于乌江考》发表以后,坚信乌江自刎说的袁传璋等先生,仓促应对,写出一批辩论文章。袁传璋等先生搜集了不少材料,但这些材料对于项羽身死之地的问题,都是第四手、第五手、第六手的材料;袁传璋等先生的所谓考、平议、商榷,也言不成理。 1 、真正不明太史公的句法 乌江说的唯一依据,是《项羽本纪》最后项王乃欲东渡乌江,乌江亭长檥船待 十五个字加上乌江亭长同项羽的对话。袁传璋先生既然力挺乌江自刎说,那就应当首先对项王乃欲东渡乌江一段文字作认真的解析,指出其中哪几句确切表明项羽到了乌江而后自刎。袁先生不能具体、明白地指出来,只是抽象、含糊地说什么文字显白,毫无歧义,不言而喻。( 60 )袁先生蔽于成见,不知自省,反而指责冯先生不明太史公的句法,没有真正读通《项羽本纪》原文文本。( 61 )袁先生说: 冯先生之所以有上引的论判,原因盖出于误读太史公于是项王乃欲东 渡乌江的文本。众所周知,在先秦两汉的典籍中,介词于若与动词连用引 进处所名词构成介宾结构时,介词于经常省略而无损文意。《史记》中这种 句法更属常态,例多不备举。 《项羽本纪》中于是项王乃欲东渡乌江,完整的句式应为于是项王乃 欲东渡 乌江。在这个文句中,东渡 乌江即于乌江东渡。( 62 ) 袁先生把东渡乌江解释为东渡 乌江,或于乌江东渡,并不能证明项羽那 一天到了乌江而后自刎,不过袁先生如此一强调,倒暴露出袁先生自己真正是不明太 史公的句法。 袁先生应该先问问自己,是否把《史记》的句法搞清楚了。古代汉语中省略于而无损文意的,是动词后面带的补语。如将军战河北,臣战河南,项羽饮帐中,身死东城,追杀项羽东城。等等。由郭锡良等先生编、王力和林焘校订的《古代汉语》中说: 这种表示处所和时间的于,相当于现代汉语的介词在、到、从 等,除乎字外,现代汉语书面语言还一直沿用,如写于北京,成立于 一九四九年。但在古代汉语里,表示处所的于字有时可以不出现,让处所 名词直接用在谓语动词或动宾词组之后作补语,这是现代汉语书面语言很少用   的。( 63 ) 这已经说得很明白了,于和处所名词组成的介词结构在动词后面作补语,这个于字,有时可以不出现(省略),使处所名词直接连在动词之后。如果处所名词作动词的宾语,直接连在动词后面,就没有省略的问题。换句话说,处所名词作动词的宾语,不是介词结构省略了于字而成的。我们读《史记》和其它古典作品,常常看到动词后面带着处所名词,必须分清是补语,还是宾语;只有作补语才可能是省略了于的。袁先生看到乌江在动词渡的后面,就认为一定是省略了于字。他以为动词后面带处所名词的,都是省略了于的。《史记 . 樊郦滕灌列传》写灌婴下东城、历阳,渡江,如果按袁先生的办法加于字,变成下 东城、历阳,渡 江,并解释为于东城、历阳下,于江渡,这样别扭,读者还以为是在东城、历阳下面挖隧道过江呢!《项羽本纪》写项羽闻沛公已破咸阳,按袁先生的办法加于,变成已破 咸阳,并解释为已于咸阳破,这就会让读者理解为沛公在咸阳完蛋了。《项羽本纪》中渡字后直接带江、河、淮等名词的,共有十多处,都不是省略了于的。孔子登东山而小鲁,登太山而小天下(小是意动用法),如果按袁先生的办法加于字,变成登于东山而小于鲁,登于太山而小于天下,这成什么话!不说古人,就说袁先生自己,平常也会说到上洗手间吧,在袁先生,完整的说法是不是上于洗手间? 2 、不可信的证据 冯其庸先生的《项羽不死于乌江考》,将《史记》中关于项羽死于东城的多次明 确记载,一一列举了出来。袁传璋等先生无法否认项羽死于东城这个基本事实,他们 如何维护乌江自刎说呢?他们的思路是,想方设法证明乌江处在东城的范围内,把司马迁说的身死东城,解读为身死于东城的乌江。袁先生的几篇文章就是这样的思路。他说: 秦代的乌江亭地属东城县。司马迁叙写项羽的结局,在《项羽本纪》 正文中据事录实为自刎于乌江,而在篇终赞语中正式书为身死东城,是同篇 前后互见足义,体现了太史公严谨的史法。( 64 ) 我们先来讨论秦代的乌江亭地属东城县这个问题。在《史记》中,乌江亭只出现一次。既然名为乌江亭,大约是在乌江附近;但它的具体位置,司马迁没有说明。《汉书》也没有指明乌江亭的位置。《后汉书》、《三国志》、《晋书》都没有出现乌江亭。晋朝在历阳县以下沿长江划出一狭长地带,设置乌江县。( 65 )后来,朝代更迭,州郡频繁变动,而乌江一县的设置长期不变。到明朝初年废乌江县,以乌江县治为乌江镇,隶属和州,相沿下来,即今安徽省和县的乌江镇。 (66) 我国古代的郡县主要依山水命名,各地多有以江河为郡县名的,如九江郡、赣州、泗水县、沅江县、蕲水县、溧水县、邗江县、泾县,等等。晋代设置的乌江县,应当是因为濒临乌江而得名。《史记正义》引《括地志》云:乌江亭即和州乌江县是也。晋初为县。( 67 )这让人觉得乌江县的名称似乎来自于乌江亭。晋朝为乌江县命名,是否考虑过《史记》上的乌江亭,乌江县是不是乌江亭所在地,从唐以前的文献中找不到依据。《括地志》是唐贞观年间李泰等人所撰,成书于贞观十六年(西历 642 年)。已散佚。尔后,杜佑的《通典》在和州乌江县条下记云:本乌江亭,汉东城县也。( 68 )这又说乌江县原是汉东城县地。《通典》成书于唐贞元十七年(西历 801 年)。稍后,李吉甫的《元和郡县图志》在和州乌江县条下记云:晋太康六年始于东城置乌江县,隶历阳郡。。又记:乌江浦,在县东四里,即亭长艤船之处。( 69 )此后的志书地记将几种说法综合了起来。如《太平寰宇记》卷一百二十四淮南道和州下记云: 乌江县,东北四十里(指在州治东北四十里引者),旧十五乡,今四乡。 本秦乌江亭,汉东城县地。项羽败于垓下,东走至乌江,亭长舣船待羽处也。( 70 ) 这便把乌江亭和亭长舣船之处放在了乌江县(后来的乌江镇),并认为乌江县原为东城县地。这样的说法后来抄录在各种地志书上,流传到现在,为袁传璋等先生所接受。 袁传璋先生为乌江亭地属东城县这一说法提出的证据,即出自于《元和郡县图志》、《太平寰宇记》、《舆地纪胜》、《元丰九域志》等。( 71 )这几本地志书的成书时间,距项羽之死已千年以上。稍为严谨的学者,都不会拿相距千年以上的文字记录去论证历史问题。袁先生使用史料,完全没有时代观念,好像不知有汉,无论魏晋。 袁先生所谓秦代的乌江亭地属东城县,其根据是几种地志书在乌江县后面记下的汉东城县地。照笔者看来,乌江县为汉东城县地的说法,肯定是错的。晋朝开始设置的乌江县,不可能占有汉东城县的地方。据《汉书 . 地理志》,西汉的九江郡(汉初为淮南国,武帝时恢复九江郡)包括十五个县:寿春、浚遒、成德、橐皋、阴陵、历阳、当涂、锺离、合肥、东城、博乡、曲阳、建阳、全椒、阜陵。东城县在九江郡偏北,九江郡南部沿江的县依次有阜陵、历阳、全椒、建阳(在今来安县),一县接一县。东城县同长江之间隔着阜陵、历阳、全椒、建阳等县。东汉时,东城、阜陵、历阳、全椒等县仍然保留着。建阳县被撤销并入全椒县。据《后汉书》的《郡国志》和《孝明八王列传》,东汉曾建下邳国,在下邳国存在期间,原九江郡的锺离、当涂、东城、历阳、全椒划归下邳国。东城县同长江之间照旧隔着阜陵、历阳、全椒等县的土地。晋朝的乌江县,属淮南郡。据《晋书 . 地理志》,晋淮南郡属县有:寿春、成德、下蔡、义城、西曲阳、平阿、历阳、全椒、阜陵、锺离、合肥、浚遒、阴陵、当涂、东城、乌江。这就是说,晋朝设置乌江县,东城县及其以南的阜陵、历阳、全椒三县仍然保留着。阜陵、历阳、全椒三县把东城县与长江远远地隔开,晋朝要在沿江划出一狭长地带设置乌江县,只能从历阳县、全椒县的地面上划,划不到东城县的地盘。所谓乌江县为汉东城县地不过是以讹传讹而已。 《元和郡县图志》记晋朝于东城置乌江县,是出于纂修者的误解。《元和郡县图志》濠州定远县下有关于古迹的一条: 东城县故城,在县东南五十里。项羽自阴陵至此,尚有二十八骑,南走至乌 江亭。灌婴等追羽,杨喜斩羽于东城,即此地也。( 72 ) 这一条是记定远县境内东城县故城这个古迹的,杨喜斩羽于东城,即此地也的此地,当然是指东城县故城。然而,前面紧接的是项羽自阴陵至此南走至乌江亭,使人读起来不顺畅,甚至产生误解。纂修者之所以这样写,是因为他以为乌江亭在东城县城附近。如果想象乌江亭在东城县城附近,这一条就前后贯通了。《元和郡县图志》两条涉及东城的文字,都是基于纂修者以为乌江亭在东城县城附近而写成的。这是误解,但纂修者肯定杨喜斩羽于东城是在东城县城,则反映了历史的真相。郦道元认为项羽因四隤山的冲杀发生在东城县城附近 , 《元和郡县图志》纂修者称杨喜斩项羽于东城县城。郦道元和《元和郡县图志》纂修者知道古人行文习惯,很自然地把至东城、追杀项羽东城理解为东城县城,不像袁传璋先生硬要把东城解释为辽阔的县域。 袁先生为乌江地属东城县一说提出的证据,都是不可信的。令人感到特别奇怪的是,袁先生作为证据的几段引文,说的是汉东城县地,袁先生却说它们明确记载乌江亭原属秦置东城县。把秦、汉混为一谈。袁先生似乎被乌江呼啸糊涂了,连秦、楚、汉也分别不清。他有几句概括自己基本论点的话: 司马迁在叙写项羽的结局时,据事录实为自刎于乌江,而为了让后人清 楚地知道项王最后结局的乌江所处的县域,他运用互见法,在作为《项羽本 纪》总结的太史公曰中,按乌江所属帝国正式的行政区划的县书写为身死 东城。( 73 ) 项羽与乌江亭长见面时,秦朝已经灭亡了五年,秦的郡县体制早已瓦解,刘邦还没有称帝,大汉帝国还没有建立,江淮间乃称王称霸者角逐之地。试问袁先生,乌江所属帝国是哪个帝国? 3 、对《史记》史法的误会 袁先生力图把司马迁说的身死东城解读为死于东城的乌江,但他没有可信的证据和理由。他扯上《史记》的互见法,更是牵强附会。 从宋朝以来,研读《史记》的人,经常说到互见法。《史记》的互见法,是就叙事方法而言,因为同一个历史事件,参与的有多个人,要分散写在各个人的传记里,但一个事件对各个人物的意义不一样,所以写入各个人的传记里就有详略的不同,这样,各篇传记就形成彼此互见、互补的局面。如鸿门宴,在《项羽本纪》里详写,在《高祖本纪》、《留侯世家》、《樊郦滕灌列传》里,则分别予以略写。作为一部包含众多人物的纪传体史书,这种互见、互补的叙事方法,是巧妙的方法,也是不得不用的方法。如果一个事件在各个人物传记里,都是一样的笔墨,不仅重复,累赘,读者厌烦,也不利于表现人物和思想。《史记》多次写项羽死于东城。袁传璋先生说,《史记》写项羽身死之地,正式书为身死东城,据事录实为自刎于乌江,互见足义,体现了太史公严谨的史法。这是什么话!难道司马迁记人的死亡之地,要剖成两截分开写,一截正式的,一截非正式的,有必要这样故弄玄虚吗?项羽之外,《史记》中有哪个人物的死亡之地是分两截写的?《秦始皇本纪》记秦始皇崩于沙丘平台,沙丘是个小地名,司马迁并没有另外按帝国正式的行政区划的县书写秦始皇死地。《蒙恬列传》、《李斯列传》均直书始皇至沙丘崩,至沙丘始皇崩。( 74 )后世关于秦始皇死地也没有另外的说法。以秦始皇之尊,都没有按帝国正式的行政区划的县书写死地,如果司马迁认为项羽死于乌江,《史记》各篇自然要直书项羽死于乌江,不会书写东城。既然司马迁多次明确记载项羽死于东城,据事录实的具体描叙又没有表示死于乌江的意思,那项羽死于东城而不是死于乌江,就是确定的。 袁传璋先生的所谓正式书写与据事录实的两截史法,并不存在于《史记》之中。袁先生想把自己凭虚造说的史法,强加给《史记》。袁先生指责冯其庸先生对《史记》史法的误会( 75 ),实际上,误会《史记》史法的是袁先生自己。袁先生坚信乌江自刎说,皆由于对《史记》本文的误读、误会,或是蔽于前人的误读、误会。愿袁先生三思! 2010 年 9 月 21 日写毕 注释: --------------------------------- ( 1 )范文澜:《中国通史》第二册第 32 页,北京:人民出版社 1979 年出版。 ( 2 ) 崔瑞德、鲁惟一编,杨品泉、张书生等译:《剑桥中国秦汉史》第 113 页,北京:中国社会科学出版社 2006 年版。此书原为剑桥大学出版社 1986 年出版。 ( 3 )冯其庸:《项羽不死于乌江考》,《中华文史论丛》总第 86 辑第 250 、 261 、 269 270 页,上海:上海古籍出版社 2007 年出版。 ( 4 )冯其庸:《项羽不死于乌江考》,《中华文史论丛》总第 86 辑第 270 页,上海:上海古籍出版社 2007 年出版。 ( 5 )谭其骧:《在历史地理研究中如何正确对待历史文献资料》,上海《学术月刊》 1982 年 11 月号,第 4 5 页。 ( 6 )袁传璋:《项羽死于乌江考》,《淮阴师范学院学报》 2008 年第 2 期第 214 页。袁传璋:《 项羽不死于乌江考 研究方法平议》,《文史哲》 2010 年第 2 期第 107 、 108 页。 ( 7 )司马迁:《史记》卷八第 378 379 页,北京:中华书局 1982 年版。 ( 8 )司马迁:《史记》卷九五第 2671 页,北京:中华书局 1982 年版。 ( 9 )司马迁:《史记》卷七第 333 339 页,北京:中华书局 1982 年版。 ( 10 )司马迁:《史记》卷十八第 916 、 967 968 页,北京:中华书局 1982 年版。 ( 11 )《二十五史》第 373 页,上海:上海古籍出版社、上海书店 1987 版。 ( 12 )《二十五史》第 561 页,上海:上海古籍出版社、上海书店 1987 版。 ( 13 )《二十五史》第 421 、 426 页,上海:上海古籍出版社、上海书店 1987 版。 ( 14 )《二十五史》第 537 538 页,上海:上海古籍出版社、上海书店 1987 版。 ( 15 )《两汉纪》(上)第 35 37 页,北京:中华书局 2002 年版。 ( 16 )顾炎武著、陈垣校注:《日知录校注》(下)第 1442 1443 页,合肥:安徽大学出版社 2007 年版。 ( 17 )虞溥为西晋人,《晋书》卷八十二有传。所著《江表传》已佚,其项羽败至乌江一   语见《史记正义》引《括地志》之转述,《史记》卷七第 335 页,北京:中华书局 1982 年版。 ( 18 )冯其庸:《项羽不死于乌江考》,《中华文史论丛》总第 86 辑第 250 251 页,上海:上海古籍出版社 2007 年出版。 ( 19 ) 泷川资言:《史记会注考证》卷七第 71 页,北京:文学古籍刊行社 1955 年影印本。 ( 20 )王伯祥:《史记选》第 63 页,北京:人民文学出版社 1957 年版。 ( 21 )朱东润主编:《中国历代文学作品选》上编第二册第 58 页,上海:上海古籍出版社 1979 年版。 ( 22 )李吉甫:《元和郡县图志》(下)第 1078 页,北京:中华书局 2005 年版。按:流传下来的《元和郡县图志》,淮南道等部分已缺佚,中华书局版《元和郡县图志》的乌江浦一条,是缪荃孙从南宋王象之所著《舆地纪胜》的引文中辑录出来的。据笔者查考,《舆地纪胜》的引文是:乌江浦《元和郡县志》:在乌江县东四里,即亭长艤船之处。缪荃孙辑录时在文字上稍有变动。《舆地纪胜》的引文亭长艤船之处,《史记 . 项羽本纪》原作檥船,不知《元和郡县图志》本来是作檥船还是作艤船。 ( 23 )司马迁:《史记》卷八第 370 、 374 页,卷五十四第 2025 页,北京:中华书局 1982 年版。 ( 24 )《说文》:津,水渡也。(上海古籍出版社影印《说文解字注》第 555 页)《水经注》:津,河济名也。自黄河泛舟而渡者,皆为津也。河水又东北流,逕四渎津,津西侧岸临河有四渎祠,东对四渎口。(中华书局 2008 年版《水经注校证》第 142 、 143 页)关于津的词义,这里约略说之。如有必要,将另撰文详论。   ( 25 )司马迁:《史记》卷八第 370 页,北京:中华书局 1982 年版。 ( 26 )《二十五史》第 371 页,上海:上海古籍出版社、上海书店 1987 版。    ( 27 )顾炎武著、陈垣校注:《日知录校注》(下)卷三十一第 1744 1745 页,合肥:安徽大   学出版社 2007 年版。 ( 28 )陈寿:《三国志》卷九第 276 页,北京:中华书局 1985 年版。 ( 29 )陈寿:《三国志》卷二第 78 页,北京:中华书局 1985 年版。书中记己卯,以大将军曹仁为大司马,经推算,己卯为十一月十三。 ( 30 )陈寿:《三国志》卷二第 82 页,北京:中华书局 1985 年版。帝,指魏文帝曹丕。括号内的字为引者注。 ( 31 )陈寿:《三国志》卷二第 82 页,北京:中华书局 1985 年版。 (32) 陈寿:《三国志》卷二第 82 83 页,北京:中华书局 1985 年版。 ( 33 )李吉甫:《元和郡县图志》(下)第 1078 页,北京:中华书局 2005 年版。此处所引两条也是缪荃孙从其它书中辑录出来的。 ( 34 )李吉甫:《元和郡县图志》(下)第 684 页,北京:中华书局 2005 年版。 ( 35 )司马迁:《史记》卷七第 336 页,北京:中华书局 1982 年版。 ( 36 )颜师古:《前汉书叙例》,《二十五史》第 365 页,上海:上海古籍出版社、上海书店 1987 版。 ( 37 )司马迁:《史记》卷七第 336 页,北京:中华书局 1982 年版。 ( 38 )《二十五史》第 39 页,上海:上海古籍出版社、上海书店 1987 版。 (39) 袁传璋:《项羽死于乌江考》,《淮阴师范学院学报》 2008 年第 2 期第 216 页。栊 应作 拢,可能是误排。 ( 40 )严耕望:《中国地方行政制度史秦汉地方行政制度》第 240 页,上海:上海世纪出版 股份有限公司、上海古籍出版社 2007 年版。万昌华、赵兴彬:《秦以来基层行政研究》第 41 43 页,济南:齐鲁书社 2008 年版。   ( 41 )司马迁:《史记》卷八第 342 343 、 346 347 页,北京:中华书局 1982 年版。   ( 42 )《二十五史》第 369 页,上海:上海古籍出版社、上海书店 1987 版。 ( 43 )司马迁:《史记》卷七第 336 页,北京:中华书局 1982 年版。 ( 44 )司马迁:《史记》卷七第 336 页,北京:中华书局 1982 年版。邹诞生,《资治通鉴》胡三省注作邹诞本。    ( 45 )萧统编、李善注:《文选》第 188 页,上海:上海古籍出版社 1986 年版。    ( 46 )许慎撰、段玉裁注:《说文解字注》第 253 页,上海:上海古籍出版社 1986 年版。    ( 47 )许慎撰、段玉裁注:《说文解字注》第 253 页,上海:上海古籍出版社 1986 年版。    ( 48 )郝懿行:《尔雅义疏 . 释诂下》第 18 页,上海:中华书局《四部备要》本。    ( 49 )郦道元著、陈桥驿校证:《水经注校证》卷三十第 712 页,北京:中华书局 2008 年版。   按:此段文字,《校证》的断句及标点有误,引者重新作了标点。    ( 50 )袁传璋:《项羽死于乌江考》,《淮阴师范学院学报》 2008 年第 2 期第 218 页。 ( 51 )司马迁:《史记》卷九十五第 2668 2670 页,北京:中华书局 1982 年版。    ( 52 )顾炎武著、陈垣校注:《日知录校注》(下)卷三十二第 1837 页,合肥:安徽大学出版   社 2007 年版。    ( 53 )《中国历史地图集》第二册 7 8 页,上海:中华地图学社 1975 年版。马非百:《秦集史》   (下)第 630 页,北京:中华书局 1982 年版。    ( 54 )司马迁:《史记》卷四十八第 1953 页,北京:中华书局 1982 年版。 ( 55 )顾炎武著、陈垣校注:《日知录校注》(下)卷二十六第 1431 页,合肥:安徽大学出版   社 2007 年版。    ( 56 )司马迁:《史记》卷四十八第 1952 页,北京:中华书局 1982 年版。按:攻铚、   酂、苦、柘、谯的主语,是陈胜、吴广。    ( 57 )司马迁:《史记》卷八第 352 页,北京:中华书局 1982 年版。按:过去学者多   认为丰是沛县属邑,近有学者根据考古发现,认为秦代有丰县。    ( 58 )司马迁:《史记》卷七第 298 、 331 页,北京:中华书局 1982 年版。    ( 59 )司马迁:《史记》卷九十五第 2671 页,北京:中华书局 1982 年版。 (60) 袁传璋:《 项羽不死于乌江考 研究方法平议》,《文史哲》 2010 年第 2 期第 108 页。袁传璋:《项羽死于乌江考》,《淮阴师范学院学报》 2008 年第 2 期第 215 页。    ( 61 )袁传璋:《 项羽不死于乌江考 研究方法平议》,《文史哲》 2010 年第 2 期第 110 、 117   页。    ( 62 )袁传璋:《 项羽不死于乌江考 研究方法平议》,《文史哲》 2010 年第 2 期第 109 页。    ( 63 )郭锡良、唐作藩等编:《古代汉语》上册第 330 页,北京:北京出版社 1984 年版。    (64) 袁传璋:《 项羽不死于乌江考 研究方法平议》,《文史哲》 2010 年第 2 期第 108 页。   袁传璋:《项羽死于乌江考》,《淮阴师范学院学报》 2008 年第 2 期第 214 页。 ( 65 )《晋书 . 地理志下》,《二十五史》第 1295 页,上海:上海古籍出版社、上海书店 1987 版。 ( 66 )今南京市浦口区亦有乌江镇,与和县乌江镇仅驷马河相隔,一桥连接。南京市的乌江镇属于古代乌江县境。 ( 67 )司马迁:《史记》卷七第 336 页,北京:中华书局 1982 年版。 ( 68 )杜佑:《通典》第 963 页,上海:商务印书馆 1935 年版。 ( 69 )李吉甫:《元和郡县图志》(下)第 1077 1078 页,北京:中华书局 2005 年版。此处所引,是缪荃孙从《舆地纪胜》的引文中辑录出来的。 ( 70 )乐史:《太平寰宇记》,台北:商务印书馆影印《四库全书》第 470 册第 228 页。亭长之长原缺。 ( 71 )袁传璋:《项羽死于乌江考》,《淮阴师范学院学报》 2008 年第 2 期第 219 页。 ( 72 )李吉甫:《元和郡县图志》(上)第 236 237 页,北京:中华书局 2005 年版。    (73) 袁传璋:《项羽死于乌江考》,《淮阴师范学院学报》 2008 年第 2 期第 221 页。袁传璋:《项 羽不死于乌江说商榷》 , 《一个不容置疑的史实》第 32 页,和县项羽与乌江文化研究室 2008 年 编印。 ( 74 )司马迁:《史记》第 264 、 2548 、 2567 页,北京:中华书局 1982 年版。 ( 75 )袁传璋:《 项羽不死于乌江考 研究方法平议》,《文史哲》 2010 年第 2 期第 107 页。   
个人分类: 学术问题研究(10-11)|6086 次阅读|1 个评论
给力-老子的回归
BaoHaifei 2011-1-6 11:55
给力-老子的回归 鲍海飞  2011-1-6   2010 年最后一天央视电视台的一个晚会上,给出了这一年的一个动感流行敏感词汇竟然是给力。  虽然是两个平淡无奇的字,但在这一个时代,这一年中,我们却深深地感觉到了这两个字的分量。为什么不是给我力量吧!也许给力这样来得更快更猛烈些吧。  给字后面能够搭配的单独的汉字好像不多,其中人们最熟悉的好像就是给钱。还有一些句子与给相关。老天爷,你行行好吧 ! 上帝啊!请赐予我智慧吧!借我借我一双慧眼吧!最感人的一句应该是:爱人啊,你给我力量吧!可能还有很多与给相关。    给力显得强劲,给力生动,给力富有感召力,给力又含蓄。  但给力代表了什么?给力的背后是什么?  给力的背后是乏力,是疲弱;是不能站立、独立和自立。这也许因为我们不够努力、奋力,缺少毅力、缺少合力的凝聚力;也许因为不够强壮,不够强大,不够智慧,所以无力。谁需要力,谁能给力?  给力,给我力吧!我觉得是无奈的吼声!  缺少活力,死水一潭,要给力!  缺少耐力,永远不能持续,要给力!  然而我们可能更缺少的或者缺乏的是自信力!  愚公移山的故事,是愚公感动了神仙,搬走了王屋太行两座大山,是神仙给了力,从此后,人间可畅行。诸葛亮借东风,能够火烧曹操战船,是朝天借力,居然老天就给力了,从此后,江山大局定了。也有《射雕英雄传》中的铁掌水上漂,借隐藏于水中的木桩而飘浮于世,凌波微步,从此后扬名江湖!君子善假于天、地、物之隐之力也! 从某种意义上来讲,现在社会的发展,给力已经表明了现代人已不再缺乏智慧了。君不见,上天入地,网络千里。然而缺少的还是力,难道还是因为身体还不够强健?老子的《道德经》所言:是以圣人之治,虚其心,实其腹,弱其志,强其骨。常使民无知无欲。使夫智者不敢为也。为无为,则无不治。给力强骨。  给力,给谁力?给什么力?  给法官正义之力!  给教师阳光之力!  给学者尊严之力!  给老者温暖之力!  给孩子智慧之力!  给弱者心灵之力!  大声喊:给力,给我力吧!
个人分类: 随想|3447 次阅读|3 个评论
写在哈拉哈河源头
pww1380 2010-12-15 20:13
写在哈拉哈河源头 篱风 (杨文祥) 青山翠谷, 拥抱着一道, 秀美的小河。 绕过一片片如诗似画的山林, 流过一道道如梦似幻的峡谷, 径直向一个不知名的地方流去…… 呵, 哈拉哈河。 我的, 哈拉哈河。 你是一首, 写不尽的情诗, 你是一曲, 无声的恋歌, 你是一幅, 展不到尽头的画卷, 你是一道 静静流淌的小河…… 呵, 哈拉哈河。 我的, 哈拉哈河。 你不是情诗, 你不是恋歌, 你不是画卷, 你更不是一道小河! 你是一个, 离家出走的游子。 你是一块, 母亲身上的骨肉。 多少年的凄风苦雨, 多少年的颠沛流离, 那是怎样的无奈啊, 又失去了少不更事的你。 呵, 哈拉哈河。 我的, 哈拉哈河。 你何时能够, 浪子回头, 你何时能够, 回到生你养你的土地? 呵, 哈拉哈河, 我的, 哈拉哈河。 你这终于归来的游子, 快让母亲把你看个仔细。 黑瘦的面容, 褴褛的旧衣, 啊, 你那大半个身躯, 究竟遗失在哪里?!!! 注: 哈拉哈河是目前我国同外蒙的界河, 河岸原始植物群落丛生,河水蜿蜒流淌在崇山峻岭之间。哈拉哈河 发源于我国大兴安岭西侧阿尔山地区的松叶湖,流 经杜鹃湖,同时还汇集了苏呼河和古尔班河等支流,干流由东向西经阿尔山市的伊尔施镇流入外蒙,全长399公里,我国境内流长136公里。上游10多公里为暗河,在石塘林地下流淌。 在外蒙注入贝尔湖后,返回境内,流入内蒙呼伦贝尔草原上的呼伦湖。
个人分类: 栏杆拍遍(Facing the Distressing Landscape)|7847 次阅读|3 个评论
工具变量思想不扯,内容在扯!
热度 1 yanghualei 2010-9-13 18:45
在做回归模型中把影响被解释变量Y的所有因子归结为全变量T 当把T拆分为解释变量A 与随机扰动项e,而T与e存在相干时 为提高模型的精确度并进行很好的预测和估计 须寻一方法 消除这种 相关性, 工具变量是对策集合中的一种 其基本思想: 寻找一个中间变量 F使得A=A(F),但F与e不相干 并满足 关系A+e=T=F+e,但问题在于 根据公式可推理出 F=A 感觉内容是在扯, 因为工具变量竟然是自己 既然A与e存在相干即有交叉项,说明对全变量T的分解 存在问题 若采用新的不存在交叉项的分解即T=C+D 不就解决了问题? 此法关键是对不相干因子组(C D)的寻找
个人分类: 数学沙滩|4818 次阅读|1 个评论
回归的梦魇--数据的不一致性
yanghualei 2010-9-10 08:33
目标: 寻求解释变量 与被解释变量 之间的关系 方法: 采用数据搜集,作散点图进而建立回归方程 数据: 通过观测点分别俘获变量 和 的 个位点的时间序列数据记 与 推理: 现实中观测变量 的数据序列 带有噪音的,即变量不仅受解释变量 的影响还受除 之外的变量作用,在此不防记其他变量集合为 ,故解释变量 的观测序列 在没经过滤处理后是不能获得纯粹变量 作用的真实 序列的,其之间真实误差为 悖论: 现实中往往拿序列 与 做回归,得出 与 的方程 ,实质上数据序列 与 是不一致性即 是 综合作用的结果而 仅仅是 得镜像,故回归分析的数据库中本应该建立的 与 之间的关系,事实上 存在却无法获得,原因在于 因子对 的影响无法从控制的实验中剔除。
个人分类: 数学沙滩|2691 次阅读|0 个评论
归来去兮——倔人为“鸿飞”们一大哭
wangxh 2010-9-6 21:04
看了王鸿飞先生(原来经常称鸿飞兄,现在是国际友人,应该称先生)的《 现在可以说了 》,又看了曹广福老师的《 一个王鸿飞走了,千万个王鸿飞回来 》、刘进平老师的《 试论王鸿飞先生的出走 》和李世春老师的《 王鸿飞的折转属于正常的科学攀登 》,心里感觉好像俺厨房里的调料瓶在胃里打架。这让倔人想起了十多年前我们这里一位飞哥的归来去兮始末。 该飞哥日本留学八年,硕士、博士、博士后都搞了一遍,后得一长期稳定、收入颇丰的工作,女儿也长大并说了一口流利的鬼子话。十年前打算回国海归效力。由于三四岁就到了日本,女儿已经认为自己是日本人了,所以一开始坚决不同意。但经过飞哥两口子半年多的思想工作与爱国主义教育,女儿勉强答应回国。 如此这般,飞哥举家过洋海归祖国,变卖家产,回国后又买房子又置办家产,不仅仅裸奔回国,而且还搭进数十万。由于女儿在日本长大,日语比汉语流利很多。多亏病态的国内教育,还真让飞哥给女儿找到一家日语+汉语双语初中。可是仅仅上了半天学,女儿死活不去了。原因是老师的一句话:人家都往国外跑,你们真有毛病,怎么回来了呢?人家日本根本不这么教学生啊,所以孩子觉得好像进入动物世界了,哪敢久留啊!于是乎,海归数月后,终于不得不回归了女儿的祖国......飞哥走时那种痛苦的表情俺至今难忘! 他们归来归去,神经要经历多么痛苦的煎熬!现在可以说了,短短一句话,六个字,包含了多少无奈与心酸,俺为飞哥们一大哭!
个人分类: 社会|2893 次阅读|2 个评论
诚邀顾问博主12名(不限于12名)
yatou 2010-7-10 01:04
提议要求李亚辉回归科学网 家中有事,急去急回。得见老邪之文 丫头别泄气,鬼王快回来了 。 依其文路,顺藤摸瓜,俺去拜读了《科学网正式组建 顾问博主委员会 》 之雄文。在文章下面看到在诸位博友们的评论中,那位清华大学喜边缘学派蒋劲松先生如此不知趣 地撇开恭喜贺喜之言不谈,却是单刀直入地猛言猛语:我不同意恢復李亞輝波偶科學網戶籍。我建議重新註冊開博。(只是俺不明白,啥是恢复波偶呢?)不过他老人家的意思俺是明白:李亚辉当回来!不禁笑言一句:素食者充满血性之阳刚,这个现象是不是需要生命科学者深入研究一下? 未及深思,又回到老邪的文章中,仔细拜读。第三段前一句话是写来给本傻姑戴高帽子搞忽悠的,这个她明白。东邪西毒,忽悠那个傻姑玩儿是黄老邪的拿手好戏。要不然傻姑只认桃花岛的黄氏父女呢!此等巧语,傻姑一概不论。误信其言者后果自负。 关键的话在这里:根据(顾问博主委员会)其工作细则第六条, 超过 12 位(占全体顾问博主的 10% )以上顾问博主的提议问题,向全体顾问博主征集不同的解决方案,然后由全体顾问博主对不同的解决方案进行投票作出决定。超过二分之一的结果即为有效结果 。您很容易就可以找到 12 位顾问博主签字提议。就可以正式走程序,由顾问博主委员会承担责任了。 见诸博友对老邪之文纷纷大义推荐,傻人心中倍感温暖。前日里见有的博主将亚辉的新浪博客网址放在好友链接里,我心中也是一样的温暖。虽然有的朋友并不理解李亚辉,当然更不理解大家对他离去的伤感,我只想说:抛弃那种以外在形式去评判一个人这种世俗的束缚吧!我们在多年的讲究形式的文化中,过多地习惯了形式,过多地看重现象,而忽视了本质,忽视了对结果进行有效探索的、可能登不上大雅之堂的方法。甜言蜜语,内藏奸诈;疯人痴语,自露真知。你把真知放在一旁不顾,却指责他言语不端,我倒是迷糊了。 想说的话还很多,以后有机会再白活。单刀直入,直奔主题: 1 本人、老邪(李小文)、蒋劲松及所有推荐老邪之文的博主们(可能里面顾问博主人数已远远超过 12 人了,还需要形式上更加正式一些?) 再次诚邀诸位顾问博主,提议李亚辉回归科学网。如果诸位同意,请一键表扬。 只要推荐人数中顾问博主够了相应数量要求,根据科学网已有的顾问博主实施细则,本提议要求李亚辉回归科学网自动生效。 2 遂请科学网编辑部费心劳力,依纲施政, 让已是迫不及待的顾问博主们就鬼王回归问题光荣地第一次行使权力吧。
个人分类: 未分类|6792 次阅读|38 个评论
风声5——举全国之力建设新疆,设喀什经济特区
sheep021 2010-5-21 12:16
中央决定举全国之力建设新疆 设喀什经济特区 2010年05月20日20:43 人民网 中央新疆工作座谈会议在北京召开,决定举全国之力建设新疆,设立喀什经济特区,率先在新疆进行资源税费改革。5年后全区人均GDP将达全国平均水平。 举全国之力援助和推动新疆实现大发展,给新疆各族人民创造了前所未有的发展机遇。喀什地委委员、喀什市委书记曾存表示,喀什将以东有深圳、西有喀什为目标,依托国家批准设立中国-喀什经济特区的特殊扶持政策,面向东亚、南亚、西亚广阔市场,加快超常规发展步伐,努力把喀什建设成为世界级的国际化大都市。 本博评论: 继重庆和西安的大手笔 拉开 序幕之后 了 西部大开发 ,西部大开发这场大戏,终于正式上演了,喀什走向前台。 东有深圳、西有喀什,如果说,深圳目睹了一个时代的话,喀什则开启另一个时代。 东、西不仅代表空间,而且也代表着时间。更重要是东西是相对的,文化上的回归东方和经济建设上的向西部转移是一个整体。 深圳开发开放时,有冒险精神的、拼搏精神的、怀才不遇的人才都去深圳大展身手了,美其名曰孔雀东南飞,如今,孔雀终于回头了。这真是三十年河东三十年河西啊 对个人发展的影响,应该是深远的,没赶上深圳,没赶上上海开发建设的、北京上海深圳没买上房子的,可以考虑人挪活树挪死这句话了 更多风声系列 : 风声4尚武传统逐渐回归 风声 3 奥巴马:中国特色不能丢,莫跟美国走死路。 风声 2 回归传统,回归东方 风声 繁体字又回来了 西部大开发终于拉开序幕了
个人分类: 生活点滴|706 次阅读|0 个评论
风声2——回归传统,回归东方
sheep021 2010-5-7 13:15
17名美国高官在清华大学接受培训 他们是美国政府全球领导力高级培训班的学生,在华一周时间里,主要是在 清华大学 中美关系研究中心学习中国政治、经济、军事、能源、环境的管理与决策分析等课程。 2000多名司局级官员,被要求今年内在7所院校完成至少40个学分的选课任务。 2008年8月11日,中组部下发《关于2008~2012年大规模培训干部工作的实施意见》,推行干部自主选学是改革创新的主要措施之一。今年,一场司局官员的校园计划据此展开。 菜单式的自主选学。 以前是让你学什么就学什么,现在是需要什么学什么。 结果, 报名人数在前三位的讲座均来自北大 ,分别是周易智慧、道家思想与老庄智慧、佛教禅宗与人生 本博评论: 这两个培训,唯一不同的是,一个在清华,一个在北大,看来老外更注重实际一些。 三十年河东三十年河西 无论是在西方还是在东方,一股向着东方自然哲学体系回归的潮流正在悄然兴起 破解李约瑟的难题 的时刻不远了。 其他: 中华文明:源有多远,流有多长 中华思维与中华复兴
个人分类: 生活点滴|683 次阅读|2 个评论
风声——繁体字又回来了
sheep021 2010-4-30 16:41
河南漯河六部门下文要求每人至少识500个繁体字 2010年04月30日 官方领读已6年    中央国家机关青年学国学经典系列讲座(下)第七讲《尚书》 (2009-10-22) 中央国家机关青年学国学经典名家讲座(下)第八讲 《红楼梦》的美学意蕴(节选) (2009-10-22) 中央国家机关青年学国学经典名家讲座(下)第六讲 《明清小说》 (2009-10-22) 中央国家机关青年学国学经典名家讲座第五讲 《唐诗风神》引文 (2009-10-22) 中央国家机关青年学国学经典名家讲座(下)第四讲 《红楼梦》的文学价值 (2009-10-22) 中央国家机关青年学国学经典名家讲座(下)第三讲 《史记》 (2009-10-22) 中央国家机关青年学国学经典名家讲座 第二讲 《孟子》 (2009-10-22) 本博评论: 文化回归,已经开始了。从中央到地方,国学经典无不春风化雨,滋润着一方方干涸的心田。 但戒急戒躁,慢慢来,别把好事变坏事。
个人分类: 生活点滴|902 次阅读|2 个评论
[转][小学生版]读《野性的呼唤》有感兼读读后感有感
pkustm 2010-1-16 07:15
读 《野性的呼唤》读后感有感 昨天晚上,与很久不见的同学网上聊天,说起很久不写东西了,笔下颇感生涩。 自己这两天在重读《野性的呼唤》这本书,心有所感,却一直没有下笔。顺手搜索了一下网络,发现关于这本书的书评和读后感已经很多了。 突然想起有一次与朋友讨论起纪晓岚一生著述甚少。查了一下: 清人陈康祺在他写的《郎潜纪闻二笔》卷六中,就专门研究了这一问题,并引用了纪晓岚自己对于这个问题的解释。在该书纪文达不轻著书之原因一节中有这样的概括:纪文达平生未尝著书,闲为人作序记碑表之属,亦随即弃掷,未尝存稿。或以为言。公曰:吾自校理秘书,综观古今著述,知作者固已大备。后之人竭其心思才力,要不出古人之范围,其自谓过之者,皆不知量之甚者也。(来自: http://read.dangdang.com/content_813276 ,没有再费力追查真正的原文出处) 哎,纪才子尚如此。我辈更不必徒费笔墨了。遂找了一篇小学生的读后感在此(费了好大的劲才找到原作者的信息,网上转载甚多,然而大多都没有标明作者信息。Sign...) 请诸位欣赏(想想同学说俺还年轻,心里直感自己肯定是不够成熟。对照一下,写作此文的这位小同学真是早早成熟啊!)。 ==== 读《野性的呼唤》有感 ==== 读《野性的呼唤》有感 湖南省吉首市矮寨镇欣欣希望小学 六(三)班 石岗 (指导教师:石建军 TEL 1378XXX0056) 当我第一次翻开杰克伦敦的巨著《野性的呼唤》时,那首凄凉而极富哲理的诗便深深地打动了我:风俗的链条锁不住游牧部落跳跃的古老的渴望,寒冬萧条,沉沉睡去,野性将唤醒凄厉的诗行。 或许正如杰克伦敦所说的那样,万物都有一种古老的本能野性,它带来野蛮,带来征服万物的欲望。《野性的呼唤》的主角家犬巴克在踏上阿拉斯加的土地时惊呆了: 在这冷酷无情的世界中,付出友情就等于付出生命,要想生存只有向前,向前,再向前!绝没有后退的可能。所有的残酷都在唤醒它古老的野性,所有的事实都在告诉它,在这个社会中只有征服者和被征服者。来自本性深处的不屈的斗志被唤醒了,因为它知道这一切都体现着生命的价值。 然而,野性带来野蛮的同时,也带来了纯真与忠贞的友情。这是文明与古老的结晶。当巴克的主人死去时,它仰望苍天,发出长长的嗥叫,这嗥叫是忠诚的,这嗥叫是伤感的,这嗥叫是震撼人心的,这嗥叫包含着巴克对主人深深的爱,这爱是野性的友情体现。 生命是矛盾的,世界是复杂的。它有奸诈,也有忠诚;它有文明,也的野蛮。可是 ,这就是真实的人生,人生正因此而多彩,因此而灿烂,因此而生生不息 读完《野性的呼唤》,掩卷而思,不觉已是感动涕零。
个人分类: 生活点滴|5117 次阅读|0 个评论
关于回归的两个易犯错误
yuliping 2009-11-22 15:15
最近给一些杂志审稿,连续遇到回归分析的原理性错误,主要有以下两点: 第一,什么是自变量 这个问题似乎有点可笑,自变量谁都明白。但实际处理过程中,这个问题很多大家都会出错。比如,地区信息化水平是个自变量,用什么衡量?指标很多,诸如万人电脑数量、万人网站数量、百户电视机数量、百人电话数量等等,如果分析地区经济发展的影响因素,假设有资本、劳动力、教育、信息化 4 个要素,如果资本、劳动力、教育数据是现成的话,那么,我们是否应该构建以下的方程: 经济发展 =f( 资本,劳动力,教育,万人电脑,万人网站,百户电视,百人电话) 如果这样构建模型进行回归是错误的,必须将评价信息化的几个指标进行综合,变成唯一结果,然后才能回归,方法可以根据具体情况选择,如主成分、因子、 AHP 、 TOPSIS 等等。 指标体系除了评价、决策外,还有一个功能,就是计算中间变量! 如本例所示。 本例中,万人电脑数量、万人网站数量、百户电视机数量、百人电话数量等等就不是自变量,而是构成某个自变量或者测度某个自变量的要素。 第二,确定性方程不可以回归 以凯恩斯的宏观经济均衡模型为例: Y= C+I+ ( X-M ),即总产出 = 总消费 + 总投资 + (出口 - 进口),那么对于这样的模型,能否用回归分析呢?记住,绝对不可以,回归分析重点分析要素间的相关性,对于确定性方程,是不可以采用回归分析的。 才开始读博士时,和年轻有为的 H 博士私下聊天,说学校只有 1 个人( Z 教授)懂西方经济学,当时我的第一感觉很吃惊,怎么可能!学校的教授、博导有20个。 5 年后的今天想想,真是一点都没有错,很多情况下,我们自认为已经搞懂了某个问题,其实未必!当然,这里并不是说某个学术观点,而是有客观标准的某个问题。 2009.11.22 俞立平于邗上
个人分类: 科研心得|3903 次阅读|4 个评论
数月数日回归
minzhaolu 2009-11-10 16:02
回归 等待许许多多天以后 我终于再次鼓起勇气回到这个曾经让自己兴奋不已的地带 这次 备受感触 可以说是感悟多多 接下来的日子里 我会慢慢的找回原来的激情和勤奋 为了更好的完成自己一些未尽的愿望 这样才会更加完美 人生,很多时候都是由这样那样的来来回回组成 来回次数多了,也就感悟出人生的魅力 进而不断的美化人间 期待 在这个多变的季节 我毅然选择了回归 回到这个我曾经兴奋不已的绿地、广场、 尽情的挥洒属于我自己的辛勤与汗水 创造出属于大家的开心与兴奋
个人分类: 美好回忆|3526 次阅读|0 个评论
主成分分析法评价可靠吗?
yuliping 2009-8-28 18:32
按:这是在本人撰写的学术期刊评价中主成分分析法应用悖论研究一文的基础上写的博文,该文发表于 2009.9 《情报理论与实践》。 在指标体系多属性评价中,现在已有几十种各种各样复杂的方法,如主成分分析、因子分析、 TOPSIS 分析、突变理论、 ELECTRE 等等,这些评价方法大致可以分为线性评价方法和非线性评价方法,前者采取一定的方法给指标体系赋权,然后进行加权汇总,后者相对复杂,原理不同方法不同,其特点是指标体系和评价结果之间的关系呈现非线性。 我认为,不管什么评价方法,必须满足单调性。即如果其他指标值没有变化,正向指标值增加,评价值必须增加,不能减少。 主成分分析和因子分析用于评价,可能有数千篇论文。笔者对主成分分析和因子分析评价结果进行分析时,偶然中发现,即使指标选取正确,但至少有一半的概率不满足单调性,即正向指标值增加,评价结果反而变小。基本上以 50% 的概率否定了主成分分析和因子分析用于评价,由于发表学术论文,因此论文中并没有博客中这么绝对,语气缓和多了。 迄今为止,尚少有学者研究非线性评价方法的通用的检验问题,如果这个问题不解决,其评价结果是值得怀疑的。 我偶然间找到了所有非线性评价方法的检验方法,还是相当得意的。 我现在有这么一个感觉,简单的线性加权汇总评价方法,可能是一种优秀的评价方法。所谓美好的都是简单的,这也是一种回归 。如果真是这样,在评价中一味追求复杂模型的方法可能或多或少存在一些问题。 就像研究武器一样,一般情况下制约该武器的反武器的研制,仅有原武器研制投入的 10% ,如果寻找某种评价方法潜在的不足,所需要耗费的代价也许很少。 再进一步,在 科学研究中,如果不进行深入思考,了解各种数学模型的适用条件,优缺点等背景知识,就简单运用这些华丽的、复杂的数学模型,可能会存在很多问题,在人文社科的研究中,如果仅仅依靠这些模型得出的结论提出政策建议,也有潜在的风险。 目前的人文社科研究,方法越来越收到重视,这本无可厚非,希望在实际应用过程中,要适当留意方法本身存在的一些问题。 由于认识的规律,本文还有一些细节需要完善,后续研究已经解决了相关问题,成果将陆续发表,欢迎讨论。 2009.8.28俞立平于邗上 PDF论文下载
个人分类: 科学计量|10104 次阅读|4 个评论
似曾相识燕归来——回归青岛
xu782219 2009-5-16 20:07
1999-12 似曾相识燕归来 ── 回归青岛 1待命出访 2邂逅同游 3访问台湾 4家宴奇遇 5忆旧叙旧 6回归青岛 1 待 命 出 访 也许是由于上苍的垂怜,才使得我一个鲁西普通的农家子弟,幸运地在美丽的海滨城市青岛,一个国家级的海洋研究所,工作了几十年。仅仅是文革期间遭受了些罪,过了三年之久的非人生活,其它年月还算是比较顺利的。 1997 年 4 月中旬,在樱花待放、桃花盛开的时节,所领导念我几十年来工作还算尽心尽力,也做出了一些成绩,而且也即将到了 60 周岁( 8 月19 日 )退休的日子,所以,出于照顾,或者说是出于安慰,趁市科联组织科技代表团访问台湾、顺访香港的机会,也给我出钱报了个名,让我参团出访。 以前,谈起港台关系来就叫人发怵。只要扯拉上一丁点儿港台关系,或有朋友在港台,或有亲戚、哪怕是很远很远的亲戚在港台,你就别想素静。平日里被内控,在历次政治运动中都被列为审查或整顿对象,政治上永难抬头。当时我非常庆幸自己祖辈务农,几代人连个识字的人都没有,出县的亲戚朋友没有半个,更不要说有什么港台关系了。而今,风向转了,形势变了,有港台关系成了一种优势,一种时髦,一种荣耀,是统战对象,是被选拔当干部的苗子,是有钱人的代名词,常令那些蝇营狗苟者们羡钦不已。我贫久了穷惯了,练就出了坚韧的安于贫穷的无奈品质,从未奢望过去羡慕有钱人,当然也更未敢奢望过去羡慕什么港台关系者流。 出发前,出访者们在抓紧作各种准备。那些有港台关系者(甚至是能东拉西扯上一丁点儿关系的人),都忙着为关系准备礼品,工艺品、名人字画、土特产品,大包小包地往家买。我自然没有这种麻烦,只需准备些可送人参考的文献资料和随身用的衣物等生活用品即可,跟通常在内地出公差差不多,所以很快就准备妥了。 一切准备就绪,专等出发的几天,反觉得百无聊赖。于是,一天上午,我躺在家中的沙发里,望着天花板,犯了老毛病:放纵思想,信马由缰天马行空任其驰骋,海阔天空、满宇宙地胡思乱想起来。一不留神想到,我也很快就是 60 岁的人了,在人世间活了 2 万 1 千 8 百多个白天黑夜,而且港台也是我们大家的中国的地方, 难道我就连一丁点儿港台关系也没有?一点点儿不服气,一点点儿无名的悲哀,促使我搜肠刮肚地想起我的港台关系来,哪怕也是东拉西扯上一丁点儿的关系也算。不图沾光,有点儿关系,见了面总会感到亲切些,让对方也好体会一下有朋自远方来,不亦说乎的中华民族传统古风。通过冥思苦想,倒也理出了几条线索来。 台湾水产出版社社长赖春福先生,曾几次来青岛同我们商谈合作事宜,并且我代表单位与他签订了合同,由他们在东南亚地区代销我们编辑的学术刊物。这应该算是一种关系吧 ! 我们单位与台湾大学和香港大学的海洋研究机构建有书刊交换关系,虽未与那儿的同行见过面,但资料和信函来往频繁。这也应该算是一种关系吧 ! 台湾海洋界学者多次来我所进行学术交流,我多次听过他们的学术报告,并且他们与我交换过名片,虽然此后再没有进行过任何联系,但这也应该算是一种关系吧! 老所长 85 岁生日时,他在台湾的女儿专程来为他祝寿,我应邀参加了庆典。虽与她仅见过这么一次面,但与她同过宴席,还碰过杯。这也应该算是一种关系吧! ...... 思来想去,总觉得这些关系,作为一般人们认为的那种港台关系,都不够格。即便是算也很勉强,大有牵强附会之嫌。 百无聊赖的冥思苦想让人累,感到愈加无聊,便就势回到现实中来,顺手拿起孙子放在茶几儿上的《宋词选编》翻看,不经意一下子翻到晏殊的一首《浣溪沙》: 一曲新词酒一杯, 去年天气旧亭台。 夕阳西下几时回? 无可奈何花落去, 似曾相识燕归来。 小园香径独徘徊。 这首词虽然写的是闲愁,而且是春风得意的当朝宰相写的装模作样的闲愁,但是他写得实在是太美了。我正好今日得宽余,在家里休闲,恰好有份闲工夫欣赏这装腔作势的闲适之词。其实,这首词,我天天读书做作业忙得不亦乐乎的孙子也很喜欢。我多次给他讲读这首词,一向好动的他每次都静静地认真地听完。特别是在讲到情致缠绵、音调谐婉的无可奈何花落去,似曾相识燕归来的典故时,他更是专心致志,一动不动地听。 北宋著名词人晏殊《浣溪沙》一词中, 无可奈何花落去,似曾相识燕归来 , 实在是美仑美奂的千古名对。据宋( 960 ─ 1179 )乾道三年( 1167 年)胡仔纂《渔隐丛话后集卷二十引复斋漫录》记载,它的来历还有一段有趣的故事。 一年的暮春,当朝宰相晏殊看到地上落满残花,触景生情,便写下了无可奈何花落去一句,自己也觉得很美。但是他费尽心思,怎么也找不到恰当的对句。为了不致忘记,他像往常获得佳句时一样,把它写在纸上,挂在屋里,时时揣摩,惜终无所获。 第二年暮春,晏殊去杭州,路过扬州在大明寺休息时,眯缝着眼让侍史给他读壁间诗板,并嘱咐不要念出作者的姓名和官爵,以免他可能会以人取诗。读了许久,没发现一首好的诗词,不是残缺不全,就是空洞其词、了无新意,令人乏味,似同嚼蜡。 稍后,侍史在读一首五言律诗: 水调隋宫曲,当年亦九成。 哀音已亡国,废沼尚留春。 仪凤终陈迹,鸣蛙祗沸声。 凄凉不可问,落日下芜城。 这首诗还没读完,宰相大人就睁开了眼。他觉得这首诗内容充实,寄托深远,连忙邀该诗作者──江都都尉王琪共进晚餐。王琪的确很有才气,晏、王二人谈得十分投机。 饭后,在寺内放生池边散步时,晏殊看到满地落花,又想起了去年无可奈何花落去的诗句,并把找不到合适对句的苦闷说给王琪听。芝麻官都尉、年轻后生王琪,面对当朝宰相和名满天下的词人晏殊前辈,不顾官场客套,不畏诗词大家,随即说:您看对似曾相识燕归来怎样?从时令和景物上来看,也还算说得过去吧? 晏殊一拍手兴奋地说:好!好!岂止是说得过去,简直是绝对,天衣无缝,妙不可言。 自此,这个天衣无缝、妙不可言的佳对,晏殊不仅在上面的这首《浣溪沙》词里用上,还在一首七言律诗《示张寺承、王校勘》中用过: 上已清明假未开,小园幽径独徘徊。 春寒不定斑斑雨,宿醉难禁滟滟杯。 无可奈何花落去,似曾相识燕归来。 梁园赋客多风味,莫惜青钱万选材。 不好说这首诗不美,但是,这佳对用在此,在韵律上显得软弱多了,远不如用在《浣溪沙》词上那么熨贴。词本来是依声之作,专供人依调歌唱的,其间抑扬顿挫、声情缓急,于韵脚、声律关系巨大,而无可奈何花落去,似曾相识燕归来恰好最合于词道。 这是古代文坛上的一段佳话。当我正在细细品味无可奈何花落去,似曾相识燕归来佳对时,似曾相识四个字使我想起七年前以似曾相识开端的一段友谊。一个年轻端庄美丽的香港姑娘,虽与我们萍水相逢,仅 20 几天的交往,却给我们留下了深刻的记忆,成了我们忘年的朋友,至今想起来还仍然像是发生在昨天的事,令人心动不已。这的确应该算是我的一个港台关系。 2 邂 逅 同 游 1990 年 8 月,我作为中国科学院文献情报考察团成员出访苏联,考察苏联科学院的文献情报工作。 8 月28 日 ,我夫人萍姐送我到北京,住在科学院中关村招待所,等待 8 月31 日 送我上飞机出发。几十年来,她总是精心呵护我,已成习惯。这大概是因为她开始就比我大了 4 岁的缘故,也许是传统中国妇女的传统使然。 北京的天气是最遵守季节规律的,虽然是初秋,暑热仅中午尚有一点儿不大的余威,早晚却已略有凉意。 8 月30 日 上午,与萍姐去游天坛,那是皇帝祭天的地方,萍姐很乐意去。 祈年殿宏伟、庄严,使人肃然起敬。在皇天上帝牌位前,萍姐双手合十,两眼微闭,口中念念有词,一脸虔诚。 出得殿来,阳光灿烂,微风爽人。我们正要下台阶,迎面 20 来米处一个女孩的身影跃入我的眼帘,就好象是从我脑海深处跳出来的一个亲切形象。只见那女孩手持相机,约摸 20 来岁,中等个头,微胖,脚穿白色旅游鞋,下身穿淡蓝色牛仔裤,上身着红色T恤衫,映衬着一头蓬松齐耳的黑发,雪白的圆脸上的一双大眼睛,更显得她朝气蓬勃,体态丰盈,美丽大方。我什么时候结识过这么年轻的女孩呢?心想这是看来她像个典型北方美丽女孩的缘故,是似曾相识。 我忽然意识到,一个大老头子直盯着一个女孩子看,总觉得不太雅,何况夫人萍姐还在身边。于是,我忙收敛目光,转移心思,低头搀扶着萍姐走下台阶,转身瞻望巍峨的大殿。我凑近萍姐右耳,昵声问她刚才祈祷什么,她说在为我祈祷一路平安,我一笑置之。她收敛了笑容,正色道: 柬埔寨西哈努克亲王就是听了夫人莫尼克公主的话,晚乘了一班飞机,才免于遭空难的。还有,我怕你在飞机上犯躁病,祈求皇天保佑。 立刻有一股萍姐专利生产的经常造访我的暖流瞬时流遍我的全身,感到无比幸福。但这后一句话触联到我文革时的遭迫害,使我落下的这痛苦难耐的强迫性神经官能症(我们称它躁病,因为一犯病就躁得受不了),不由得又在心头掠过一丝苦涩。萍姐当即捕捉到这一信息,摇着我的左胳膊,连忙说: 都过去了,都早过去了,一切都好了,现在一切都好了,不要再去想那些个古代的事。 正说着,我感到背后有人轻轻地拍了一下我的右臂,随着一位年轻女子轻轻的略带广东口音的普通话飘过来: 老伯,请帮个忙,好吗? 我以为我们站立的地方影响了人家照相取景,连忙说对不起,对不起,转过身来就要躲开。哎呀!这女子恰好就是我刚才直盯着看过的那个女孩,不由得我内心深处产生一种无名的尴尬。 老伯,请您帮我照一张相。可以吗?她笑容可掬地请求我,并且还深深地给我和萍姐鞠了一个躬。 当然可以。我接过她的照相机,便为她拍照祈年殿。透过照相机的取景窗口,我观察得更加清楚。白晰的圆脸、炯炯有神的大眼睛、适中的高鼻梁和涂了口红的更像樱桃似的小嘴,总感觉这是一张非常熟悉的面孔,似曾相识的想法在脑海里盘旋。她只身一人游园,她真诚地恳求和我们一同游,也好让我为她多拍几张照片。我们欣然同意。 我们同游了天坛公园,中午一块用了午餐,下午又同游了颐和园,我们俨然成了朋友。通过交谈,我了解到她叫邱水,香港大学学经济管理的学生,刚毕业,在读硕士研究生前出来旅游。最后,我给她留下了我的通信地址,她要把她给我们拍的照片寄给我。她一看我的地址是青岛,右眉轻轻地扬了一扬。 晚上,躺在床上想了许久,邱水一个女孩子,又是香港人,我以前怎么会认识她呢?对了,这可能就是似曾相识! 第二天, 8 月 31 日 ,天气晴朗,微风。下午 3 时 45 分萍姐陪我赶到首都机场,等待乘 4 点 15 分起飞的波音 743-909 班机,直飞莫斯科。在候机室,邱水出现了,她穿一身深蓝色西服,深咖啡色皮鞋,绿衬衣,打着红色胡蝶领结。当她知道我们考察团要飞莫斯科时,简直要跳起来,因为她也是乘这架飞机飞莫斯科,要去苏联旅游。她希望与我们结伴同行,跟着我们沿我们访问的路线旅游。我请示了我们的团长,团长答应后,邱水高兴得几乎跳起来。 飞机在天空飞了 6 个小时到了莫斯科,因为是顺着太阳的路线飞,莫斯科的太阳却还没落下,还斜挂在西天边。我们住在苏联科学院招待所,可以直接望到克里姆林宫。我们在莫斯科访问了 10 天。接着,我们 9 月 4 ~ 7 日访问列宁格勒, 8 ~ 12 日访问新西伯利亚, 13 ~ 15 日访问海参崴, 16 日回国, 18 ~ 22 日在哈尔滨参观。邱水一直都跟我们在一起:我们访问,她旅游。 23 日邱水跟我来到青岛,继续旅游。 在青岛,邱水住在我家附近的丽晶大酒店。白天我上班,我的萍姐陪她游览了崂山、栈桥、八大关等主要名胜,又陪她游览了新修的五四广场、东部新建的别墅群和青岛高科技工业园。 28 日晚上,我们举办了家庭宴会欢送她明日启程回香港。在家宴上,她非常高兴。饭后,她和着伴奏磁带的音乐为我们演唱了台湾歌曲《外婆的澎湖湾》,不过她把歌词中的澎湖湾唱成了胶州湾,叫人感到特别的亲切。她接着清唱了山东吕剧《小姑贤》中小姑的一段唱段。然后,她让我用京胡为她伴奏演唱了京剧《霸王别姬》中虞姬的一段南榜子唱段。她的声调优美,字正腔圆,韵味十足,她真是多才多艺,受到我全家的赞誉。特别是我那喜欢唱歌又喜欢听京剧的 7 岁的小孙子,对她简直崇拜得不得了,一直都依偎着她,并小声跟着她唱;邱水则把他揽在怀里,右手在他右肩上按着拍节。大家忘情的欢乐,喜气融融。 歌罢,邱水说她深深地爱上了青岛,与我们成了亲密的朋友。她当着我家人的面,祝我全家幸福。她话锋突然一转,问我们夫妻感情为什么如此好,有什么秘诀。 我回答说:我们结婚早,父母包办的,是旧式婚姻。感情是我们婚后共同培养起来的,通过时间增长积累,通过互敬互爱交汇融溶,通过同甘共苦加深,通过坎坷磨练加固。我从我书桌右侧柜子的最底层抽出一个大纸袋子,从中拿出 1984 年农历十月初八,我与萍姐结婚 37 周年纪念日那天,我写给萍姐的一首诗──《赠萍姐》给她看。她竟当着我孩子们的面朗诵起来: 赠 萍 姐 忆昔萍姐年十四,遵父嫁我十岁娃。 缝衣烧饭事公婆,娇羞不语伴夫洽。 喜庆五年得贵子,赢得合族辈分加。 更喜八年生娇女,美满幸福锦添花。 跃进年月生三子,极左路线把儿杀。 父母兄姊痛欲绝,家国从此运道狭。 三年上苍降大灾,两年丈夫闯天涯。 一双儿女赖慈母,累带外公赔鱼虾。 含辛茹苦熬日月,无端平地阴风刮。 五年夫妻辛酸泪,两地鸳鸯心如扎。 愚夫文革遭厄运,贤妻设计侍饭茶。 诚心感夫却前嫌,二女问世暖全家。 油田五年团圆日,男婚女嫁人意惬。 最幸老幼都壮健,更喜孙辈添航佳。 三十七载功无量,五十二岁发全华。 从兹家国永兴旺,美满幸福乐无涯。 诵罢,她问了几个含义不明白的地方,然后收起诗稿,郑重地放她贴胸内衣口袋里,唏嘘良久,说:这诗稿归我了。我明白了,伯伯伯母。我们中国老辈的人就是这样。接着,她又问我:青岛实在是太美了,老伯您有没有描写青岛美的诗?给我一首拿回去作纪念。 我说:青岛四季都美。你看到仲秋的青岛了,回去后靠记忆和照片便可回忆。现在我给你一首描写暮春青岛雾天的诗,让你了解了解青岛晚春雾中的美。我从纸袋子里又抽出一篇诗稿递给她,题目是《暮春在青岛看雾》。可不是台湾孟庭苇小姐唱的《冬季到台北来看雨》那一类的内容,我这里单只写景。这首诗成稿于 1963 年,那时候不敢发表,因为诗中没有激进的政治内容;再说,写了雾,让人附会上政治,那就惨了。 50 年代后期,王希坚在省会济南写了一首绝句: 千佛山下雾漫漫,碧玉泉边铁网栏。东去流水空惆怅,古今都道作诗难。 就是这首短诗,给王希坚的右派分子帽子增加了很大的份量,一直戴了好多年。 她说:王希坚时代早已过去了,老伯您的这首诗我也看过了一遍。现在我为大家朗诵这首诗。 暮春在青岛看雾 犹如轻纱与暮烟,隔人十步渺无边。 松柏栏杆飘浮起,观海小亭悬半天。 绿水青山隐灵秀,碧海蓝天藏真颜。 但闻海浪击石声,不见石间浪花翻。 雾笛海牛叫声频,红瓦绿树入云端。 烂漫樱花饮雾露,凋零桃花吐叶鲜。 游人如织声鼎沸,极目眺望见二三。 恍惚万物悬太虚,青岛人人是神仙。 现在这篇诗稿也归我了。过几年,我选个暮春时节来青岛看雾,亲身体会体会,也当一把神仙。接着,她从墙上取下我孙子的小提琴演奏了《思乡曲》。之后,我操京胡,她操二胡,合奏了京剧曲牌《夜深沉》。 曲终,已接近 22 时,有好一会儿,大家都还浸沉在音乐里,没人说话。放好乐器后,邱水第一个开口,态度严肃,口气坚定、恳切地说:伯伯伯母,我要到青岛大学校园里去转转。 我问她:白天伯母不是陪你去青岛大学转过了吗? 邱水说:是。那里优美、幽静,我愿意去那里看看夜景。 青岛大学背倚浮山,面向大海,绿树成荫,芳草铺地,花团锦蔟,曲径通幽,简直就是一个大花园。晚上,微凉微咸的习习海风拂面吹衣,明月一般柔和的灯光让绿树斑驳弄影,直令人身轻气爽,心神荡漾,飘飘欲仙。我们家与青岛大学仅有 5 分钟路程,青岛大学又允许人们随意进出,所以我和萍姐常在晚饭后光顾那里,荷池边小坐,通幽处散步,去尽情享受大自然赐予青岛人的幸福。 我说:这很方便,我们现在就去! 邱水恳求道:能不能让我一个人去? 萍姐急切地说:那可不行!安全要紧,我们得陪你去。 于是,我们都加了件衣服,一块去了青岛大学。在一条两旁长着樱花树的路上,面对着北面的浮山主峰,邱水停下了脚步。她正色对我们说:伯伯伯母,现在无论我做什么事请也不要打扰我,也不要笑话我。我们默然,点了点头。 只见邱水严肃诚恳,略微低头,微闭双眼,双手合十,静穆良久,嘴唇开始不断掀动,之后深深鞠了三个躬。睁开眼约一分钟,没说半个字,又重复做了一遍刚才的过程。我猜想她这是祭奠,或者是祈祷。做完后,她站在我们夫妻之间,抱着萍姐的右膀,继续散步。我问她我刚才的猜想。她说: 是前者。外婆告诉我,我的曾祖父母、外曾祖父母都葬在浮山上,我不知道具体方位。我这次来大陆既然来了青岛,就该祭奠四位老人,我们不能忘记他们。在台湾,我们逢年过节都朝这个方向祭奠。您说这样做对吗,老伯? 我回答说:对,非常正确。祖宗是我们的创造者,我们不能忘记祖宗,不能忘记我们的根,这是我们中华民族的传统美德,也是家庭、民族,乃至人类赖以延续的思想精华之一。儒家两千多年前就提倡慎终追远。追远就是不忘祖宗,虽然祖宗谢世已久远,但要追念不忘,祭尽其诚。 邱水接着说:曾子曰:慎终追远,民德归厚矣。这是外婆教我读的《论语》上说的。外婆说,山东是我们的根,青岛系我们的心。我们认青岛是故乡。 萍姐对邱水说:我们是山东人,又住在青岛,那咱们就是老乡了。 邱水说:当然。其实,咱们比老乡还近,我早就把您们当成我的亲人了。我怕大陆不时兴认干亲,不然我早就拜您们为义父母了。 我连忙说:不必不必。就这样,我们也拿你当亲人。 邱水只字不谈她的家人的情况,似乎讳莫如深。这也许是由于政治的原因,因为她已知道我是个老共产党员。当然,我们也不便探问,而且也没有这个必要。 邱水回香港后,很快给我们寄来了她给我们拍的照片,也寄来了我在天坛、颐和园,莫斯科、列宁格勒、新西伯利亚、海参崴、哈尔滨、青岛给她拍的照片,整整装了一本相册。后来她在美国读博士研究生,还经常写信来。 现在邱水若在香港就好了,她倒真能算我的个熟人,让她带我们看看香港肯定是没问题的。可是,她现在在美国啊。 3 访 问 台 湾 1997 年4 月19 日 上午,我们青岛市科联访台科技代表团一行14 人, 在市科联副主席王团长的带领下启程了。因为两岸还不能直通,我们只好绕道香港赴台,倒是给我们增加了一个顺访香港的机会。我们先乘火车到北京, 20 日乘中国民航飞机飞抵香港。 21 日秘书去办赴台手续,我们访问了香港大学,游览了海洋公园。 22 日上午我们乘飞机直飞台湾台北市,停机在松山机场。台湾接待方到机场迎接我们,安排在一个较安静的 4 星级宾馆下榻,下午带我们游览了坐落在北郊的北投和阳明山风景区,晚上举行了欢迎宴会为我们接风。 晚宴后,王团长告诉我们,台方对我们的访问安排得很周到。考虑到我们是沿海城市来的访问团,所以让我们乘专用大巴沿环岛高速公路访问沿海的几个主要城市。考虑到我们是来自青岛,海洋界的团员较多,所以安排我们多访问几个海洋机构。具体日程安排为:明天,也就是我们来台的第二天, 23 日,访问台北。第三天新竹,第四天台南,第五天高雄和恒春,第六天台东和花莲,第七天基隆,第八天台北,第九天( 30 日)下午乘飞机由台北飞香港。 23 日,在台北,我们参观了台湾大学,并与其海洋研究所共同举办了学术报告,进行了学术交流。以后几天,按日程安排进行,每到一地,无非是访问学术单位,开展学术交流,参观游览市容和名胜。 27 日晚,我们已按逆时针方向沿海岸转到了台湾北端的重要城市基隆。基隆,旧名鸡笼,是台湾重要的海港和渔业基地。 28 日,我们访问基隆逸仙大学。该校建在基隆市西北郊的海边,风景秀丽,校园美丽。上午,校方给我们介绍了学校基本情况后,又带我们参观了4个设备先进的实验室。下午,我们访问该校生命科学院海洋生物研究所,双方通过联合举行学术报告会进行学术交流。首先我们团4人作报告,接着该所4人作报告,最后一个报告人是该所所长章明。章明是个颇有名气的海洋生物学家,在文献上常见到这个名字。 章明向讲台走去,我才发现她是个女性,约 50 岁,留着齐耳短发,身体微胖,身材适中。她一到讲台面向我们,还没开口讲话,我便被惊呆了:怎么这张面孔这么熟悉?圆脸盘儿,大眼睛,好象在哪儿见过。一听声音,像银铃一样清脆悦耳,不急不缓,抑扬顿挫有致,好象早已多次听到过这嗓音。真是令人费解!难道这一回又是似曾相识? 章明热情洋溢地开始了她的报告。 各位女士,各位先生: 首先我代表我们全所 156 名员工欢迎来自青岛的客人们,欢迎指导,欢迎交流。青岛是著名的海洋科学城,海洋科研单位众多,海洋科学家荟萃,是开展海洋科研的好地方。在海洋生物学研究方面,已故世的童第周、张玺、朱树屏等老一辈科学家,给我们留下了宝贵的经验和精神。今年 88 岁的曾呈奎先生, 50 年代就解决了海带和紫菜人工养殖中的关键问题,使我国成为世界第一海带生产大国,第二紫菜生产大国。他领导的水产生产农牧化科研课题中关于螺旋藻海水驯化养殖试验的成功,使我们用海水养殖螺旋藻成为可能。我们早已引进藻种和技术,我们已经采用海水养殖的螺旋藻作为实验材料,并有小批量螺旋藻产品投入市场。 我的研究方向是海洋生物活性物质的提取、应用和开发。在这方面,青岛同行,例如管华诗、张燕霞、李延、张坤成、李光友、徐祖洪、范晓、刘法义等先生的工作很出色,值得我学习和借鉴。我出生在青岛,但不满周岁就来了台湾,再没去过青岛。我期待着有机会去青岛向前辈学习、与同行合作。 今天,我向大家报告我们课题组最近的工作──用螺旋藻提取的活性物质进行的小白鼠抗癌实验。 ...... 大家被章明的报告吸引住了,都在认真地听。我边听边记录,但脑子不时不由自主询问章明究竟是谁,同样是有没答案。 章明报告结束后,会议进入讨论阶段。在讨论中间,章明主动坐到了我身边,与我交谈。结果是,她同意与我所建立文献交换关系;她答应为我们的学报推荐稿件;我答应帮她联系青岛的同行,开展合作研究和开发。她要请我吃饭,而且还要到她家去吃。她说,这一来是庆祝我们合作的开始,一来是满足她妈的要求。她妈希望见到山东济南人或济南附近的人,或者是青岛人,愿意与他们聊聊天,因为她是济南附近的人,在济南住过,又在青岛住过,想与人啦啦济南或青岛以解思乡之愁。每次大陆来了济南及其附近的人,或者青岛人,她都要求请家来吃顿饭,聊聊天。而我们这个青岛科技访问团,唯有我最符合这个条件。我是济南附近的人,在济南读过书,又在青岛工作多年。但是,要到以前并不相识的人家去吃饭,我面有难色,不知如何是好。 正在这时,我们王团长刚好走过来,对我说:您就去吧!我们应该满足一个老老乡的心愿。原来他早已知道这件事。是啊,肯定是章明事先找王团长了解过,不然她怎么会知道我的底儿呢!我只好从命。 4 家 宴 奇 遇 报告会结束后,章明开车把我带到她家。她家距学校不远,是一栋坐落在海边的别墅,上下两层,好象与青岛八大关的一座小楼样式相近。章明的丈夫在门口迎接我,老太太早已站在客厅里等待我们。客厅宽敞明亮豪华,既充满现代气息,又不乏古色古香。我们互致问候后,坐在沙发上喝茶。章夫戴一副金丝眼镜,很魁梧,高高大大,又文质彬彬。老太太模样、神态、体型、行动和嗓音与章明简直一丝儿不差,只是略显老些。我真佩服了造物的伟大、遗传基因的神通。 章明放好车走进客厅。老太太说:晚餐已经备好,咱们现在就入席吧!边吃边聊。 餐厅就在客厅的西面,在餐厅能听到海浪拍岸声声。餐桌是个略小一点的紫檀木八仙桌,四个紫檀木高背坐椅分放餐桌四边(记得青岛春和楼饭店雅间有这样的配备,不过那紫檀木是假的,是用人工合成材料做的)。餐厅和客厅的风格完全一致,既古朴又现代,既典雅又豪华。这显出了主人的修养和个性:既现代又传统。 老太太坐北首,我坐东首,章明坐西首,章夫坐老太太对面。菜是鲁菜,很丰盛,充满家乡味;酒有茅台,极香淳,溢满餐厅。老太太喝青岛即墨老酒,章明喝青岛啤酒,章夫和我喝茅台酒。 坐定后,老太太首先举杯。她面向我说:我代表我全家感谢余先生您的大驾光临,欢迎您来我家做客。过去说,山东人老乡见老乡,两眼泪汪汪。今天我们老乡见老乡,要欢天喜地聚一场。请您今晚尽兴,酒要喝足,饭要吃饱,就像回到自己的家里一样。 我感到她说话很亲切,特别是她说话时一双大眼睛直盯着我的面孔,那目光就好象要钻到我的内心深处去寻找什么。我直有些发毛,心跳加快,面孔发热。我表示了感谢之后,就主要是由她来询问我了。她问了济南的大明湖,趵突泉,灵岩寺,千佛山;她问了青岛的栈桥,海水浴场,湛山寺,八大关。然后,她充满感情地向我叙述了她的简单经历。 她在济南住过,又在青岛住过,章明就生在青岛。 1949 年 5 月她随夫携章明乘军舰来台湾,一住就是小 50 年。她思念济南,想念青岛,但她在济南青岛的亲人都早已故去,即使回去也会觉得没着落,心里空落落的。只有美景没有亲人的滋味更不好受,应是良辰好景虚设。便纵有千种风情,更与何人说?所以只好通过和老乡谈谈来缓解她的思乡之愁。我十分同情她,便邀请她去青岛看看,我负责接待,让她把我看成她的小弟弟。她很高兴。 接下来,是章明介绍自己。来台后,从小读书,大学学的生物专业,毕业后在基隆工作至今。她希望有机会去青岛做科研。她说:青岛是世界闻名的海洋科学城,又是我的出生地,那里是我日夜向往的地方。 章夫说,他叫邱复强。他父亲原在青岛开纺纱厂, 1949 年父母亲带他来台湾,与章明同船。他在大学学的商贸专业,现在美国开了个中华复强经贸公司,主要经营家电产品和水产品。世界各国的生意都做,唯独祖国大陆的生意还没开展,希望去大陆发展。 邱复强在我们谈话之间,已经劝我喝了不少酒,此时,一瓶茅台酒我俩已经喝了大半瓶。我的醉酒感觉是从脚开始,逐步向上蔓延的。先是脚发麻,不灵便;再喝,就是腿不灵便;再喝,是肠胃发热;再喝,手不听使唤,舌头发直;再喝,大概就是醉倒了,我还没经历过,因为我约束自己永远不能喝醉。我现在腿部已有感觉,第一次到一个生人家喝酒,我必须留有绝对大的余地。所以,任凭他怎么劝,我都一概谢绝。 我要到大陆去发展,到时去找您帮助。为了在大陆的再相见,咱俩干一杯!邱复强说。 到大陆我家去咱们再干!我只好喝下这一杯。为了挡住他的再劝酒,我从上衣口袋里掏出我的保健盒放在饭桌上,说:我有心脏病,不能多喝。 邱复强说:听您的口音有点和家父相近,肯定您也是鲁西人。咱们鲁西老乡再干一杯! 我的确是鲁西人,只好又喝下一杯。接着问他:您祖籍鲁西什么地方? 邱复强说:东昌府阳谷县。您老是── 我答:东昌府高唐县。 高唐那个村?老太太急忙插话,问我。 城北北村。我说。 离王村多远?老太太站了起来。 北村就是以前的王村。我说。 就是那个离城不到一里路的王村?老太太瞪大了眼睛。 对。王村现在叫北村。我答。又问:您知道王村? 您小时候读过四书五经?老太太仍然站着,上身又向前探了探,语碉更固执,而且不礼貌地回避了我的问话。 我答道:读过《三字经》《论语》《大学》《中庸》和《千字文》。 她紧接着问:还能记得吗? 我自信地答:童子功。记得很熟。 她突然起头:人之初,── 性本善。我习惯性地接背,像流水一样往外流,性相近,习相远。苟不教,性乃迁。教之道,贵以专。昔孟母,择邻处。子不学, ...... 她:养不教,── 我:父之过。教不严,师之惰。 ...... 她:《诗》《书》《易》,── 我:《礼》《春》《秋》。号《六经》,当讲求。有《连山》,有《归藏》,有《周易》,三《易》详。 ...... 她:经既明,── 我:方读子。撮其要,记其事。五子者,── 她:读史者,── 我:考实录,通古今,若亲目。口而诵,心而维,朝于斯,夕于斯。昔仲尼, ...... 她:勤有功,── 我:戏无益。戒之哉,宜勉力。 她:子曰:学而时习之,── 我:不亦说乎?有朋自远方来,不亦乐乎?人不知而不愠,不亦君子乎?有子── 她:子曰:弟子入则孝,── 我:出则弟,谨而信,泛爱众,而亲仁。行有余力,则以学文。 ...... 她:子曰:吾十五而有志于学,── 我:三十而立,四十而不惑,五十而知天命,六十── 她:子曰,君子怀德,── 我:小人怀土。君子怀刑,小人怀惠。 她:子路曰:愿车马,── 我:衣轻裘,与朋友共,敝之而无憾。颜渊 ...... 她:子路曰:愿闻子之志。── 我:子曰:老者安之,朋友信之,少者怀之。子── 她:季路问事鬼神。── 我:子曰:未能事人,焉能事鬼?敢问死。曰:未知生,焉知死? ...... 她:孔子曰:益者三友,损者三友。── 我:友直,友谅,友多闻,益矣;友便辟,友善柔,友便佞,损矣。 她:孔子曰:君子有九思。── 我:视思明,听思聪,色思温,貌思恭,言思忠,事思敬,疑思问,忿思难,见得思义。 她:子曰:不知命无以为君子也,── 我:不知礼无以立也,不知言无以知人也。 我正不知她为什么用这种她随意起头让我接背的方式,考我的背书功,因为只有我的启蒙老师才用过这种方法考过我。这时,突然听到她大声呼叫: 步青! 我不自觉地答应:哎!我纳闷儿了,她怎么能知道我的启蒙老师给我取的名字?从来只有我的启蒙老师叫过我的这个名字,她怎么也这样叫?她是谁? 只见她张开两臂,用激动得发颤的声音对我喊:小弟!我是邬幼雁,我是你的雁姐啊! 雁姐?!雁姐!!我的雁姐!!!我大声喊着急忙站起身扑向她。不知为什么,我忽然感到血往上冲,眼睛发黑,晕了过去,不省人事。 5 忆 旧 叙 旧 待我稍微有点知觉时,只知道自己是平躺着,感到空气进出我的鼻孔。渐渐地渐渐地听到从极遥远极遥远的远方传来一位女子轻轻的有力的急切的呼唤声,不断接近,不断重复:小弟,小弟,你要有感觉就攥一下我的手。小弟,小弟,你要有感觉就攥一下我的手。小弟,小弟,你要有 ...... 我感觉到了我右手中有一只柔软的手,但是,我的手怎么也不听使唤,用不上劲儿,动弹不了。我极力回忆这是在哪儿,这是怎么回事。脑力在缓慢恢复,恢复,恢复 ..... 我终于记起了我现在是在哪里,我终于记起了刚才的酒宴, 我终于记起了我的雁姐 ...... 我身体的各个部位仍然都动弹不了,话也说不出。雁姐的手握着我的手,一绺头发耷拉在我的左脸颊上,她呼出的气直吹在我的右脸颊上。那是我再熟悉不过的柔软的手,那是我再熟悉不过的温馨的体温和香甜的气味,那是我再熟悉不过的深情呼唤,那── 50 多年的往事,拥挤着从我脑海的深处往外冒。 1945 年,我 8 岁。在我的家乡高唐县,日本鬼子走了,国民党的部队来了;国民党的部队走了,共产党的部队来了。在国民党县法院工作的章丘人邬承申不愿留任新政府,就带着妻子和女儿邬幼雁来到我们王村,借了一间房住下,以教书为生。年老体弱的邬承申熟读四书五经,教《三字经》《论语》《大学》《中庸》和《孟子》; 16 岁的女儿邬幼雁除了辅助父亲教课外,自己还教《千字文》和《算术》,几个城里人还来跟她学英语。邬承申和邬幼雁父女就成了我的启蒙老师。我先跟邬承申老师学《三字经》,后学《论语》,邬幼雁老师辅导我学,常考我的背书。邬幼燕老师还教我《算术》和《千字文》。 邬幼雁老师长得特别地美,讲话声音特别地甜,课讲得特别地有趣又特别地容易懂,所以我特别地喜欢听她讲课。每逢她讲课,我都直盯着她的脸,傻傻地看着她的一双大眼听她讲,有时流下口水来竟浑然不知。她有时可能是因为被我的直盯看红了脸,有时可能是因为我的口水流到了胸前还不自觉,她就边走边讲,走到我身边,摸一摸我的头顶,我便恢复常态。 说不清楚是为什么,这个人见人爱的美丽的邬幼雁老师,特别地喜欢我。也许是因为她是独女,父母年老,没个同龄的伴;也许是因为她喜欢小孩儿;也许是因为我的小脸蛋儿好看,嘴巴又甜;也许是因为我有点傻乎乎的, ...... 感情的事说不清楚,反正不久我们师生便成了最好的朋友,我平生第一个好朋友,并且维系了两年多,一直到她离开王村去了那未知的地方。 因为当时我只有乳名老道,邬承申老师便给我取了个大名叫步青。可是,人人都还叫我的乳名,唯有邬承申老师和邬幼雁老师每次叫我都叫步青,成了她俩的专用词汇。开始我还以为是步轻二字,是提醒我走路时脚步要轻,邬幼雁老师给我解释以后才知道这是从平步青云中抽绎出来的,是对我前途的企盼和祝福。乡下人不懂这些,邬老师走后,他们觉得步青二字叫起来拗嘴,又和不清和不轻混淆,就改为新路,一直用到现在,几乎没人知道我还曾叫过什么步青。 邬幼雁老师经常主动考我背书。其时,她坐在凳子上,眼看着手里的书,我背向她,她随意起头,我接着往下背。她慢我就慢,她快我也快,得紧跟,不能打顿儿。背得不好,她就严厉地轻轻地拍一下我的后脑勺,命令我重背。有时我背得特别让她满意,她就把我揽到她的怀里,把我放在她的双腿上,一会儿用下巴抵着我的头顶,一会儿面颊摩挲着我的后脑勺,摇来摇去地继续让我背书。那浑厚、柔软而温暖的胸膛,那匀称有力的心跳,那温馨的体香,那如兰的气息,令我体会婴儿在母亲怀里的感觉,幸福无比。那时,我们像是在仅有我们两人的天堂里合奏一首美妙的乐曲,让人心旷神怡。晚上,我在微弱的、一闪一闪的棉油灯的灯光下练毛笔字,她也常常这样把我抱在她的怀里,右脸贴着我的左耳,左手揽着我的胸膛,右手握着我的右手练习。那时,我们又象在共同描绘一幅未来幸福的蓝图,令人向往。 在我俩单独在一起时,她不准我叫她老师,她要我叫她姐姐或者雁姐,她则叫我小弟,每次我心里都感觉很甜。我极认真地拿她当姐姐,狠不得一刻都不离开她。 当有人给她说媒时,她都严词拒绝。而在 1947 年春,有人做媒要撮合我俩结为夫妻时,她没反对,但是她见了我就脸红。其实,当时我并不知此事,没有任何一个大人跟我商量过,其时我家乡既偏僻又极落后,我连结婚是怎么回事也不甚了了。不知为什么,嚷了许久,最终双方的老人没能同意。原因可能是我们两家不门当户对,因为我家是农民,全家人都不识字,而她家是官宦人家,知识家庭;也许是因为她大我八岁,嫌我不足十岁,年纪太小,反正我俩没结成婚。 1947 年夏。一个早晨,天刚刚亮,我似醒非醒,听到了街上有人在说雁姐一家要走的消息(当时没有任何人告诉过我老师要走,没有任何人理会一个小孩子的感情),我急忙从炕上爬起来赶到西大场院,看到她们一家已经坐在马车上,就要动身。我急忙跑过去,拉着雁姐的手,放声大哭,什么也不说不出,只是一个劲儿地大声哭。雁姐不止一次地给我擦眼泪,哽噎着对我反复说:小弟,不要哭,好好念书就一定还能见到你的雁姐。 ...... 恢复,恢复,继续恢复, ...... 我的两行热泪分别向我的两只耳朵淌去 ...... 我能动弹了,我抓起雁姐的两只手捂住了我的双眼,任凭少儿时的那种幸福在全身奔流。停了一小会儿,雁姐轻轻地慢慢地掀起我的上身,把我斜倚在她的怀里。大家都松了一口气。 雁姐轻声说:小弟,不要着急,再休息一会儿。 章明说:余先生──马上又改口,叔、叔,妈妈常提起您。你们纯真的友谊,我们全家都知道。 邱复强说:叔叔,妈妈终于找到您了。大陆改革开放以后,两岸通信方便了,妈妈给您去了好多封信,都以地址不详或者查无此人为由退回。这一回您可得留清楚地址了。 章明接着说:五六十年代妈妈通过香港去了许多信,连退信都没见到。 一个陌生女人说:这位老先生由于喝了些酒,有些激动,又起身太猛,大脑一时缺血才晕过去的,血压和心脏没问题。没事了,我走了。 雁姐轻轻摇着我的上身说:谢谢大夫。章、邱夫妇去送大夫到了门外,雁姐的嘴凑近我的耳朵亲昵地小声说:小弟,小弟,快叫我姐姐,快叫我雁姐,快叫! 我轻轻地甜甜地一连声叫道:姐姐,姐姐,雁姐,雁姐,好姐姐,好雁姐。同时使劲儿用雁姐的手捂我的眼睛。 完全恢复了,雁姐扶我坐直了。我睁开眼,发现我刚才是躺在了临时拉到饭桌前的大沙发上。邱、章回来后,根据雁姐的吩咐,复强搀扶我到客厅坐下,章明给我倒来一杯加了鲜牛奶的桔子水,雁姐和我坐在一个大沙发上。雁姐毫无顾忌地对我说: 你要是觉着坐不稳,就尽管倚在我身上。像 50 年前一样,不要害羞。 不用,不用。虽然我内心里极想倚在她身上,像儿时那样恣意无忌。但是我毕竟不是儿童了,而且又在章、邱面前,所以我只得违心地一叠声地这样说。雁姐是否心知? 雁姐叹了一口气,又开始给我详细说她的经历。 1947 年夏,雁姐与我分手后,一家人逃到济南,她心里永远留下了临别时我闭着眼张着嘴流满眼泪的脸。王耀武的省政府接待了父亲,安排了住处,并给了一点儿生活费。但由于战争愈来愈紧,生活也愈来愈困难。 一天,父亲在街上遇见一位他的章丘明水同乡、同学和朋友,他当时是国民党青岛市党部的重要领导,他是来济南看望当空军团长的儿子的。父亲把他接来临时住处,两人吃饭、喝酒,情绪非常压抑,说了很长时间的话。没几天,两位老人做主,雁姐便和父亲这个朋友的儿子章汉元结了婚。婚后,公公与父母乘火车去了青岛,公公给父亲在青岛教育局安排了份工作,他们合住在公公在青岛八大关的小洋房里;雁姐随夫留在济南。 1948 年春,战事吃紧,雁姐又怀孕临产,当时火车已不通,汉元便陪雁姐搭乘空军的货机飞到青岛,住在八大关公婆家。通过公公的关系,汉元调青岛部队,方便照顾雁姐。 1948 年夏,在雁姐生下章明的第七天,久病的婆婆谢世,葬在浮山南坡,性全先生修行的小石屋左前方。公公和父母在不到一年内相继谢世,都葬在那儿。 1949 年 5 月,一家三口人来台湾。雁姐当中学教师,一直到退休;汉元继续当军官,一直到 1960 年阵亡。 雁姐问我:性全先生的小石屋还在吗?记得小石屋的门上还有蔡元培先生题写的一副对联。 我答道:浮山庙遗址尚在,左首性全先生的小石屋──朝阳洞还在,蔡元培先生题的对联完好无损,我登山游玩时看到过。记得上联是藓崖直上飞双屐,下联是云洞前头岸幅巾。上联前有性全先生雅属六个字,下联后落款是蔡元培三个字。看来都是真迹。 雁姐似乎有些累,情绪低沉,无力地庆幸道:没被破坏,那很幸运。 我赶忙介绍新内容,以转移雁姐的低沉情绪:荒草庵旧址东面建了一个神经病院,西面建了一个社会福利院,福利院西面是新修的康有为墓,康有为墓西和南两面是青岛大学,── 雁姐就像一个姐姐对待弟弟那样,毫不客气地用手势止住我的话,伤感地说:我一定要尽快去那里看看。民国四十九年( 1960 年)汉元就走了,我得把他的骨灰埋到那里去。那里是我们家人的最终归宿地。 我赶忙说:我家就在浮山西麓。到时我陪您去。 雁姐长长地叹了一口气,说:好了。咱们不谈这些了。就好象丢下了一个很重很重的大包袱。然后转身向我,说说这些年你的经历吧!可不许撒谎! 我赶快张嘴说话,以继续转移气氛:我── 正在这时,电话铃响了。章明去接电话,对母亲说: 肯定是您那宝贝外孙女来的电话。 用扬声,把镜头摇过来。雁姐来精神了。 电话里首先传出叫外婆的喊声,我听着嗓音很熟。接着,可视电话的荧光屏上现出邱水的身影。 邱水!我大声叫道。煞时间我完全明白了以前与邱水、章明似曾相识的情结源自雁姐。怪不得那么深刻呢! 余老伯!您怎么在我家?我可从来没有告诉过您我们家的情况啊!邱水惊异地问我。 我来台湾学术访问,是你妈邀请我来你家做客的。我平静地说。 真是太巧了!邱水拍了一下手说。 你们认识?!雁姐惊奇地问我。 岂止是认识?他就是七年前带我游北京、游苏联、游青岛的余新路余老伯。外婆您一定要好好招待我的余老伯!邱水抢答道。 邱水,我的宝贝!你还记得我曾给你说过的我 50 年前的故事吗?雁姐深情地问外孙女。 听过多遍,能背能诵,如在眼前,历历在目。邱水流水似地答道。 邱水!你可知道?你的余新路余老伯,就是 50 年前差一点儿就成了你的小外公的那个余步青。雁姐说。 我的上帝啊!怎么这么巧?!就好像是有人精心安排的一样!简直就是在演戏!邱水激动得跳起来。 事实就是这么巧。但这戏肯定不是作家安排的,这是上帝亲自安排的。雁姐一脸的沧桑。 好外婆,那我就得改嘴不能叫他余老伯了。他是您的小弟,又是差一点儿成了我外公的人,那么,您说我是叫他余外公呢,还是叫他舅姥爷?邱水请示外婆。 随你怎么叫。雁姐像止水一样平静地说。 好外婆!您的小弟、我的余外公余舅姥爷在青岛,现在我们可以回归青岛了吧?我愿意去青岛,我博士后出了站就打算去青岛发展。您不是早就希望回青岛了吗?邱水以央求的口吻说。 我们马上就研究这件大事。你等佳音吧。雁姐果断地说。 电话结束后,雁姐看着我的眼含情脉脉地说:你到底还是在民国三十六年( 1947 年)结婚了?当然我也是那年结的婚。没有人再嫌你岁数小? 我反问:这事儿您是怎么知道的?雁姐,您会算? 雁姐苦笑了笑,对着我说:小弟,你给邱水的诗稿──《赠萍姐》和《暮春在青岛看雾》,邱水找书法家写出来,裱糊好了,挂在了她的书房里,天天看,天天念,几十次地给我讲解。我还能够记不住吗?只是,直至刚才才知道新路就是老道、就是步青。 哦。我又明白了。 雁姐继续说:不过,你的萍姐比你大四岁,而你的雁姐我则比你大八岁。她长得比我漂亮吗?你诗中只说她贤惠,没有说她美不美。她也喜欢你的小甜嘴整天价叫她姐姐吗?青岛的雾景确实迷人,我也见过。但是,既然都游人如织了,使劲儿看才看到两三个人,也太夸张了;而且,在那种雾天,我从来也没有过是神仙的感觉,我只知道气管炎、哮喘病和心脏病患者喘不动气,憋得难受。 我不知该怎么回答,支吾道:雁──姐,您,您见到我的萍姐就知道她长得怎么样了。至于那诗嘛,还请邬老师教正。 雁姐左手捂着左脸莞尔一笑,右手食指指在我的前额上狠狠地轻轻地一用力,说:你这个小机灵鬼! 大家都会心地笑了。 6 回 归 青 岛 1997 年5 月4 日 ,我随我们代表团回到了青岛。 1997 年7 月1 日 ,香港回归,举国欢庆。就在这天,我收到雁姐汇来的4 千万美元。 7 月 7 日 ,按我们的约定 , 我在青岛高科技工业园为章明注册了青岛章明海洋生物技术研究所。月底,又收到邱复强从美国汇来的 6 千万美元, 我在高科技工业园为他注册了美国中华复强经贸公司青岛分公司。 1998 年,买地搞基建,研究所、公司、别墅已具雏型。别墅在新修的青岛观赏路东海路东段,在石老人海水浴场西面,和青岛啤酒城仅隔一条马路;样式和雁姐在基隆的别墅一模一样,都是比着八大关雁姐故居的样子建的。 1999 年春,章明辞去原职,与雁姐同来青岛,住在她们的新别墅里。雁姐来青岛办的第一件事就是祭奠父母和公婆,同时把章汉元的骨灰葬在公婆墓的右首。我和萍姐一直跟在她的左右,她很喜欢我的萍姐,称她为萍妹。章明主持她的研究所,聘我做顾问。 1999 年夏,复强的分公司开始营业。 1999 年秋,邱水博士后出站,来青岛主持爸爸的公司。 1999 年12 月19 日 晚,雁姐全家和我全家在雁姐的别墅里,通宵欢庆,迎接澳门回归祖国。20 日凌晨,看完澳门回归交接仪式的电视节目后,雁姐举杯,全体起立干杯祝贺。 雁姐深有感触地说:香港回归了,澳门回归了,我们也回归了,台湾问题也该妥善解决了。 大家约定,到两岸统一那天要好好庆祝庆祝。
个人分类: 未分类|6421 次阅读|3 个评论
高等教育应回归“高等”【转载】
sanshiphy 2009-5-12 12:15
前几日博主去民大朋友那里玩,回来时顺手拿了一份民大研究生会办的报纸《民大研究生》(2009年5月8日总第29期第八版),上面有一篇刘天骄写的题为《高等教育应回归高等》的文章,引起了博主的注意,转载至此,以飨众位。从题目即可以看出,此文是一篇充满批判意味的杂文。但博主转载此文,却绝无批判的意味,现在批判高教的声音很多,且大多振聋发聩,无需博主再多此一举。文章中较为集中的反映了现今高等教育的弊病,博主转载在此,就是想做一个历史的记录者。博主在想,50年后我们的孙子辈也许能受到世界上最好的高等教育,希望他们能看看爷爷那时所做的努力和牺牲,正所谓忆苦思甜也。博主 作为国家 211 985 重点大学的研究生,也许在老一辈人或置身校外的人眼里,我们正接受着他们梦寐以求的高等教育坐在窗明几净的大教室里听老师传道授业解惑,穿梭于书香氤氲的图书馆感受知识与智慧的熏陶,远离纷繁复杂的社会尘嚣与勾心斗角,天天以书为伴以茶会友,与志同道合的同学朋友谈理想谈奋斗 ...... 事实上,也许这些美妙的幻觉是我们校园生活的一部分,但这些只存在于离开校园之人的回忆中或未进校园之人的憧憬中,真实的我们是如此的草根一族,彷徨多于坚定但又不愿盲从,无奈多于期待但又不肯放弃。 中国青年报社会调查中心与新浪网新闻中心曾联合开展一项调查,共有 7730 人参与了受访调查,其中在读或已毕业研究生有 4865 人。调查显示, 52.9% 的人认为现在读硕士研究生不值。读过研的受访者中, 35.6% 的人表示后悔,认为经过两三年的学习,自己的能力和知识并没有提升多少,而且还丧失了获得好工作和打拼的好时机。对于这个结果,不知教育主管部门、大学教授、大学毕业生们有何感想,也许他们会拿出种种理由试图推翻这个结果,但纵观横比各国的研究生教育,我们必须冷静地对待这个问题,必须相信这个结果真实地反映了当前的研究生教育状况。 电影台词说的好 21 世纪最缺什么人才!我们的物质生活条件在改革开放的三十年里有了翻天覆地的变化,而我们的精神世界是否也富足了呢?科技进步、粮食高产、经济腾飞,相应的国民整体教育水平也得跟得上时代的步伐,十年树木,百年树人的古训似乎在当今这个快餐时代和缩略时代已经过时。近几年,我国的研究生招生工作每年都在高速增长,平均 25% 的增长速度,几年就翻了一番,这还是在考研热降温的前提下得出的结果,在没有完善的政策指导、学科水平、培养机制、管理措施和社会就业保障的情况下,高校研究生大规模扩招,跟本科生几乎一样的规模。至今,我们已经拥有世界上最多的硕士和博士研究生。这种规模和速度让国外教育界咋舌。 数量上去了,但质量怎么样呢?显而易见,在有限的教育资源下,能够分配到每个研究生头上的资源因为人数分母的增加而被稀释。一位导师一届就带六、七个研究生与博士生,有的甚至多至十五六个,加上一学期开三、四门课,还要忙于各种事务,要做到细致辅导,因材施教,就算是孔圣人也力不从心了。同学们在私下称导师为老板,甚至是科研包工头。导师带领学生从事科研工作,参与项目写作,成为现有科研体制内主流的教学科研形式。这种教学方式,有益的一方面是带来一定的物质收益,学生通过课题研究掌握和消化理论知识,获得就近实习的机会。但另一方面,一些导师忘却了对学生教育培养的责任,把研究生当成简单廉价的劳动力。有些导师缺乏对学生的学术道德教育,甚至对学生论文中的抄袭也无暇顾及和觉察。 学校开设的课程安排密集,内容陈旧更新不足,缺乏学术研究的科学实践指导。同学们多是第一学年疯狂上课修满学分,第二、三学年出去调查或实习,为工作而奔波,顺带完成不伦不类的论文。多数研究生撰写的学术论文质量不敢令人恭维,创新不足冗长有余,体系不成拼凑有余,论据不足编造有余。即使这样,学校依然制造着没有毕不了业的硕士,没有考不上的博士的传说。 当初辛苦进了校门门,如今宽松出去了校门。我们成为社会需要的人才了吗? 现今全国知名大学本科毕业生就业率仅为 23% ,大学生会为一个卖猪肉的岗位而挣破脑袋,大部分工作人士认为学生学校所学与他们的工作需求严重脱节,尤其是一些冷门专业,常常遭到他人的质疑与排挤。学生往往是幼稚鲁莽、有待社会磨砺的底层社会人。然而,想想当初决心上研的原因,是追求学术的壮志未酬,是留恋校园的纯真浪漫,还是面对现实的被迫选择?我相信大多数上研之人的初衷,无非是为应对当前招聘单位非理性的高门槛,想提高学厉,找工作时方便一点挣钱多一点。但事实又是怎样,当我们走出校门,拿着三年光辉岁月换来的知识与能力的证明纸张之时,却发现这些自认为含金量十足的证书如同通货膨胀时期的纸币一样,骤然贬值,招聘会上满天飞,飞到哪里就消失在哪里。在茫茫人海中,此时我们只有面对苍天,扪心自问:我是谁? 作为个体的自身和社会的一员,我们在改革中寻找出路,在改革中寻找未来。作为草根一族,我们真诚建言,国家高等教育改革应回归高等,突出高等的意义。高等教育人才不在数量之多而在质量之精。研究生的招生专业应与社会需求相适应,招生数量应与学校教学资源相符合。在教育培养过程中,进一步理顺培养单位、导师和研究生之间的关系,明确彼此间的责任和权利,增进三方的互动和合作。培养单位公平、公开、公正地落实多元化的奖学金激励机制和培养淘汰机制,激励研究生刻苦努力,开拓创新,保证学位的高质量和品牌;导师的教书育人应得到更好体现;研究生更要积极主动的参与学术研究,放平心态摆正位置,高调做事低调做人,既然选择了高等,便只顾勇敢攀登。 在这个变革的时代,因为我们步伐的加快,变化的提速,全球的不确定,我们坚持却找不到内心的依据,我们放弃却发现新的开始太艰难,我们寄居在别人的领地却不情愿,我们坚守在自己的船上却难以靠岸,我们徘徊却丧失了应有的机遇,我们奋斗却看不清前方的急流险滩,我们焦虑却不知其所以然,我们淡漠却无法面对内心的呼唤 ...... 但是,我们仍然相信国家、相信自己,努力在社会快速跳动的脉搏中寻找心灵的稳压器,力争在世界的不确定性中掌握前进的方向盘。
个人分类: 立此存照|3817 次阅读|0 个评论
门庭冷落鞍马稀
maxiaorong 2008-10-31 10:18
在外面游荡了十天,终于回到了学校,虽然寝室不足1米宽的小床远没有宾馆的大床舒服,但却让我觉得亲切的差点热泪盈眶。 这十天在外出差的日子,一直没能来打理我在科学网上的这个小窝。 可怜现在,已是门庭冷落鞍马稀 我~回~~来~~~啦~~~~! 好累,先休息一上午再说。呵呵
个人分类: 涂鸦|3789 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 01:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部