科学网

 找回密码
  注册
科学网 标签 回归 相关日志

tag 标签: 回归

相关日志

关于计量金融领域中回归模型的拟合优度
htsong1976 2015-10-23 19:52
18:47 读了小颖推荐的第七章,感觉在Wooldridge那本书书确定不强调R Square的作用。 往前回溯到第二章,伍德对此有个说明,参见书中第32-34页。 但同一页还有个例子,如上。 18:51 例子中又承认R方低会造成线性回归模型缺乏解释力的问题。 19:08 国内的大多数论文都强调高R方的重要性,荣泰生的《SPSS与研究方法》中第11章同时提及多元回归和带虚拟变量的回归,P379解释的R2系数的重要性。找到知乎上有一篇文章,这是做计量经济的学者写的,也是后面的争论也很有意思。 http://zhuanlan.zhihu.com/econpaper/19931167?utm_campaign=rssutm_medium=rssutm_source=rssutm_content=title 人大经济论坛上有个贴子,是做计量经济的学生问的。 http://bbs.pinggu.org/thread-2927882-1-1.html 跟我们讨论主题很相似。 19:11 简单总结下,伍德的观点是就算低R方,也说明自变量跟因变量的关联性是显著的,所有是有意义的。但是这种情况下,没有办法做预测,因为自变量能因变量的解释力有限,所有预测就不会靠谱。 lincy 一般研究如果理论贡献和实践意义比较大,即使r2较低也是可以接受的 lincy 我看到很多文章只有20%甚至更低 lincy 包括我自己的文章 19:15 lincy 还有一个原因是不同的人统计软件出来的结果都不同,但就像宋老师说的,这些文章一般强调理论解释、相关性或因果关系,预测方面可能有所局限性 可能这跟学科有关系,计量的人也想高R方,但是如果那样坚持可能就出不来结果了,毕竟不可控因素太多。 19:21 lincy 哦,呵呵,这个里面忘了改 但这样做风险比较大,因为只剩余一道P值的标准,但所谓的P值显著也是不可靠的,既有高估风险又有低估风险。 lincy 是的,这也是我们研究经常遇到的问题 lincy 现在用结构方程模型来做验证的比较多,会有拟合系数等一系列指标衡量,回归算是比较劳动日方法 lincy 是的,统计算法一直在改进,也一直被诟病 19:28 可以部分解决,也可以用Bootstrap,但又引入一个新的前提,即样本与总体的同分布。 这块部分原因还不在于统计方法本身,而在于统计的每个方法都有其严格的施用前提,但平时我们用的时候一般却是随手拈来。 lincy bootstrap就是pls的基本假设 19:33 这块不了解,我以为Bootstrap就是基于重采样技术的统计量计算方法,一般称为自助法的。 lincy 我也不懂具体的原理,一般就是直接拿来用的 19:36 一般我们在Bootstrap中是基于给定的样本做重抽样,然后根据抽样结果来算各种统计量,这对偏态的小样本情况比较常用。 19:40 lincy 那这就对了,pls就是适合小样本不符合正态分布的样本做的统计,还是要懂得原理才能更好应用
个人分类: 概率统计|3878 次阅读|0 个评论
生物灾害精细化预报算法试验研究——以潜山县马尾松毛虫为例
zhguoqin 2015-6-28 14:33
生物灾害精细化预报算法试验研究——以潜山县马尾松毛虫为例 张国庆 (安徽省潜山县林业局 安徽 246300 ) 摘要: 精细化预报建模,除了“精”、“细”之外,还要注重“简”的精细化预报基本要求,只有这样的算法模型,才能“化繁为简”,才能在生产实践中得到广泛应用。一个好的算法,就是要把复杂的事情交给计算机去做,最大程度地把人从繁重的劳动中解放出来。因此,算法与模型的的选择,应该按照“精”、“细”、“简”要求,应用最新数学、系统学成果和分析仿真工具,采用多种方式进行试验比较,选择合适的算法。就本次算法试验而言,对于潜山县马尾松毛虫精细化预报,采用多层感知器建立马尾松毛虫预报模型较好。 关键词: 生物灾害;马尾松毛虫;回归;神经网络;算法 1. 数据来源 马尾松毛虫发生量、发生期数据来源于潜山县监测数据,气象数据来源于国家气候中心。 2. 数据预处理 为了体现马尾松毛虫发生发展时间上的完整性,在数据处理时,将越冬代数据与上一年第二代数据合并,这样,就在时间上保持了一个马尾松毛虫世代的完整性,以便于建模和预测。 ( 1 ) 发生量数据处理 对潜山县 1983 ~ 2014 年原始监测数据预处理时,按照“轻”、“中”、“重” 3 个强度等级,分类按世代逐年汇总。 ( 2 ) 发生期数据处理 在对潜山县 1983 ~ 2014 年原始发生期监测数据按世代逐年汇总,然后,将日期数据转换成日历天,使之数量化,以便于建模分析。 ( 3 ) 气象数据处理 根据《 松毛虫综合管理 》、《中国松毛虫》等学术资料以及近年来有关马尾松毛虫监测预报学术论文, 初步选择与松毛虫发生量、发生期有一定相关性气象因子,包括卵期极低气温,卵期平均气温,卵期积温(日度),卵期降雨量,第 1 、 2 龄极低气温,第 1 、 2 龄平均气温,第 1 、 2 龄积温(日度),第 12 龄降雨量,幼虫期极低气温,幼虫期平均气温,幼虫期积温(日度),幼虫期降雨量,世代极低气温,世代平均气温,世代积温(日度),世代降雨量共 16 个变量。将来自于 国家气候中心的气象原始数据,按年度分世代转换成上述 16 个变量数据系列。 然后按照精细化管理的“精”、“细”、“简”的要求,选择对当前马尾松毛虫防治实践有着较高指导意义的发生面积和幼虫高峰期作为预报因子,采用 SSPS 进行偏相关性分析,再次排除相关性较低因子变量,并排除 世代降雨量、幼虫期降雨量、幼虫期极低气温、幼虫期平均气温、幼虫期积温等过时数据,以减少过多相关性较低变量对建模试验的干扰。 在数据汇总中发现,第一代与第二代之间的气象数据相差较大,为了保证试验的精确性,将第一代与第二代分开建模试验。各世代参加算法试验的变量如表 1 。 表1 参加算法试验的变量 因变量 自变量 第一代发生量 第1、2龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积,以及第1、2龄降雨量,卵期降雨量 第二代发生量 第1、2龄极低气温,上一代防治面积,卵期极低气温,上一代防治效果,第1、2龄降雨量,卵期降雨量 第一代幼虫高峰期 成虫始见期,第1、2龄平均气温,第1、2龄积温,第1、2龄极低气温,卵期极低气温,卵期平均气温,卵期积温 第二代幼虫高峰期 成虫始见期,卵期平均气温,卵期积温,第1、2龄极低气温,第1、2龄平均气温,第1、2龄积温,卵期极低气温 3. 试验工具 IBM SPSS Statistics 22 , Microsoft Office Excel 2007 。 4. 算法试验 ( 1 )回归试验 使用 IBM SPSS Statistics 22 和 Microsoft Office Excel 2007 ,多次选择不同的变量, 采用线性回归、 曲线回归、非线性回归、 Logistics 回归等回归建模试验的比较,再次排除了部分相关性较低的变量,最终选择了拟合度较高的线性回归模型,如表 2 。 表2 回归算法试验结果 ​ 最终参加试验的变量 算法试验结果 因变量 自变量 预报模型 显著性 第一代发生量 第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积 第一代发生面积 =18563.523-0.17× 上一代发生面积 +3223.329× 上一代防治效果 +305.634× 卵期极低气温 -1197.311× 第 1 、 2 龄极低气温 0.036 第二代发生量 第 1 、 2 龄极低气温,上一代防治面积 第二代发生面积 =-33943.89+1.3337872× 上一代防治面积 +1958.0085× 第 1 、 2 龄极低气温 0.053 第一代幼虫高峰期 成虫始见期,第1、2龄积温,第1、2龄平均气温 第一代幼虫高峰期(日历天) =34.055+0.585× 上一代成虫始见期 +0.002× 第 1 、 2 龄幼虫期积温(日度) 0.000 第二代幼虫高峰期 成虫始见期,卵期积温,卵期平均气温 第二代幼虫高峰期(日历天) =219.323+0.280× 上一代成虫始见期 -0.150× 卵期平均气温 0.000 从表 2 可以看出,显著性概率小于或非常接近 0.05 ,拒绝回归系数都为 0 的原假设,算法试验基本满足精细化预报试验要求。 ( 2 )神经网络径向基函数试验 使用 IBM SPSS Statistics 22 , 经过多次神经网络径向基函数试验,筛选拟合度高的马尾松毛虫精细化预报模型 ,试验结果如表 3 。 表 3 神经网络径向基函数算法试验结果 最终参加试验的变量 试验结果 因变量 自变量 R 2 第一代发生量 因子变量:选择第1、2龄极低气温,卵期极低气温; 协变量:幼虫期降雨量,卵期积温 线性 0.810 第二代发生量 因子变量:第1、2龄极低气温,上一代防治面积; 协变量:卵期极低气温 线性 0.883 第一代幼虫高峰期 因子变量:成虫始见期,第1、2龄积温; 使用分区变量分配个案:1、2龄平均气温 二次 0.842 第二代幼虫高峰期 因子变量:成虫始见期,卵期积温; 使用分区变量分配个案:卵期平均气温 三次 0.889 算法试验发现,采用径向基函数建立的马尾松毛虫预报模型,基本满足马尾松毛虫预报要求。 ( 3 )神经网络多层感知器试验 使用 IBM SPSS Statistics 22 , 经过多次神经网络多层感知器试验,筛选拟合度高的马尾松毛虫精细化预报模型 ,试验结果如表 3 。 表 4 神经网络多层感知器算法试验结果 最终参加试验的变量 试验结果 因变量 自变量 R 2 (线性) 第一代发生量 因子变量:上一代防治面积,上一代防治效果,卵期极低气温,第1、2龄极低气温; 协变量:卵期降雨量,第1、2龄降雨量 0.957 第二代发生量 因子变量:第1、2龄极低气温,上一代防治面积; 协变量:卵期极低气温; 使用分区变量分配个案:上一代防治效果 1.000 第一代幼虫高峰期 因子变量:成虫始见期,第1、2龄积温; 协变量:第1、2龄平均气温,第1、2龄极低气温; 使用分区变量分配个案:卵期极低气温 0.999 第二代幼虫高峰期 因子变量:成虫始见期,卵期积温; 协变量:卵期平均气温,第1、2龄极低气温; 使用分区变量分配个案:第1、2龄平均气温 0.999 算法试验发现,采用多层感知器建立马尾松毛虫预报模型, R 2 均大于 0.9 ,要优于径向基函数与回归方法建立的模型。 ( 4 )时间序列分析算法试验 在算法试验中,还采用了多种时间序列分析算法,试验结果的拟合度都较低,达不到预报模型要求。 5. 算法选择与组合 ( 1 )算法基本要求 精细化预报建模,除了“精”、“细”之外,还要注重“简”的精细化预报基本要求,只有这样的算法模型,才能“化繁为简”,才能在生产实践中得到广泛应用。模型拟合度再高,如果实际应用操作复杂,那也很难应用于实践。因此,这就要求我们创新算法,把复杂的事情交给计算机去做,最大程度地简化人的操作,这样的算法才是好的算法。 ( 2 )自变量数据的获取 对于马尾松毛虫精细化预报而言, 对 防治具有较高指导意义只有发生面积、发生强度与幼虫高峰期的预报。 就目前技术来说,用于建模的成虫始见期数据,采用性诱或灯诱获取最易于实现,而且成本低,数据可靠性高。发生面积和发生强度,建模中使用的是上一代数据,这个数据可以使用高分卫片由计算机自动获取,必要时采用成本低廉的遥控无人机对重点区域进行遥测,对高分数据进行校正,尽量避免使用劳动强度大、成本高、可靠性低的人工地面监测数据。 气象数据可以从国家气候中心直接获取,包括历史数据和周、旬预报数据。 ( 3 )算法的选择 不同的区域,不同的有害生物,其算法与模型不可能完全相同。算法与模型的的选择,应该按照“精”、“细”、“简”要求,应用最新数学、系统学成果和分析仿真工具,采用多种方式进行试验比较,选择合适的算法。就本次算法试验而言,对于潜山县马尾松毛虫精细化预报,采用多层感知器建立马尾松毛虫预报模型较好。 ( 4 )算法的组合 以 Arc GIS 为平台,结合 SPSS 或 MATLAB 分析仿真工具,对有害生物未来发生情况进行精确描述、分析和仿真,根据仿真结果,发布生物灾害精细化预报。 参考文献 张国庆, 基于生态论的生物灾害精细化预报理论研究 ,现代农业科技, 2014 ,( 19 ): 146 ~ 150 张国庆, 基于 TSE 分析理论的林业生物灾害精细化预报技术研究 ,现代农业科技, 2014 ,( 19 ): 153 ~ 155 张国庆, 基于系统关键因子分析理论的林业有害生物防治关键期分析技术研究 ,现代农业科技, 2014 ,( 19 ): 199 ~ 201 张国庆, 基于系统健康管理理论的林业生物灾害精细化预报管理研究 ,现代农业科技, 2014 ,( 19 ): 197 ~ 198 张国庆,森林健康与林业有害生物管理 ,四川林业科技, 2008 , 29 ( 6 ): 77~80 基金项目:林业公益性行业科研项目“全国林业生物灾害精细化预报及管理基础应用研究”( 201404410 );国家重大专项项目“高分森林灾害监测应用”( 21-Y30B05-9001-13/15 )
个人分类: 生物灾害学|760 次阅读|0 个评论
马尾松毛虫精细化预报回归建模试验
zhguoqin 2015-6-28 14:13
点击下载原文: 02 马尾松毛虫精细化预报回归建模试验.doc 马尾松毛虫精细化预报回归建模试验 张国庆 (安徽省潜山县林业局 安徽 246300 ) 摘要:通过线性回归、 曲线回归、非线性回归、 Logistics 回归等回归建模试验的比较,建立了显著性较高马尾松毛虫发生量和幼虫高峰期预报模型。通过试验发现,精细化预报建模,除了“精”、“细”之外,还要注重“简”的精细化预报基本要求。对于有害生物精细化预报算法而言,应该按照不同县或不同自然区域,采用多种建模算法进行试验比较,选择适合于本区域的精细化预报模型。就马尾松毛虫发生期预报而言, 对 防治具有较高指导意义只有幼虫高峰期的预报,而对于虫期监测而言,就目前技术来说,采用性诱或灯诱获取成虫始见期监测数据最易于实现,而且监测成本低,可靠性高。 关键词:马尾松毛虫;精细化预报;回归;建模;试验 1. 数据来源 马尾松毛虫发生量、发生期数据来源于潜山县监测数据,气象数据来源于国家气候中心。 2. 数据预处理 为了体现马尾松毛虫发生发展时间上的完整性,在数据处理时,将越冬代数据与上一年第二代数据合并,这样,就在时间上保持了一个马尾松毛虫世代的完整性,更便于建模和预测。 经过 SPSS 初步相关性分析,第一代发生量选择相关性绝对值较高的 第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积,第 1 、 2 龄降雨量; 第二代发生量选择 第 1 、 2 龄极低气温,上一代防治面积,卵期极低气温,上一代防治效果,第 1 、 2 龄降雨量,卵期降雨量; 第一代幼虫高峰期选择 成虫始见期,第 1 、 2 龄平均气温,第 1 、 2 龄积温,第 1 、 2 龄极低气温,卵期极低气温,卵期平均气温,卵期积温; 第二代幼虫高峰期发生期选择 成虫始见期 , 卵期平均气温,卵期积温 , 第 1 、 2 龄极低气温 , 第 1 、 2 龄平均气温,第 1 、 2 龄积温 , 卵期极低气温 。 3. 试验工具 IBM SPSS Statistics 22 , Microsoft Office Excel 2007 。 4. 第一代发生量回归建模试验 首先选择 第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积,第 1 、 2 龄降雨量进行线性回归,由于参加回归的变量过多,显著性达不到要求,回归建模试验失败。然后根据回归失败结果,排除相关性较低的变量,保留第 1 、 2 龄极低气温,卵期极低气温,上一代防治效果,上一代防治面积 4 个变量,进行新的回归建模试验: GET FILE='F:\ 精细化课题 \2015 年度成果 \ 建模数据 \02 回归分析数据 \ 回归分析发生量数据第 1 代线性回归 4 元 .sav'. DATASET NAME 数据集 1 WINDOW=FRONT. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT 发生面积合计 /METHOD=ENTER 上一代防治面积 上一代防治效果 卵期极低气温 第 12 龄极低气温 /SCATTERPLOT=(*SDRESID ,*ZPRED) (*SRESID ,*ZPRED) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE MAHAL COOK LEVER MCIN ICIN SDBETA SDFIT. 实验结果如下: 从表 1 ~ 表 7 以及图 1 、图 2 来看,排除多余变量后的回归试验结果比较理想,显著性概率为 0.036 ,小于 0.05 ,拒绝回归系数都为 0 的原假设,回归模型为: 第一代发生面积 =18563.523-0.17 ×上一代发生面积+3223.329×上一代防治效果+305.634×卵期极低气温-1197.311×第1、2龄极低气温 5. 第二代发生量回归建模试验 采取同样的方法,分别选择 第 1 、 2 龄极低气温,上一代防治面积,卵期极低气温,上一代防治效果 对第二代马尾松毛虫发生量进行 SSPS 回归建模试验,和选择 第 1 、 2 龄极低气温,上一代防治面积 进行 SSPS 回归建模试验, 显著性均达不到要求,回归试验失败。由于算法上的差异,随后改用 EXCSL 对第 1 、 2 龄极低气温,上一代防治面积进行回归建模试验,试验结果接近显著性要求。结果如下: 从试验结果看,显著性概率为 0.05314 ,非常接近于 0.05 ,试验模型接近试验要求,回归模型为: 第二代发生面积 = -33943.89+1.3337872× 上一代防治面积 +1958.0085× 第 1 、 2 龄极低气温 6. 第一代发生期回归建模试验 首先选择 成虫始见期,第 1 、 2 龄平均气温,第 1 、 2 龄积温,第 1 、 2 龄极低气温,卵期极低气温,卵期平均气温,卵期积温,对第一代幼虫高峰期进行线性回归,由于参加回归的变量过多,显著性达不到要求,回归试验失败。然后根据回归失败结果,排除相关性较低的变量,保留成虫始见期,第 1 、 2 龄积温,第 1 、 2 龄平均气温 3 个相关性较高的变量,进行新的回归建模试验: GET FILE='F:\ 精细化课题 \2015 年度成果 \ 建模数据 \02 回归分析数据 \ 回归分析发生期数据第 1 代 .sav'. DATASET NAME 数据集 1 WINDOW=FRONT. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT 幼虫高峰期 /METHOD=ENTER 成虫始见期 第 12 龄平均气温 第 12 龄积温日度 /SCATTERPLOT=(*SDRESID ,*ZPRED) (*ZRESID ,*ZPRED) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE MAHAL COOK LEVER MCIN ICIN SDBETA SDFIT. 试验结果为: 从表 12 ~ 表 19 以及图 3 、图 4 来看,排除多余变量后的回归试验结果比较理想,显著性概率为 0.000 ,远远小于 0.05 ,拒绝回归系数都为 0 的原假设,同时在回归过程中还排除了变量 第 1 、 2 龄平均气温, 回归模型为: 第一代幼虫高峰期(日历天) =34.055+0.585 ×上一代 成虫始见期 +0.002 ×第1、2龄幼虫期积温(日度) 7. 第二代发生期回归建模试验 采用同样方法,对第二代幼虫高峰期进行回归建模试验。首先选择 成虫始见期 , 卵期平均气温,卵期积温 , 第 1 、 2 龄极低气温 , 第 1 、 2 龄平均气温,第 1 、 2 龄积温 , 卵期极低气温,进行试验 。 由于参加回归的变量过多,显著性达不到要求,回归试验失败。然后根据回归失败结果,排除相关性较低的变量,保留成虫始见期,卵期积温,卵期平均气温 3 个相关性较高的变量,进行新的回归建模试验: GET FILE='F:\ 精细化课题 \2015 年度成果 \ 建模数据 \02 回归分析数据 \ 回归分析发生期数据第 2 代 .sav'. DATASET NAME 数据集 1 WINDOW=FRONT. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT 幼虫高峰期 /METHOD=ENTER 成虫始见期 卵期积温日度 卵期平均气温 /SCATTERPLOT=(*SDRESID ,*ZPRED) (*ZRESID ,*ZPRED) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE MAHAL COOK LEVER MCIN ICIN DFBETA DFFIT. 试验结果为: 从表 20 ~ 表 26 以及图 5 、图 6 来看,排除多余变量后的回归试验结果比较理想,显著性概率为 0.000 ,远远小于 0.05 ,拒绝回归系数都为 0 的原假设,同时在回归过程中还排除了变量 卵期积温, 回归模型为: 第二代幼虫高峰期(日历天) =219.323+0.280 ×上一代 成虫始见期 -0.150 ×卵期平均气温 8. 讨论 对于发生期精细化预报而言,如果采用传统的形态结构预示法、发育进度法(包括历期法、分龄分级法、期距法)、有效积温法、物候法等,要么外业工作量大,要么精度达不到精细化预报要求,使得这些方法都不符合精细化预报的“精”、“细”、“简”的基本要求,这就需要探索新的预报算法,以满足精细化预报的要求。 此外,上述回归分析还表明了马尾松毛虫发生机制与环境的复杂性,仅仅就发生量与幼虫高峰期而言,不同世代的回归试验结果大不相同,正因为其复杂性,还导致了在本次回归建模试验中部分多元线性回归的失败,以及曲线回归、非线性回归、 Logistics 回归等回归建模试验的失败。 因此,笔者认为: ( 1 )鉴于当前我国林业有害生物监测数据是基于县级的,对于有害生物精细化预报算法而言,应该按照不同县或不同自然区域,采用多种建模算法进行试验比较,选择适合于本区域的精细化预报模型。 ( 2 )精细化预报建模,除了“精”、“细”之外,还要注重“简”。再精准的预报模型,工作量大,操作复杂,在生产实践中也是无法推广应用的。就马尾松毛虫发生期预报而言, 对 防治具有较高指导意义只有幼虫高峰期的预报,而对于虫期监测而言,就目前技术来说,采用性诱或灯诱获取成虫始见期监测数据最易于实现,而且监测成本低,可靠性高,本次试验,也证明了利用成虫始见期开展马尾松毛虫发生期预报的可行性。 参考文献: 张国庆, 基于生态论的生物灾害精细化预报理论研究 ,现代农业科技, 2014 ,( 19 ): 146 ~ 150 张国庆, 基于 TSE 分析理论的林业生物灾害精细化预报技术研究 ,现代农业科技, 2014 ,( 19 ): 153 ~ 155 张国庆, 基于系统关键因子分析理论的林业有害生物防治关键期分析技术研究 ,现代农业科技, 2014 ,( 19 ): 199 ~ 201 张国庆, 基于系统健康管理理论的林业生物灾害精细化预报管理研究 ,现代农业科技, 2014 ,( 19 ): 197 ~ 198 张国庆,森林健康与林业有害生物管理 ,四川林业科技, 2008 , 29 ( 6 ): 77~80 基金项目:林业公益性行业科研项目“全国林业生物灾害精细化预报及管理基础应用研究”( 201404410 )
个人分类: 生物灾害学|893 次阅读|0 个评论
[挖坑]回归分析的结果可以外推吗?有何前提条件?
zhangdong 2015-6-6 09:27
如题。纯坑。 如果不能,那跟相关分析、方差分析之类有何本质上的差别吗?
2860 次阅读|0 个评论
[转载]回归
itso310 2015-3-9 19:23
引自: http://www.cnblogs.com/fanyabo/p/4060498.html 一、引言    本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu,以及斯坦福无监督学习UFLDL tutorial http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial   机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t。比如下面这个例子:假设我们有一个包含47个房子的面积和价格的数据集如下:   我们可以在Matlab中画出来这组数据集,如下:   看到画出来的点,是不是有点像一条直线?我们可以用一条曲线去尽量拟合这些数据点,那么对于新来的输入,我么就可以将拟合的曲线上返回对应的点从而达到预测的目的。如果要预测的值是连续的比如上述的房价,那么就属于回归问题;如果要预测的值是离散的即一个个标签,那么就属于分类问题。这个学习处理过程如下图所示:   上述学习过程中的常用术语:包含房子面积和价格的数据集称为 训练集training set; 输入变量x(本例中为面积)为 特征features; 输出的预测值y(本例中为房价)为 目标值target; 拟合的曲线,一般表示为y = h(x),称为 假设模型hypothesis; 训练集的条目数称为 特征的维数 ,本例为47。 二、线性回归模型   线性回归模型假设输入特征和对应的结果满足线性关系。在上述的数据集中加上一维--房间数量,于是数据集变为:   于是,输入特征x是二维的矢量,比如x 1 (i) 表示数据集中第i个房子的面积,x 2 (i) 表示数据集中第i个房子的房间数量。于是可以假设输入特征x与房价y满足线性函数,比如: 这里θ i 称为假设模型即映射输入特征x与结果y的线性函数h的 参数parameters ,为了简化表示,我们在输入特征中加入x 0 = 1,于是得到: 参数θ和输入特征x都为矢量,n是输入的特征x的个数(不包含x 0 )。   现在,给定一个训练集,我们应该怎么学习参数θ,从而达到比较好的拟合效果呢?一个直观的想法是使得预测值h(x)尽可能接近y,为了达到这个目的,我们对于每一个参数θ,定义一个 代价函数cost function 用来描述h(x (i) )'与对应的y (i) '的接近程度: 前面乘上的1/2是为了求导的时候,使常数系数消失。于是我们的目标就变为了调整θ使得代价函数J(θ)取得最小值,方法有梯度下降法,最小二乘法等。    2.1 梯度下降法   现在我们要调整θ使得J(θ)取得最小值,为了达到这个目的,我们可以对θ取一个随机初始值(随机初始化的目的是使对称失效),然后不断地迭代改变θ的值来使J(θ)减小,知道最终收敛取得一个θ值使得J(θ)最小。梯度下降法就采用这样的思想:对θ设定一个随机初值θ 0, 然后迭代进行以下更新 直到收敛。这里的α称为 学习率learning rate。    梯度方向由J(θ)对θ 的偏导数决定,由于要求的是最小值,因此对偏导数取负值得到梯度方向。将J(θ)代入得到总的更新公式 这样的更新规则称为LMS update rule(least mean squares),也称为Widrow-Hoff learning rule。   对于如下更新参数的算法: 由于在每一次迭代都考察训练集的所有样本,而称为批量梯度下降batch gradient descent。对于引言中的房价数据集,运行这种算法,可以得到θ 0 = 71.27, θ 1 = 1.1345,拟合曲线如下图:   如果参数更新计算算法如下: 这里我们按照单个训练样本更新θ的值,称为随机梯度下降stochastic gradient descent。比较这两种梯度下降算法,由于batch gradient descent在每一步都考虑全部数据集,因而复杂度比较高,随机梯度下降会比较快地收敛,而且在实际情况中两种梯度下降得到的最优解J(θ)一般会接近真实的最小值。所以对于较大的数据集,一般采用效率较高的随机梯度下降法。    2.2 最小二乘法   梯度下降算法给出了一种计算θ的方法,但是需要迭代的过程,比较费时而且不太直观。下面介绍的最小二乘法是一种直观的直接利用矩阵运算可以得到θ值的算法。为了理解最小二乘法,首先回顾一下矩阵的有关运算:   假设函数f是将m*n维矩阵映射为一个实数的运算,即 ,并且定义对于矩阵A,映射f(A)对A的梯度为: 因此该梯度为m*n的矩阵。例如对于矩阵A= ,而且映射函数f(A)定义为:F(A) = 1.5A 11 + 5A 12 2 + A 21 A 22 ,于是梯度为: 。   另外,对于矩阵的迹的梯度运算,有如下规则: 。   下面,我们将测试集中的输入特征x和对应的结果y表示成矩阵或者向量的形式,有: , , 对于预测模型有 ,即 ,于是可以很容易得到: , 所以可以得到 。   于是,我们就将代价函数J(θ)表示为了矩阵的形式,就可以用上述提到的矩阵运算来得到梯度: , 令上述梯度为0,得到等式: ,于是得到θ的值: 。这就是最小二乘法得到的假设模型中参数的值。    2.3 加权线性回归   首先考虑下图中的几种曲线拟合情况: 最左边的图使用线性拟合 ,但是可以看到数据点并不完全在一条直线上,因而拟合的效果并不好。如果我们加入x 2 项,得到 ,如中间图所示,该二次曲线可以更好的拟合数据点。我们继续加入更高次项,可以得到最右边图所示的拟合曲线,可以完美地拟合数据点,最右边的图中曲线为5阶多项式,可是我们都很清醒地知道这个曲线过于完美了,对于新来的数据可能预测效果并不会那么好。对于最左边的曲线,我们称之为欠拟合--过小的特征集合使得模型过于简单不能很好地表达数据的结构,最右边的曲线我们称之为过拟合--过大的特征集合使得模型过于复杂。   正如上述例子表明,在学习过程中,特征的选择对于最终学习到的模型的性能有很大影响,于是选择用哪个特征,每个特征的重要性如何就产生了加权的线性回归。在传统的线性回归中,学习过程如下: , 而加权线性回归学习过程如下: 。   二者的区别就在于对不同的输入特征赋予了不同的非负值权重,权重越大,对于代价函数的影响越大。一般选取的权重计算公式为: , 其中,x是要预测的特征,表示离x越近的样本权重越大,越远的影响越小。 三、logistic回归与Softmax回归   3.1 logistic回归    下面介绍一下logistic回归,虽然名曰回归,但实际上logistic回归用于分类问题。logistic回归实质上还是线性回归模型,只是在回归的连续值结果上加了一层函数映射,将特征线性求和,然后使用g(z)作映射,将连续值映射到离散值0/1上(对于sigmoid函数,而对于双曲正弦tanh函数为1/-1两类)。采用假设模型为: , 而sigmoid函数g(z)为:    当z趋近于-∞,g(z)趋近于0,而z趋近于∞,g(z)趋近于1,从而达到分类的目的。这里的   那么对于这样的logistic模型,怎么调整参数θ呢?我们假设 ,由于是两类问题,即 ,于是得到似然估计为: 对似然估计取对数可以更容易地求解: 。 接下来是θ的似然估计最大化,可以考虑上述的梯度下降法,于是得到: 得到类似的更新公式: 。虽然这个更新规则类似于LMS得到的公式,但是这两种是不同算法,因为这里的h θ (x (i) )是一个关于θ T x (i) 的非线性函数。    3.2 Softmax回归   logistic回归是两类回归问题的算法,如果目标结果是多个离散值怎么办?Softmax回归模型就是解决这个问题的,Softmax回归模型是logistic模型在多分类问题上的推广。在Softmax回归中,类标签y可以去k个不同的值(k2)。因此对于y (i) 从属于{1,2,3···k}。   对于给定的测试输入x,我们要利用假设模型针对每一个类别j估算概率值p(y = j|x)。于是假设函数h θ (x (i) )形式为: 其中θ1,θ2,θ3,···,θk属于模型的参数,等式右边的系数是对概率分布进行归一化,使得总概率之和为1。于是类似于logistic回归,推广得到新的代价函数为: 可以看到Softmax代价函数与logistic代价函数形式上非常相似,只是Softmax函数将k个可能的类别进行了累加,在Softmax中将x分为类别j的概率为: 于是对于Softmax的代价函数,利用梯度下降法使的J(θ)最小,梯度公式如下: 表示J(θ)对第j个元素θj的偏导数,每一次迭代进行更新: 。    3.3 Softmax回归 vs logistic回归   特别地,当Softmax回归中k = 2时,Softmax就退化为logistic回归。当k = 2时,Softmax回归的假设模型为: 我们令ψ = θ1,并且两个参数都剪去θ1,得到: 于是Softmax回归预测得到两个类别的概率形式与logistic回归一致。   现在,如果有一个k类分类的任务,我们可以选择Softmax回归,也可以选择k个独立的logistic回归分类器,应该如何选择呢?   这一选择取决于这k个类别是否互斥,例如,如果有四个类别的电影,分别为:好莱坞电影、港台电影、日韩电影、大陆电影,需要对每一个训练的电影样本打上一个标签,那么此时应选择k = 4的Softmax回归。然而,如果四个电影类别如下:动作、喜剧、爱情、欧美,这些类别并不是互斥的,于是这种情况下使用4个logistic回归分类器比较合理。 四、一般线性回归模型   首先定义一个通用的指数概率分布: 考虑伯努利分布,有:    再考虑高斯分布:    一般线性模型满足:1. y|x;θ 满足指数分布族E(η)  2. 给定特征x,预测结果为T(y) = E   3. 参数η = θ T x 。   对于第二部分的线性模型,我们假设结果y满足高斯分布Ν(μ,σ 2 ),于是期望μ = η,所以: 很显然,从一般线性模型的角度得到了第二部分的假设模型。   对于logistic模型,由于假设结果分为两类,很自然地想到伯努利分布,并且可以得到 ,于是 y|x;θ 满足B(Φ),E = Φ,所以 于是得到了与logistic假设模型的公式,这也解释了logistic回归为何使用这个函数。
个人分类: 数据挖掘|1528 次阅读|0 个评论
回到圈子来
leeyea 2015-1-29 13:05
工作两年多,很少上科学网了。做的事情事务性更强,和在学校里那种“研究”的风格差异较大,以至于自己都感觉脱离了学术圈子,掉队了。 但实际上,这两年的工作基础性更强,用官方说法就是更“接地气”——研究交通事故勘查、处理、分析、鉴定和预防,虽然不再是读书时的仿真+实验,但经验的确增加许多,更重要的是,为后续进一步开展人、车、路相关的研究设立了靶子,发现了一些问题,可以说,在这基础上的研究意义和目的性会更好一些。 2015年,无论是重拾科研的习惯,还是职称评审的需要,都要求自己在研究上有所突破。尽管现在已经承担了国家科技计划的子题,但探索性的、基于现有工作之上的、结合博士研究基础的科研工作力求取得好结果。 当前任务:国基申报,加快节奏,加强凝练。
个人分类: 个人随笔|2523 次阅读|0 个评论
纯粹的我
热度 1 yaojunwei 2014-3-1 00:01
今天下了2014年第一场纯粹的雨, 不加带丝毫的雪花。 我喜欢这个纯粹 喜欢这个单纯 也喜欢这个纯净。 每次下雨心中总是有一种莫名其妙的恬静, 仿佛从喧嚣的闹市回归幽远的山林, 越发的感受到“淡泊以明志、宁静以致远”。 雨水对于天地是一种洗礼, 对我的心灵又是一种净化。 我在这反反复复的净化中不断使自己的内心得到升华。 想一想 人生有多少的纯粹? 我从啼哭中降生, 从纯粹的肉体和思想中萌芽, 纯粹的赤裸裸的抵达这个世间。 不知道我的这一降临对于世界是个什么概念, 但是可以肯定对于我的父母,对于我的姐姐, 更或者对于我自身却是一种百分之百的恩赐。 降生的一刻, 我同芸芸众生一般无二。 时至今日 我一如众生相似。 每当夜深人静的时候, 每当灯红酒绿的时候, 每当阴雨绵绵的时候, 每当我一次次挑战自我的时候, 每当我一次次超越自我的时候, 每当我一次次别人感觉应该骄傲的时候。。。。。。 纯粹 总是浮现在我的脑海中 不能拭去 我越发感觉我的良知在告诉我 做人就做个纯粹的人 不为世俗所同化 不为言论所动摇 不为虚荣所腐蚀 不为功利所蒙蔽 我想世人更尤我之思辨 世人也皆知世事变幻、人心叵测 纯粹的精神 纯粹的思想 纯粹的为人 纯粹的爱情 纯粹的人生 纯粹的世界。。。。。 这便是我纯粹的向往 我一直在孜孜不倦的追求 纵使只有我一个人 空留着西风的呜咽 我义无反顾 因为这便是纯粹的我 真实的自我 只是 我愿 这个纷繁的世间行走 不失纯粹的我 否则 生有何欢?
个人分类: 眠云居|2471 次阅读|1 个评论
用随机森林模型替代常用的回归和分类模型
热度 6 lixinhai 2013-9-27 16:57
随机森林模型有着惊人的准确性,可以替代一般线性模型(线性回归、方差分析等)和广义线性模型(逻辑斯蒂回归、泊松回归等)等等。 我2012年在人民大学组织的R语言会议上介绍了随机森林的用法(报告文件在 http://cos.name/wp-content/uploads/2012/05/17-lixinhai-random-forest.pdf )。以后不时有人给我写信交流模型使用心得,索要数据和代码。我感觉当时的介绍不太充分。正巧《应用昆虫学报》的主编戈峰老师邀我写一篇统计方法的稿件,我便把随机森林的基本原理和应用案例重新细化,形成一篇文章( http://www.ent-bull.com.cn/viewmulu.aspx?qi_id=1031mid=31191xuhao=42 )。文章的R语言代码显示效果不好(没有颜色,断行多),我便把文章和代码放到这个博客上。 文章正文(引用: 李欣海 . 2013. 随机森林模型在分类与回归分析中的应用 . 应用昆虫学报 , 50 , 1190-1197 ) 前言 随机森林( Random Forest )是一种基于分类树( classification tree )的算法( Breiman , 2001 )。这个算法需要模拟和迭代,被归类为机器学习中的一种方法。经典的机器学习模型是神经网络( Hopfield , 1982 ),有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代 Breiman 等人发明了分类和回归树( Classification and Regression Tree 简称 CART )的算法( Breiman et al . , 1984 ),通过反复二分数据进行分类或回归,计算量大大降低。 2001 年 Breiman 和 Cutler 借鉴贝尔实验室的 Ho 所提出的随机决策森林( random decision forests )( Ho , 1995 , 1998 )的方法,把分类树组合成随机森林( Breiman , 2001 ),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。后来 Breiman 在机器学习杂志上发表了他和 Cutler 设计的随机森林的算法( Breiman , 2001 )。这篇文章被大量引用(根据 Google Scholar ,该文章至 2013 年被引用 9000 多次),成为机器学习领域的一个里程碑。 随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用( Breiman , 2001 ),被誉为当前最好的算法之一( Iverson et al . , 2008 )。在机器学习的诸多算法中,随机森林因高效而准确而备受关注,在各行各业得到越来越多的应用( e.g Cutler et al. , 2007 ; Genuer et al . , 2010 )。 随机森林的算法最初以 FORTRUN 语言编码( Liaw , 2012 )。现在可以通过 R 语言或 SAS 等工具实现。 R 语言是一种用于统计分析和绘图的语言和操作环境( R Development Core Team , 2013 )。它是自由、免费、源代码开放的软件,近年来已经成为国际学术领域应用最广的统计工具。在国内, R 语言也在迅速普及。本文基于 R 语言介绍随机森林的应用。 R 语言中有两个软件包可以运行随机森林,分别是 randomForest ( Liaw , 2012 )和 party 。本文介绍 randomForest 的用法。 本文面向没有或只有初步 R 语言基础的生态学工作者,以三个案例,通过运行案例中给出的 R 语言代码,读者可以运行随机森林的算法,进行分类或回归分析,得到变量的重要性、模型的误差等指标,并可以进行预测。 Breiman 发表随机森林后,有若干文章深入探讨其算法( Biau , 2012 ),变量的比较( Archer and Kirnes , 2008 ; Groemping , 2009 )和变量间的交互作用( Winham et al . , 2012 )等。本文旨在介绍随机森林的应用方法,不涉及其本身的算法,也不涉及同其他平行方法的比较。 1 随机森林的原理 同其他模型一样,随机森林可以解释若干自变量( X1 、 X2 、 ... 、 Xk )对因变量 Y 的作用。如果因变量 Y 有 n 个观测值,有 k 个自变量与之相关;在构建分类树的时候,随机森林会随机地在原数据中重新选择 n 个观测值,其中有的观测值被选择多次,有的没有被选到,这是 Bootstrap 重新抽样的方法。同时,随机森林随机地从 k 个自变量选择部分变量进行分类树节点的确定。这样,每次构建的分类树都可能不一样。一般情况下,随机森林随机地生成几百个至几千个分类树,然后选择重复程度最高的树作为最终结果( Breiman , 2001 )。 2 随机森林的应用 随机森林可以用于分类和回归。当因变量 Y 是分类变量时,是分类;当因变量 Y 是连续变量时,是回归。自变量 X 可以是多个连续变量和多个分类变量的混合。在下面 3 个案例中,判别分析和对有无数据的分析是分类问题,对连续变量 Y 的解释是回归问题。 2.1 在判别分析中的应用 判别分析( discriminant analysis )是在因变量 Y 的几个分类水平明确的条件下,根据若干自变量判别每个观测值的类型归属问题的一种多变量统计分析方法。判别与分类在统计学概念上有所交叉,在本文中不强调两者的区别。案例 1 中有 3 种昆虫( A 、 B 和 C )形态接近,不过可以通过 4 个长度指标( L1 、 L2 、 L3 和 L4 )进行种类的识别。具体数据如表 1 。 表 1 3 种昆虫及其用于分类的 4 个量度指标 Table 1 The four length indices for classifying threeinsect species 物种 Species 量度 ( Length ) L1 L2 L3 L4 A 16 27 31 33 A 15 23 30 30 A 16 27 27 26 A 18 20 25 23 A 15 15 31 32 A 15 32 32 15 A 12 15 16 31 B 8 23 23 11 B 7 24 25 12 B 6 25 23 10 B 8 45 24 15 B 9 28 15 12 B 5 32 31 11 C 22 23 12 42 C 25 25 14 60 C 34 25 16 52 C 30 23 21 54 C 25 20 11 55 C 30 23 21 54 C 25 20 11 55 通过运行下列 R 语言代码,可以得到随机森林的结果 RF1 。 R 语言中的“ # ”表示注释,其后面的语句不被执行。当随机森林用于分类时,其结果 RF1 包含混淆矩阵( confusionmatrix )(表 2 ),显示判别分析的错误率。 install.packages(randomForest) # 安装随机森林程序包(每台计算机只需安装一次) library(randomForest) # 调用随机森林程序包(每次运行都要调用) insect - read.csv(d:/data/insects.csv, header = TRUE) # 从硬盘读入数据到对象 insect RF1 - randomForest(insect , insect , importance=TRUE, ntree=10000) # 运行随机森林模型 RF1 # 显示模型结果,包括误差率和混淆矩阵(表 2 ) 其中 insect 是一个包含 5 个变量 20 个记录的数据表。 insect 表示昆虫的量度,是一个 4 乘以 20 的矩阵; insect 表示昆虫的物种类别,是 20 个物种名组成的一个向量。表 2 显示模型对 A 的判别错误率为 28.6% ,对 B 和 C 的判别错误率为 0 。 表 2 随机森林(用于分类时)的混淆矩阵显示昆虫分类误差 Table2 Random Forest outputs a confusion matrix showing the classification error ​ A B C 分类误差 Class error A 5 2 0 0.286 B 0 6 0 0 C 0 0 7 0 注:每行表示实际的类别,每列表示随机森林判定的类别。 The row indicates real classification;the column indicates predicted classification. 随机森林的结果内含判别函数,可以用下列代码根据新的量度判断昆虫的物种类别。 new.data - data.frame(L1=20, L2=50, L3=30, L4=20) # 一个新的昆虫的量度 predict(RF1, new.data, type=prob) # 判别该量度的昆虫归类为 A 、 B 和 C 的概率 predict(RF1, new.data, type=response) # 判别该量度的昆虫的类别 在该案例中,该量度判别为 A 、 B 和 C 的概率分别为 82.4% 、 9.4% 和 8.2% 。随机森林将其判别为 A 。 2.2 对有无数据的分析 对于有或无、生或死、发生或不发生等二分变量的分析,一般用逻辑斯蒂回归( logistic regression )的方法。逻辑斯蒂回归实质上是对因变量 Y 作两个分类水平的判别。逻辑斯蒂回归对自变量的多元共线性非常敏感,要求自变量之间相互独立。随机森林则完全不需要这个前提条件。 Breiman 在 2001 年发表了具有革命意义的文章,批判了当前主流的统计学方法,指出经典模型如逻辑斯蒂回归经常给出不可靠的结论,而随机森林准确而可靠。 案例 2 以朱鹮为例,说明该方法的具体应用。朱鹮的巢址选择受环境变量的影响( Li et al. , 2006 , 2009 ; 翟天庆和李欣海, 2012 )。假设朱鹮选择一个地方营巢的概率取决于下列自变量:土地利用类型(森林、草地、灌丛或农田等)、海拔、坡度、温度、降水、人类干扰指数等。该问题的因变量为朱鹮 1981 年至 2008 年间的 532 个巢( Y=1 ),以及在朱鹮巢区的系统选择的(等间距) 2538 个点( Y=0 )(图 3A );自变量为这 3070 个地点对应的 8 个环境变量。应用随机森林对朱鹮巢址选择进行分析的 R 语言代码如下: ibis - read.csv('d:/data/ibis.csv', header = TRUE) # 从硬盘读入数据 ibis$use - as.factor(ibis$use) # 定义巢址选择与否( 0 或 1 )为分类变量。这是因变量 Y 。 ibis$landcover - as.factor(ibis$landcover) # 定义土地利用类型为分类变量 RF2 - randomForest(ibis , ibis , importance=TRUE, ntree=1000) # 运行随机森林 varImpPlot(RF2) # 图示自变量对的巢址选择的重要性 图 1 随机森林对影响朱鹮巢址选择的自变量的重要性进行排序 * Fig. 1 Ranking variable importance thatassociated with nest site selection of the crested ibis by Random Forest*. *MeanDecreaseAccuracy 衡量把一个变量的取值变为随机数,随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大 。 MeanDecreaseGini 通过基尼( Gini )指数计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性。该值越大表示该变量的重要性越大。 prec_ann 是年总降水量; t_ann 是年平均温度; elevation 是海拔; GDP 是国内生产总值; landcover 是土地利用类型; slope 是坡度; pop 是人口密度; footprint 是人类干扰指数。 从图 1 可以看到不同指标指示的变量重要性会略有差距,但是差距不会很大。 随机森林可以给出每个自变量对因变量的作用。下列 R 代码给出海拔对巢址选择的影响,结果在图 2 中,表示中等程度的海拔最适宜营巢。 partialPlot(RF2, ibis, elevation, 0, main='' , xlab='Elevation (m)', ylab=Variable effect) 图 2 随机森林算出的海拔对朱鹮巢址选择的影响 Fig. 2 Partial effect of elevation onnest site selection of the crested ibis. 随机森林可以通过下列代码预测任何地点朱鹮营巢的概率(图 3 ) pred - predict(RF2, ibis, type=prob)# 计算原数据 ibis 中 3070 个地点被朱鹮选择营巢的概率 # 绘制图 3A plot(ibis$x, ibis$y, type = n, xlab = ' 经度 Longitude', ylab = ' 纬度 Latitude') # 绘制坐标轴 for (i in 1:length(ibis$x)){ # 循环语句,从 1 到 3070 if(ibis$use !=1) points(ibis$x , ibis$y , col =grey80, cex = .8, pch = 19) # 非营巢点为灰色 if(ibis$use ==1) points(ibis$x , ibis$y , col = black, cex = .8, pch = 19) # 营巢点为黑色 } # 绘制图 3B ,颜色深的营巢概率高 plot(ibis$x, ibis$y, type = n, xlab = ' 经度 Longitude', ylab = ' 纬度 Latitude') # 绘制坐标轴 for (iin 1:length(ibis$x)){ # 循环语句,从 1 到 3070 图 3 A 朱鹮的巢址(黑色)和对照点(灰色); B 随机森林算出的每个点朱鹮选择营巢的概率(深色概率高) Fig.3 A. the nest site ofthe crested ibis (black dots) and the pseudo-absence points (grey dots); B. theprobability of nest site selection of the crested ibis calculated by RandomForest (dark color means higher probability) 2.3 回归分析 当因变量 Y 为连续变量时,随机森林通过一组自变量 X 对 Y 进行解释,类似经典的回归分析。 案例 3 依旧以朱鹮为例,介绍随机森林在回归分析上的应用。朱鹮是依赖湿地的鸟类,其生境可以分为一个个相邻的集水区。每个集水区内朱鹮的巢数同集水区的环境变量相关。用环境变量(包括连续变量和分类变量两个类型)解释集水区内朱鹮的巢数,可以被看作为一个回归的问题。下列代码读取数据并显示数据前 6 行: sheds - read.csv('d:/data/watersheds4.csv', header=T) # 读取数据 head(sheds) # 显示数据 sheds 的前 6 行,如表 3 所示。 NA 表示缺失值。 表 3 朱鹮栖息地每个集水区内朱鹮的巢数以及环境变量 Table 3 The number of nests andenvironmental variables for every watershed in the habitat of the crested ibis Nests Elevation Footprint Temperature Rice_paddy Water_body Wetland Elev_SD 1 597.83 44.54 14.02 0.14 0.52 0.07 197.54 0 588.74 32.41 14.09 0.15 0.08 0.01 148.32 0 513.84 NA 14.66 0 0.16 0 28.84 5 609.33 30.2 14.29 1.17 1.03 1.21 184.58 0 NA 35.88 13.32 0.18 0.17 0.03 NA 2 651.08 47.62 14.41 1.11 0.34 0.38 121.37 对于缺失数据, R 语言的 randomForest 软件包通过 na.roughfix 函数用中位数(对于连续变量)或众数(对于分类变量)来进行替换。 Dat.fill - na.roughfix(sheds) # 用中位数或众数替代缺失值 RF3 -randomForest(Nests ~ Elevation + Footprint + Temperature + Rice_paddy +Water_body + Wetland + Elev_SD, data=Dat.fill, ntree=5000, importance=TRUE,na.action=na.roughfix, mtry=3) # 运行随机森林 RF3 # 模型结果,显示残差的平方,以及解释变异(环境变量 X 对巢数 Y 的解释)的百分率 mtry 指定分类树每个节点用来二分数据的自变量的个数。如果 mtry 没有被指定,随机森林用缺省值。对于分类(判别)分析( Y 是分类变量),缺省值是自变量总数的平方根;如果是回归分析( Y 是连续变量),缺省值是自变量总数的 1/3 。 3 讨论 本文以三个案例介绍了随机森林的具体应用。随机森林结构比较复杂,但是它却极端易用,需要的假设条件(如变量的独立性、正态性等)比逻辑斯蒂回归等模型要少得多。它也不需要检查变量的交互作用和非线性作用是否显著。在大多数情况下模型参数的缺省设置可以给出最优或接近最优的结果。使用者可以调节 mtry 的取值来检查模型的缺省值受否给出误差最小的结果。使用者也可以指定所用的分类树的数量。在计算负荷可以接受的情况下分类树的数量越大越好。图 4 可以帮助使用者判断最小的分类树的数量,以便节省计算时间。 目前,人们已经对多种机器学习的模型进行了比较( e.g. Li and Wang , 2013 ; Kampichler et al . , 2010 ),随机森林经常独占鳌头( Kampichler et al . , 2010 ; Li et al . , 2012 )。随机森林通过产生大量的分类树,建立若干自 变量 X 和一个因变量 Y 的关系。随机森林的优点是:它的学习过程很快。在处理很大的数据时,它依旧非常高效。随机森林可以处理大量的多达几千个的自变量( Breiman , 2001 )。现有的随机森林算法评估所有变量的重要性,而不需要顾虑一般回归问题面临的多元共线性的问题。它包含估计缺失值的算法,如果有一部分的资料遗失,仍可以维持一定的准确度。随机森林中分类树的算法自然地包括了变量的交互作用( interaction )( Cutler, et al . , 2007 ),即 X1 的变化导致 X2 对 Y 的作用发生改变。交互作用在其他模型中(如逻辑斯蒂回归)因其复杂性经常被忽略。随机森林对离群值不敏感,在随机干扰较多的情况下表现稳健。随机森林不易产生对数据的过度拟合( overfit )( Breiman , 2001 ),然而这点尚有争议( Elith and Graham , 2009 )。 随机森林通过袋外误差( out-of-bag error )估计模型的误差。对于分类问题,误差是分类的错误率;对于回归问题,误差是残差的方差。随机森林的每棵分类树,都是对原始记录进行有放回的重抽样后生成的。每次重抽样大约 1/3 的记录没有被抽取( Liaw , 2012 )。没有被抽取的自然形成一个对照数据集。所以随机森林不需要另外预留部分数据做交叉验证,其本身的算法类似交叉验证,而且袋外误差是对预测误差的无偏估计( Breiman , 2001 )。 随机森林的缺点是它的算法倾向于观测值较多的类别(如果昆虫 B 的记录较多,而且昆虫 A 、 B 和 C 间的差距不大,预测值会倾向于 B )。另外,随机森林中水平较多的分类属性的自变量(如土地利用类型 20 个类别)比水平较少的分类属性的自变量(气候区类型 10 个类别)对模型的影响大( Deng et al . , 2011 )。总之,随机森林功能强大而又简单易用,相信它会对各行各业的数据分析产生积极的推动作用。 参考文献 Breiman L. 2001. Random forests. Machine Learning, 45, 5-32 Hopfield JJ. 1982. Neural networks and physical systems withemergent collective computational abilities. Proceedings of the NationalAcademy of Sciences of the United States of America-Biological Sciences, 79,2554-2558 Breiman L, Friedman JH, Olshen RA, Stone CJ. 1984. Classificationand Regression Trees. Chapman and Hall. Ho TK. 1995. Random Decision Forest. in Proceedings of the 3rdInternational Conference on Document Analysis and Recognition. 278-282. Ho TK. 1998. The random subspace method for constructing decisionforests. in IEEE Transactions on Pattern Analysis and Machine Intelligence.832-844. Breiman L. 2001. Statistical modeling: The two cultures.Statistical Science, 16, 199-215 Iverson LR, Prasad AM, Matthews SN, Peters M. 2008. Estimatingpotential habitat for 134 eastern US tree species under six climate scenarios.Forest Ecology and Management, 254, 390-406 Cutler DR, Edwards TC, Jr., Beard KH, Cutler A, Hess KT. 2007.Random forests for classification in ecology. Ecology, 88, 2783-2792 Genuer R, Poggi JM, Tuleau-Malot C. 2010. Variable selection usingrandom forests. Pattern Recognition Letters, 31, 2225-2236 Liaw A.2012. Package randomForest. R Development Core Team. 2013. R: A Language and Environment forStatistical Computing. R Foundation for Statistical Computing. Biau G. 2012. Analysis of a random forests model. Journal ofMachine Learning Research, 13, 1063-1095 Archer KJ, Kirnes RV. 2008. Empirical characterization of randomforest variable importance measures. Computational Statistics DataAnalysis, 52, 2249-2260 Groemping U. 2009. Variable importance assessment in regression:linear regression versus random forest. American Statistician, 63, 308-319 Winham S, Wang X, de Andrade M, Freimuth R, Colby C, Huebner M, BiernackaJ. 2012. Interaction detection with random forests in high-dimensional data.Genetic Epidemiology, 36, 142-142 Hosmer Jr DW, Lemeshow S. 1989. Applied Logistic Regression. JohnWiley Sons. Li XH, Tian HD, Li DM. 2009. Why the crested ibis declined in themiddle twentieth century. Biodiversity and Conservation, 18, 2165-2172 Li XH, Li DM, Ma ZJ, Schneider DC. 2006. Nest site use by crestedibis: dependence of a multifactor model on spatial scale. Landscape Ecology,21, 1207-1216 Zhai TQ ( 翟天庆 ) , Li XH ( 李欣海 ). 2012. Climate change induced potential range shift of thecrested ibis based on ensemble models. Acta Ecologica Sinica ( 生态学报 ), 32, 2361-2370 (in Chinese) Li XH, Wang Y. 2013. Applying various algorithms for speciesdistribution modeling. Integrative Zoology, 8, 124-135 Kampichler C, Wieland R, Calmé S, Weissenberger H, Arriaga-WeissS. 2010. Classification in conservation biology: A comparison of five machine-learningmethods. Ecological Informatics, 5, 441-450 Li XH, Tian HD, Li RQ, Song ZM, Zhang FC, Xu M, Li DM. 2012.Vulnerability of 208 endemic or endangered species in China to the effects ofclimate change Regional Environmental Change, DOI: 10.1007/s10113-10012-10344-z Elith J, Graham CH. 2009. Do they? How do they? Why do theydiffer? On finding reasons for differing performances of species distributionmodels. Ecography, 32, 66-77 Deng H, Runger G, Tuv E. 2011. Bias of importance measures formulti-valued attributes and solutions. in Proceedings of the 21st InternationalConference on Artificial Neural Networks (ICANN).
91236 次阅读|10 个评论
机器学习 --- 1. 线性回归与分类, 解决与区别
热度 4 ppn029012 2013-5-10 01:26
机器学习可以解决很多问题,其中最为重要的两个是 回归与分类。 这两个问题怎么解决, 它们之间又有什么区别呢? 以下举几个简单的例子,以给大家一个概念 1. 线性回归 回归分析常用于分析两个变量X和Y 之间的关系。 比如 X=房子大小 和 Y=房价 之间的关系, X=(公园人流量,公园门票票价) 与 Y=(公园收入) 之间的关系等等。 那么你的数据点在图上可以这么看 现在你想找到 房子大小和房价的关系, 也就是一个函数f(x) = y. 能够很好的表示 这两个变量之间的关系。 于是你需要 大概评估 一下这个 房子大小和房价大概是一个什么关系. 是 线性 的关系吗? 还是 非线性 的关系? 当然在这个问题里面, 线性的关系更符合这两者的关系。于是我们 选择一个合适的 线性模型 , 最常用的是 f(x) = ax+b. 然后用这个线性的模型 去 匹配 这些数据点。 1.1 怎么匹配? 有了数据点 和 你臆想出来的线性模型,怎么进行匹配,也就是怎么用这根线 最好地 描述些数据点的关系? 需要最好地描述点, 我们又需要一个关于“好”的定义。你也可以想出很多关于 “好”的定义 。下面有两个, 这两个定义都是 将模型与数据点之间的距离差 之和做为 衡量匹配好坏的标准 。 误差越小, 匹配程度越大。 但是 总的来说, 我们想要找到的模型, 最后是想要使 f(x) 最大程度地 与y相似, 所以我们想要尽量地减少 f(x)与y之间的差值。 所以在这里 用第二个图的“好的定义” 来评估这根线的匹配程度是很合理的。于是我们有了 误差公式 !!!!! 这个公式,说的是,可以通过调整不同的a 和 b的值,就能使 误差不断变化,而当你找到这个公式的 最小值 时,你就能得到 最好的a,b . 而这对(a,b)就是能最好描述你数据关系的 模型参数 。 1.1.1 沿导数下降法(Gradient Descent) 怎么找 cost(a,b)的最小? cost(a,b) 的图像其实像一个碗 一样,有一个最低点。 找这个最低点的办法就是,先随便找一个点(e.g. a=3, b = 2), 然后 沿着这个碗下降的方向找,最后就能找到碗的最低点。 cost(a,b) 的形状 怎么找(某一点)碗下降的方向? ? 答案是,找那一点导数的反方向。拿参数a 举个例子, a与cost 关系如下图, 只要将任意一个a, 沿着使cost 导数的反方向 慢慢移动,那么 最终有一天a值就会到达使 cost 最小的那一点. 于是你可以不断地移动a,b, 向着最低点前进。 当然在进行移动的时候也需要考虑,每次移动的速度,也就是\Alpha的值,这个值也叫做 (学习率) . 学习率的 增大 可以加速参数逼近最优的情况, 但是如果在快要到达函数的底端的时候,需要减小学习率,以免出现cost 不断增大或者不停摆动的情况(如下图, J(a,b)就是cost(a,b) )。 所以说,当出现以上两种情况时候,我们应该果断 选取一个较小的学习率 , 以保证cost能减少到一个稳定的值(我们称为 收敛converge). 1.1.2 直接求解最小点方法 这时候,有的人会问,为什么要让a不停地往下跑呢? 而且还需要设定学习率, 多麻烦, 直接让找 导数为0点(最小极值), 不就可以了吗? 嗯。。。也可以...但是各有优缺, 具体方法和优劣分析可见 Rachel-Zhang 的博客: http://blog.csdn.net/abcjennifer/article/details/7700772 总结一下: 回归问题的解决方法是: 1. 假定一个模型 2. 定义什么叫做最好的匹配(构造误差函数) 3. 用这个模型去匹配 已有的数据点 (训练集) 需要进一步讨论的问题: 如果参数(a,b)更多了该怎么办? 如果最合适的匹配模型并不是线性的怎么办? --- 选用一个 非线性模型 比如 y = ax^2 + bx + c. 如果误差(cost)与a,b(模型参数)的关系不是像碗一样的, 而是凹凸不平的该怎么办? ------ 这时候你就得注意你得到的cost的最低点(局部的最低)可能因初始点的不同而不同。 而这些最低点你需要进行比较,以确定是不是全局的最低 2.分类(Logistic regression) 分类问题也是一类很常见的问题。 比如说,怎么判定一个人是高富帅还是吊丝? 假如我是中央电视台的记者,采访了N个人, 拿到了第一手资料。资料如下 我们想要根据一个人的口袋钱数量,来预测一个人是(富帅) 还是 (吊丝). 我们能不能用回归的方法做呢? 显然是可以的 , 我们只要找到一个模型,然后再进行匹配就可以了。 但是因为分类问题的y值常常是一些离散的数字,(比如, 富帅为1, 吊丝为0), 所以我们已经不能用一个 简单的线性函数 来拟合这些数据了。我们需要一个更逼真的模型。 于是我们引入了一个更适合处理分类问题的函数--- 一个 非线性函数 , 阶跃函数。 这个函数的形状更像我们分类问题的数据分布,所以,用他来拟合分类问题的数据将 更适合 ! 所以我们有了一个新的模型, 通过调整a,b 的值,可以让模型不断改变以匹配数据点。 为了匹配数据点,我们又需要一个衡量匹配程度的函数,就像 回归问题一样的cost 函数. 于是同理我们可以得到cost 于是我们急切地想要把它用我们之前的gradient descent 的方法求解出使cost 最小的两个a,b值。 但是很遗憾的是, 这个cost函数关于a,b,是非凸(non-convex)的。 就像下面那张图那样坑坑洼洼。。。 所以你 没有办法 通过以上两种方法(1.1.1和1.1.2)求出这个cost函数的 全局最小值 。 所以你需要构造一个更好的cost函数, 在可以 衡量拟合程度 的同时 又是 一个关于a,b 的凸函数 (像回归问题的cost一样,和一个碗一样,只有一个极小值). 这怎么构造啊.... 幸好我们还有各种伟大的数学家,他们夜以继日,终于赶制出了一个形状和碗一样(convex)的cost函数. (Maximum Likelihoods Estimation 更具体的介绍请看 http://www.holehouse.org/mlclass/06_Logistic_Regression.html ) 现在我们又可以用我们熟悉的 导数方向下降法(gradient descent) 移动a, b的值,使cost 降低到最小。 最后,分类的问题就这样被解决了。 当然,更复杂的问题可能有: 现在是分成两类,如果数据需要分成三类或者更多该怎么办? ---- 假如有A,B,C三类, 把其中A类做为1,BC做为0,然后做Logistic regression, 得到模型a, 同理将B类做为1,AC作为0,得到模型b, 再同理得到模型c. 最后测试的时候, 对任意一个数据点x, 我们能够得到x分别属于A,B,C三类的概率值 最后比较大小,哪个大,这个x就属于哪一类 具体可看, http://blog.csdn.net/abcjennifer/article/details/7716281 (七) 3.总结(两个问题的区别) 这篇文章大概的意图是能想让大家了解, 机器学习中最基本的两类问题,线性回归和分类。 能让大家有个清晰的思想,对于这两类问题都有以下几个步骤, 如何选取一个 合理的模型 (线性的,or 非线性的(e.g. 阶跃函数, 高斯函数)). 制造一个美好的 误差函数 (可以评估拟合程度,而且还是convex函数) 采取一切可能的 技术 (e.g. 导数下降法,解极值方程法) 求出最好的模型参数 谈谈回归和分类的区别: 总的来说两个问题本质上都是一致的,就是模型的拟合(匹配)。 但是分类问题的y值(也称为label), 更离散化一些. 而且, 同一个y值可能对应着一大批的x, 这些x是具有一定范围的。 所以分类问题更多的是 (一定区域的一些x) 对应 着 (一个y). 而回归问题的模型更倾向于 (很小区域内的x,或者一般是一个x) 对应着 (一个y). 在把一个问题建模的时候一定要考虑好需求,让你的模型更好的与现实问题相对应。
个人分类: 机器学习|17501 次阅读|14 个评论
琉球可议
热度 1 sstone2009 2013-5-8 12:34
网上发出一篇新文章,题为《钓岛归中国,琉球也可议》,早晨看到,为之一振! 琉球,日本称之为冲绳,1879年,日本政府以武力派往不设军队的琉球,吞并琉球王国,将它改名为冲绳县。在这之前,琉球国是中华清国的诸侯国,朝贡不断。1895年,《马关条约》签订,琉球清政府没有能力重提琉球,琉球与台湾、钓鱼岛等被日本夺走。但,1941年,中国政府对日宣战,废除《马关条约》;随后,二站结束,《开罗宣言》、《波茨坦公告》做出了对战败国日本的处置,其中即有台湾、钓岛等归中国,“历史上悬而未决的琉球问题也到了可以再议的时候”。 再议琉球,一个重要先决条件是中国的强大。清政府的积弱是失去琉球的关键因素,强大也成了解决的关键因素。今天的中国,该已经初步具备的再议的先决条件了。 再议琉球,我们还需要明确战略目标,最高应定为琉球回归;其次为帮助琉球独立,并与之建立伙伴关系;再次,先搁置争议,在后人具备足够智慧和能力时再解决之,但搁置的条件是彻底解决好钓岛诸事。 再议琉球,我们还需明白,需要积极主动和足够坚决,由此我们必须采取一系列措施和手段,其一,需要进行广泛的舆论宣传,确定琉球为中国不可分割的一部分,不仅全体国民要非常了解,也要在国际上时刻提出;其次,要学习美国人的办法,建立或扶持“琉球回归或独立组织”,借助摆脱美国占领、日本殖民等现实目标,推进琉球脱离日本和回归中国进展;三是,谋求中国的其他附加利益。 再议琉球,在钓岛问题上,是以攻为守的高招;在中国梦的实现过程中,也是一记神来之招。
个人分类: 随笔|2588 次阅读|0 个评论
增量研究
热度 1 vcitym 2013-4-4 10:05
当人们对科技评价不断吐槽的时候,是想加入没有了评价会是什么样子? 当我们习惯了某种方式行为,那么突然去掉这种方式,有时候人们还真不知道该咋办。 当失去了外在的管理束缚,开始自己为所谓的真正科学研究付出的时候,人们会怎样去性为呢? 我的回答就是做增量研究。这里的增量研究就是不产生垃圾研究,不东拼西凑,不沽名钓誉,自己感觉这是自己辛苦出来的东西,那怕是很小很小的一点点,在自己可感的范围内判断是新的,不是重复的,我认为就是增量研究。然后将其放到一个纯净的实名网络开发获取,公开评价。这样的结果其实就是一种占有性研究,以崇尚首创和增量创新。 从这里可以知道,增量创新其实包括了原创或首创,也包括在原创基础上的改进或拓展。毕竟原创太少,改进或扩展的多。 在增量研究中,包括从不同的角度的改进或扩展,如理论、方法、技术、工程等。就是反对重复。 在增量研究中,可以减少浪费,促进科技发展减少摩擦力。 在增量研究中,所有的评价都是第三方(社会公众),研究者不知道具体谁在评价,因此评价结果会更客观。 在增量研究中,我们的教育理念也会发生变化,因为不再为了崇尚“至高荣誉”“争当将军”而拼命。取而代之是人人找到适合自己的发展个性空间。不再追捧xxx改变命运等几千年的所谓光宗耀祖传统文化,使每个人回归到本我,为自己活,活出正能量。 在增量研究中,当然也要对那些消极的东西进行打击,对危害人类生存、生活、道德的增量研究进行抵制和限制,使其减小到最低限度。 说到底,增量研究是一种理念,一种态度,一种行为目标。 当人们开始追求增量研究时,我们的社会可能开始真正回归。
个人分类: 杂谈|3755 次阅读|1 个评论
基于距离的权重回归、估计
hyalone 2013-2-4 20:41
回归时如果有异常点,会增大回归偏差,异常点是难界定的,因此数据量大时剔除异常点就变得不太可行。 回归时如果给每个点设置权重,权重的取值与回归中心的距离负相关,就可以在不剔除异常点的情况下回归,且基本不受异常点的影响。 这种回归对预测、估计很有用,对某个点Y值的估计,参考X值取值,用已知样本对X值进行回归、估计,离X值距离近的权重大、距离远的权重小,估计Y时更准确。方法用优化方法解决,权重可取 范围,目标是X回归的离差平方和+距离权重的偏离平方和。 缺失值处理同理,也可以用这种方法,但计算量会比较大。
个人分类: 统计|3018 次阅读|1 个评论
[转载]寂静的♥心语♥108 【一】
xiangfasong 2012-9-17 16:10
转载地址( http://blog.sina.com.cn/s/blog_612f04ed01017y86.html ) 非常感谢寂静师父 2 ♥ 要为灵魂找一个美丽的归宿,不要为肉体找一块豪华的坟墓。 3 ♥ 只要人生没有觉 悟 ,抓住的东西越多越苦。 4 ♥ 把钱放在头顶,人就沉重;把钱放在脚下,人就成长。 5 ♥ “财”是外在有形的,“富”是内在无形的。财可以靠掠夺,富只能靠修养。 6 ♥ 聪明的人 做 钞票 ,智慧的人 做 钱包。 7 ♥ 人若只看到钱,就成了钞票;人若能看到钱以外更广阔的世界,就成了钱包。 8 ♥ 钱本身永远是小钱,钱以外才是大钱。生意本身永远是小生意,生意之外才是大生意。 9 ♥ 贫苦,是不知布施修福;富苦,是不知散财消灾。 10 ♥ 成功(名利) = 55% 福报 + 30% 人脉 + 15% 技能。 11 ♥ 不要认为 你 认识的人就是你的人脉,只有你利益过的或崇敬你的人,才是你的人脉。 12 ♥ 智者不求有钱,但求值钱;不求利润,但求利人。 13 ♥ 有钱是表面,值钱是根源;有钱是有限,值钱是无限;有钱时暂时,值钱是永远。 14 ♥ 钱是真的纸,人是真的钱。所以智者不会为钱伤人,只会舍财救人。 15 ♥ 缺钱之苦不在赚钱少,而在计较用钱;有钱之苦不在赚钱难,而在不会用钱。 16 ♥ 未来的穷人不是没有钱的人,而是没有精神境界的人。 17 ♥ 赚钱只需技巧,赚大钱就要福报;用钱只需消费,用好钱就要智慧。 18 ♥ 迷惑的人用生命换取财富(现象),智慧的人用生命创造价值(能量)。 19 ♥ 人若只是为了钱,那就太 不值钱 了。 20 ♥ 事业是度人的平台,金钱是利人的工具,目的在于成就 自 他生命的喜悦、价值和意义。 21 ♥ 成大事者必有天助,天助之者必有天德。百年老店必有百年天德。 22 ♥ 事业是为了修积福慧,福慧 自 然能成就事业。 23 ♥ 企业 做 大 做 强靠物质, 做 高 做 久靠精神。物质不会百年,境界 自 会长青。 24 ♥ 愿意改变比已经改变更重要。 25 ♥ 基层用制度管事,中层用教育管人,高层用文化管心,顶层用信仰管魂。 26 ♥ 接受 自 己是爱的开始。 27 ♥ 当心中有了爱,才知生命尽是天籁。 28 ♥ 为 自 己着想,只会生出心机;为众生着想,才会生出智慧。 29 ♥ 苦难 是上天另一种形式的爱,他提醒我们从错误中回来。 30 ♥ 生意的真谛是爱的传递,不是利益的索取。 31 ♥ 只有爱错,爱从来就没有错。 32 ♥ 地大则物博。心是生命的田地,心大则福厚。 33 ♥ 放不下小事,立不起大志。立不起大志 ,放不下小事。 34 ♥ 只要 自 己没有成长,再高的收入都是低待遇;只要 自 己成长了,再低的收入都是高待遇。 35 ♥ 超人就是超过别人。超过别人的目的不是为了炫耀 自 己,而是为了引领大众。 36 ♥ 只有对别人有价值,在关系中 自 己才有存在价值。 37 ♥ 大成就的秘诀是: 做 别人不 做 的和 做 不 到 的,而不是与人竞争。 38 ♥ 人只有一种活法,那就是活得像人。除此之外都是死法,有百千万种。 39 ♥ 人生的一切,不是算来的,而是感来的;不是求来的,而是修来的。求是只望结果,修是培植因缘。感是得道多助,算是一厢情愿。 40 ♥ 根浅的树长不大,一旦长大就会倒下。 41 ♥ 一手 做 公益,一手 做 生意。 做 公益是存款, 做 生意是取款。 42 ♥ 心中有多少阴暗,生活就有多少灾难;心中有多少光芒,生活就有多少吉祥。 43 ♥ 常 做 别人贵人的 人 ,生活中就会常遇贵人。 44 ♥ 宇宙是平衡的:坏人损我们的好人会来补上;愚人欠我们的智者会来还上;凡人亏我们的上天会来奖赏。所以要谨慎得失,但不要患得患失。 45 ♥ 会 犯错 是小错, 犯错 而不认错改错,才是大错。 46 ♥ 人最大的愚蠢不是无 知,而是不愿放下金钱与面子向人学习。 47 ♥ 时间是检验真理的唯一标准。实践是检验真理的临时标准。 48 ♥ 改命须先认命,抗命就会没命。 49 ♥ 大智慧的 人不是关心他得到了什么,而是关心他创造了什么。 50 ♥ 孩子是父母的未来,父母更是孩子的未来。 51 ♥ 父母是原件,家庭是复印机,孩子是复印件。 52 ♥ 人必须为 自 己创造一个存在的价值,以便让 自 己存在;而后为 自 己创造一个美好的价值,以便使生命美好。 53 ♥ 如果一个人 心中见不到伟大,那他无论 做 多么轰轰烈烈的事都不会伟大。 54 ♥ 无私实是大私 , 自 私实是害私。 55 ♥ 人的一生争不到、求不到、想不到、算不到,一切都是 因缘果报 。 56 ♥ 物质向下比就满足快乐,精神向上比就纯净升华。 57 ♥ 人生外在的一切,都是思想、言语、行为在“物以类聚”的原理下吸引过来的。 58 ♥ 厚德载物,缺德损物。这里“物”不光指财物,还指家人、子孙、健康、平安、寿命等一切。 59 ♥ 只要让别人有利,就不 怕 自 己没利 。 60 ♥ 越 自 私越 自 卑,越无私越 自 信 。 61 ♥ 比生意更重要的是生活 ,比生活更重要的是生命,比生命更重要的是觉 悟 。觉 悟 是另一个更高层次、另一个更美世界的生命。 62 ♥ 心中没有亏欠,外面就没有亏损。 63 ♥ 公事私事,大事小事,善事恶事,只要破坏心态、让心 烦恼 ,就是坏事。 64 ♥ 修行苦,但不修行更苦;放下难,但不放下更难。 65 ♥ 被动的 付出 就是失去,主动的 付出 定将回报。 66 ♥ 令 人失望是一种罪业,给人信心是一种功德。 67 ♥ 修行,不修不行,越修越行。“ 修”有三意:一是修建,二是修正,三是修补;“行”有三意:一是功德,二是能力,三是行为。 68 ♥ 有“道”方能到,有“德”才能得。 69 ♥ 糊涂人常常为事赌气,明白人着眼解决问题 。 70 ♥ 凡是让人迷惑、迷茫、迷恋,不能使心灵觉 悟 的一切活动皆属 迷信 活动。 71 ♥ 不善的人事是 自 己罪业的现形,如意的境遇是 自 己功德的投影。 72 ♥ 永远要感恩生命中那些给你扔石头的人,因为他堆起了使你站得更高的台阶。 73 ♥ 一个人没有缺点也没有优点,只有特点。优点是特点的善用,缺点是特点的错用。 74 ♥ 高人静定,不来不去;小人恍惚,漂来飘去。 75 ♥ 生活的障碍和身心的 苦难 ,表面是给我痛苦,其实是在提醒我反省,让我知道忏悔与改变,使我点点完善。我向往快乐,我感恩 苦难 ! 76 ♥ 当我们远离 自 己的家园时,就会感到孤独;当我们远离 自 己的心灵时,就会遭受痛苦。 77 ♥ 能 付出 人所不能 付出 ,就能得到人所不能得到;能忍受人所不能忍受,就能成就人所不能成就。 78 ♥ 所谓“ 自 在”,就是 自 己还在,还与 自 己的良心和美德同在。 79 ♥ 只要内在没有失去(损德),外在就不会有失去,纵失去一定会再回来。只要内在没有得到(积德),外在就不会有得到,纵得到一定会再失去。 80 ♥ 人生真正的美好不是因为他已经美好,而是因为他内心一直保存着一个美好,并且坚信和向往。 81 ♥ 相信奇迹的信心比得到奇迹本身更珍贵。所以要永远提醒 自 己:“我相信奇迹!” 82 ♥ 做 恶的人很苦, 做 善的人很累,什么都不 做 的人无聊。智慧的人三种都不要。 83 ♥ 愚痴的人把 名字 扔在地上;普通的人把 名字 记在心上;聪明的人把 名字 刻在碑上;智慧的人把 名字 留在史上;觉悟的人让一切 随风飘 扬…… 84 ♥ 谁说“一人 做 事一人当”?一个人 做 的事,其后果绝不是一个人在承受,亲人与子孙必受牵连。所以一定要谨言慎行,不要因为暂时看不到恶果就放肆自己。 85 ♥ 心在哪里,命在哪里。念头是开关,一开是光明,一关是黑暗。 86 ♥ 苦难 本身并不可怕,心沉浸在 苦难 中才是 苦难 不断的根源。 87 ♥ 因为每一言行都是种子,所以人迟早会品尝到 自 己亲手培育的甜苦果子;因为每一选择都是基因,所以人迟早会走进 自 己亲 自 选定的好坏命运。 88 ♥ 只要有花,蝴蝶纵飞走了但它必来;只要无花,蝴蝶纵飞来了但它必去。这叫“花蝶效应”。 89 ♥ 恩有多少,福就有多少;恩有多贵,命就有多贵; 怨有多少,苦就有多少;怨有多深,障就有多深。 90 ♥ 只会加法不会减法的学生一定是失败的学生;只会加法不会减法的人生一定是沉重的人生。 91 ♥ 人生不可能得到什么也不可能失去什么。得到的都是 自 己曾经积存的,失去的都是 自 己曾经透支的。 92 ♥ 聪明是看清别人也能看到的 ;智慧是看见别人看不见的。 93 ♥ 纯净不是一尘不染,而是决不迷失信念。 94 ♥ 没有信仰,生命就像茫茫大海的孤舟;有了信仰, 苦难 就有了尽头。 95 ♥ 我们背离多少真理,就创造多少 烦恼 与忧虑。 96 ♥ 嫉妒 他人不是办法,成长 自 己才是力量。 97 ♥ 万物本无情,因有情心而有情;万物本有情,因无情心而无情。 98 ♥ 无用就成了废品。于人无益,就成了别人的废品;不爱国,就成了民族的废品;不行善,就成了世界的废品;无爱心,就成了天地的废品。废品的命运就是被抛弃。 99 ♥ 教育是高回报的投入,文化是最有效的管理。 100 ♥ 越诉苦越苦,越抱怨越怨;越感恩越恩,越分享越享。 101 ♥ 担心是一种诅咒。应把担心换成关心和信心。关心是一种有形的保护,信心是一种无形的保佑。 102 ♥ 苦难 是因为 自 己的灵魂弱小,幸福是因为 自 己的灵魂强大。损德使灵魂弱小,积德使灵魂强大。 103 ♥ 没有命运,只有选择。命运只不过是生命中不停地选择所连接起来的轨迹。 104 ♥ 心为何形?无形无相;心有多大?无边无量。 与无形无相、无边无量的心相比,有形有限的东西再多也等于零。 所以, 要让心满足,不能靠财富,只能靠开 悟 。 105 ♥ 史蒂芬霍金说:人若没有梦想不如死去。我说:人若没有大愿等于死尸。 106 ♥ 想成功的人必要经历失败。已成功的人必然还会失败。只有“人就该这么活”、心中没有失败也没有成功的人,才超越成败。 107 ♥ 愚者拼命,智者改命。 108 ♥ 人只能活在 自 己创造出来的世界。 《Al w ays W ith You》 和你同在 Do you kno w me, w ho I am?你知道我是谁,在哪里? I am al w ays w ith you.我与你不可分,在一起。 I am near you every day, 每一天都在靠近你, Al w ays share w hat you do.一直都在分担你, Follo w the path to any w here,跟随你,无论到哪里 A stranger in the w orld w ithout you.陌生的世界没有你, Forever I w ill be there,我永远在这里, The shado w you al w ays kne w .就如影子一样跟随你。 If you think I've gone a w ay,即使你认为我早已远离, And am never w ith you.甚至从未和你在一起。 Iam not so far a w ay,相信我并未远离, Al w ays shado w ing you.一直如影随形地伴着你。
个人分类: 博文转载|2116 次阅读|0 个评论
[转载]【转载】Logistic regression (逻辑回归) 概述
热度 1 zhjzh1016 2012-8-21 21:24
【原创】Logistic regression (逻辑回归) 概述 Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘) 那么它究竟是什么样的一个东西,又有哪些适用情况和不适用情况呢? 一、官方定义: , Figure 1. The logistic function, with z on the horizontal axis and ƒ ( z ) on the vertical axis 逻辑回归是一个学习f:X− Y 方程或者P(Y|X)的方法,这里Y是离散取值的,X= X1,X2...,Xn 是任意一个向量其中每个变量离散或者连续取值。 二、我的解释 只看公式太痛苦了,分开说一下就好。Logistic Regression 有三个主要组成部分:回归、线性回归、Logsitic方程。 1)回归 Logistic regression是线性回归的一种,线性回归是一种回归。那么回归是虾米呢? 回归其实就是对已知公式的未知参数进行估计。大家可以简单的理解为,在给定训练样本点和已知的公式后,对于一个或多个未知参数,机器会自动枚举参数的所有可能取值(对于多个参数要枚举它们的不同组合),直到找到那个最符合样本点分布的参数(或参数组合)。(当然,实际运算有一些优化算法,肯定不会去枚举的) 注意,回归的前提是公式已知,否则回归无法进行。而现实生活中哪里有已知的公式啊(G=m*g 也是牛顿被苹果砸了脑袋之后碰巧想出来的不是?哈哈),因此回归中的公式基本都是数据分析人员通过看大量数据后猜测的(其实大多数是拍脑袋想出来的,嗯...)。根据这些公式的不同,回归分为线性回归和非线性回归。线性回归中公式都是“一次”的(一元一次方程,二元一次方程...),而非线性则可以有各种形式(N元N次方程,log方程 等等)。具体的例子在线性回归中介绍吧。 2)线性回归 直接来一个最简单的一元变量的例子:假设要找一个y和x之间的规律,其中x是鞋子价钱,y是鞋子的销售量。(为什么要找这个规律呢?这样的话可以帮助定价来赚更多的钱嘛,小学的应用题经常做的呵呵)。已知一些往年的销售数据(x0,y0), (x1, y1), ... (xn, yn)做样本集, 并假设它们满足线性关系:y = a*x + b (其中a,b的具体取值还不确定),线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。 也许你会觉得---晕!这么简单!这需要哪门子的回归呀!我自己在草纸上画个xy坐标系,点几个点就能画出来!(好吧,我承认我们初中时都被这样的画图题折磨过)。事实上一元变量的确很直观,但如果是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell = a*x + b*y + c*z + d*zz + e。这个时候画图就画不出来了,规律也十分难找,那么交给线性回归去做就好。(线性回归具体是怎么做的请参考相应文献,都是一些数学公式,对程序员来说,我们就把它当成一条程序命令就好)。这就是线性回归算法的价值。 需要注意的是,这里线性回归能过获得好效果的前提是y = a*x + b 至少从总体上是有道理的(因为我们认为鞋子越贵,卖的数量越少,越便宜卖的越多。另外鞋子质量、广告投入、客流量等都有类似规律);但并不是所有类型的变量都适合用线性回归,比如说x不是鞋子的价格,而是鞋子的尺码),那么无论回归出什么样的(a,b),错误率都会极高(因为事实上尺码太大或尺码太小都会减少销量)。总之: 如果我们的公式假设是错的,任何回归都得不到好结果。 3)Logistic方程 上面我们的sell是一个具体的实数值,然而很多情况下,我们需要回归产生一个类似概率值的0~1之间的数值(比如某一双鞋子今天能否卖出去?或者某一个广告能否被用户点击? 我们希望得到这个数值来帮助决策鞋子上不上架,以及广告展不展示)。这个数值必须是0~1之间,但sell显然不满足这个区间要求。于是引入了Logistic方程,来做归一化。这里再次说明,该数值并不是数学中定义的概率值。那么既然得到的并不是概率值,为什么我们还要费这个劲把数值归一化为0~1之间呢?归一化的好处在于数值具备可比性和收敛的边界,这样当你在其上继续运算时(比如你不仅仅是关心鞋子的销量,而是要对鞋子卖出的可能、当地治安情况、当地运输成本 等多个要素之间加权求和,用综合的加和结果决策是否在此地开鞋店时),归一化能够保证此次得到的结果不会因为边界 太大/太小 导致 覆盖其他feature 或 被其他feature覆盖。(举个极端的例子,如果鞋子销量最低为100,但最好时能卖无限多个,而当地治安状况是用0~1之间的数值表述的,如果两者直接求和治安状况就完全被忽略了)这是用logistic回归而非直接线性回归的主要原因。到了这里,也许你已经开始意识到,没错, Logistic Regression 就是一个被logistic方程归一化后的线性回归,仅此而已。 至于所以用logistic而不用其它,是因为这种归一化的方法往往比较合理(人家都说自己叫logistic了嘛 呵呵),能够打压过大和过小的结果(往往是噪音),以保证主流的结果不至于被忽视。具体的公式及图形见本文的一、官方定义部分。其中f(X)就是我们上面例子中的sell的实数值了,而y就是得到的0~1之间的卖出可能性数值了。(本段“可能性” 并非“概率” ,感谢 zjtchow 同学在回复中指出) 三、Logistic Regression的适用性 1) 可用于概率预测,也可用于分类。 并不是所有的机器学习方法都可以做可能性概率预测(比如SVM就不行,它只能得到1或者-1)。可能性预测的好处是结果又可比性:比如我们得到不同广告被点击的可能性后,就可以展现点击可能性最大的N个。这样以来,哪怕得到的可能性都很高,或者可能性都很低,我们都能取最优的topN。当用于分类问题时,仅需要设定一个阈值即可,可能性高于阈值是一类,低于阈值是另一类。 2) 仅能用于线性问题 只有在feature和target是线性关系时,才能用Logistic Regression(不像SVM那样可以应对非线性问题)。这有两点指导意义,一方面当预先知道模型非线性时,果断不使用Logistic Regression; 另一方面,在使用Logistic Regression时注意选择和target呈线性关系的feature。 3) 各feature之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。 逻辑回归不像朴素贝叶斯一样需要满足条件独立假设(因为它没有求后验概率)。但每个feature的贡献是独立计算的,即LR是不会自动帮你combine 不同的features产生新feature的 (时刻不能抱有这种幻想,那是决策树,LSA, pLSA, LDA或者你自己要干的事情)。举个例子,如果你需要TF*IDF这样的feature,就必须明确的给出来,若仅仅分别给出两维 TF 和 IDF 是不够的,那样只会得到类似 a*TF + b*IDF 的结果,而不会有 c*TF*IDF 的效果。
个人分类: 基本知识|6893 次阅读|1 个评论
香港有多特殊?
热度 4 jefei 2012-6-30 22:58
今晚听广播听到胡锦涛主席参加香港回归十五周年庆祝晚会,中央广播电台还搞了个“现场直播”。听着这个现场直播,我禁不住在想要是我国四大古都之首、世界四大文明古都之一的西安搞一个建城多少多少年的庆祝晚会,能请到哪位中央领导人出席?估计中央是奢望不上了,能请到个部级领导估计就心满意足了。不说历史,就是同为近代发展起来的经济中心,解放前著名的大上海,改革开放后世界经济影响力也不断上升的“东方明珠”上海,搞一个建城多少多少周年晚会,或者解放多少多少周年晚会,又能请到哪位中央领导出席?更别说内地诸多历史不那么悠久、经济影响力不那么大的各个大中小城市了。 看到香港如此被重视,心里难免有些酸溜溜的,而为什么它那么被中央重视呢?自然是政治考虑,要证明中国有能力管理好一个国际化大都市,并以此证明“一国两制”的可行性与伟大,为以后台湾回归做铺垫。虽然能如此理解,但对比下香港和内地城市,尤其前不久还爆出输港食品合格率达百分之99.999,而内地却深受食品安全之害,依然不由地想为何当年英国殖民者不选择我们那里殖民呢.... 以前听老人说过,对待很多孩子时,重要的是要“一碗水端平”,偏爱某一个是取祸之道。现在因老人当年偏爱某一子女而引起的赡养纠纷也时有发生。我想,管理一个国家的道理也应与此相似,不应人为地制造地区间、民族间的不平等,这样容易造成地区间的偏见,这种偏见在很多时候就是不满或纠纷发生的根源,并不利于社会的和谐与稳定 历史无可改变,未来由我们创造。希望未来不再有内地人与香港人、北京人与上海人、汉族与非汉族之分,我们都有一个身份,那就是中华人民共和国国民,是中华民族之一员!
个人分类: 我的看法|1788 次阅读|7 个评论
在旅途中遇见
热度 6 pup 2012-2-11 10:50
在旅途中遇见
在旅途中遇见 兰井是桂林市的一条小巷子,也是一家人文色彩的咖啡店,隐匿在王府花园旁边低调的老房子里,却因为我的在乎,它于是那么闪耀。前两次来到兰井巷,都是在夜色笼罩下。幽暗的深巷里散落着零星的几家小店,微弱的路灯将影子拉得很长,我甚至听得见自己紧张的呼吸声。一个人从东华门走到兰井咖啡店后,便不敢继续往前探步。 当我第三次来到这里时,正赶上桂林数日烟雨之后的暖阳,居委会的刘奶奶喜滋滋地在晾晒被子,她看到两个摄影家端着胶片机走走停停,便热情地上前搭话,说有个老人经常义务打扫兰井巷,念叨着要请摄影家将好人好事拍下来给予表扬。摄影家一边点头含笑,一边偷偷按下快门,像阳光一般热情的刘奶奶并不知道自己本身就是一道美丽风景。喧闹的还有绽放的月季,花瓣上还残留着昨日的水珠;阳光柔软地亲吻着墙头上的青苔;懒洋洋的微风让人酣醉,误以为这个春天比往年来得更早一些…… 这一刻,时光如此美好,美好得就像放逐和私奔。我走进兰井咖啡店,说不清楚的安静突然袭来,我多么期待接下来的数小时,能在这里画地为牢,一杯咖啡就好。 兰井咖啡店是桂林一群文化人的心头好,很多次从各处网络碎片里读到它,从好友得意且怜惜的言谈中熟悉它。它不是一所普通的老房子,而是谢和庚和王莹的故居,曾见证了乱世里的生死爱情,如今它就像一个梦中的女子,从云端徐徐靠近我,哪怕就一个眼神,彼此已默许。当我随手捧起暖气旁边一篇裱好的关于眼前这条小巷的文章,只读了几行字,泪水竟开始在眼眶里打转,也许,比眼泪更透明的,是我那灿烂的忧伤。不敢说这忧伤是因为这篇小文中历史的力量,也不完全是因这老房子的沧桑独唱,掺杂着或许还有我个人的回归流浪。 情绪的高潮和低谷也不过是一线之间,从温情脉脉到瞬间放空,可能随时随地,比如此时此地。但我相信兰井有这样一种魔力,能让我越过时空的边境,躲过回忆的追捕。所以,当我无一可握时,我靠近它;当我靠近它时,情不自禁地在安静中怒放。 逼仄的兰井巷,淡淡的时光。 想象中经油墨印刷之后的兰井咖啡店,半掩的门,寂静的巷。 休假中的兰井咖啡店. 兰井咖啡店原是谢和庚的故居。跟着墙上的文章去寻访那段历史。
个人分类: 生活家|4977 次阅读|7 个评论
回归
cnyqin 2011-12-16 04:55
回归联系中...希望一切顺利... :)
902 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 02:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部