科学网 › 标签 › inference

标签: inference

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

影响系统发育重建和分歧时间推断的可能因素: 热度 1 hypermarket 2016-3-25 16:46; 在引入系统发育系统学的思想与概念体系之后，在引入分子序列信息之后，系统发育重建在量化分析和可重复性方面都有了很大进步，但是在很大程度上仍然常给人以黑箱子的感觉。这在研究实践中一般会表现为，对于基于不同基因得到的不同结果，甚至基于相同基因得到的不同结果，常常很难确切地对原因进行溯源。表1中列出了在进行分子系统发育推断和分歧时间推断过程中，在各个步骤和环节可能造成影响的一些因素。在以前，尤其是5-6年以前，研究者侧重于重视分析层面的因素，但实际上数据层面的影响因素是更多的。近年来越来越多期刊强制要求上传最终的矩阵文件，体现了研究者对于数据本身的重视程度的提高。表1. 影响系统发育重建和分歧时间推断的可能因素数据层面标本阶段：内群选取、外群选取、样品污染、鉴定错误实验阶段：序列总长、扩增错误、样品数量、样品质量测序阶段：基因及位点的覆盖度、测序错误、拼接错误比对阶段：碱基或氨基酸的位置同源性受长度变异影响基因属性：碱基或氨基酸的组成、替换类型、替换速率分析层面算法选择、软件选择进化模型检测软件与系统发育重建软件之间的衔接参数设定时间标定过程中的化石选择（分歧时间推断）系统发育分析中常说的随机误差（stochastic error）和系统误差（systematic error），其实都主要在数据层面。随机误差主要是说分子标记的序列总长较短，到底能否代表物种间的遗传分异，这个问题有一些计算机模拟分析给出过答案，当序列总长在3-10kb时，随机误差已经不大，10kb以上时则很小。系统误差主要是说各种方向的偏异（bias），常被提及的是内群选取的完整性和外群选取的合理性，以及碱基和氨基酸组成的偏异。以线粒体基因组为例，其实单其中的蛋白质编码基因总长已经不低，但是由于线粒体基因组碱基偏异的普遍较重，因而越来越少单独使用，而是和核基因联用，并且越来越多使用氨基酸序列。对于内群选取、外群选取、序列比对等因素的影响，可以设计单因素对照分析。准确的物种鉴定要依靠分类学家 J 。数据层面的其它因素一般通过在实验或分析过程中进行质量控制来提高质量。在分析层面，参数设定没有展开，其中大多是可以进行单因素对照分析的。化石类群的选取虽然已经有比较丰富的数据库信息可以利用，但在标定时的选用仍然有待进一步标准化。更多系统发育相关内容可以阅读之前的日志 1996-2015的20年间主要序列分子标记在系统发育重建中的使用简况 http://blog.sciencenet.cn/blog-1292052-963321.html rRNA二级结构中的分子独征在系统发育重建中的应用--澳丝蝽科案例 http://blog.sciencenet.cn/blog-1292052-954459.html 系统发育重建中主流算法的未来走向 http://blog.sciencenet.cn/blog-1292052-943070.html 分歧时间研究中用作标定的化石所处的层位时间 http://blog.sciencenet.cn/blog-1292052-935151.html 目前分子系统发育研究中的两点局限性 http://blog.sciencenet.cn/blog-1292052-923288.html 互相独立多证据的一致指向在分歧时间推断中的应用--蝽类昆虫案例 http://blog.sciencenet.cn/blog-1292052-922084.html 高级阶元昆虫转录组研究中的标本问题 http://blog.sciencenet.cn/blog-1292052-905190.html 参考文献 Delsuc F, Brinkmann H, Philippe H. 2005. Phylogenomics and the reconstruction of the tree of life. Nat. Rev. Genet. 6:361-375.; 5945 次阅读|1 个评论

模型选择与多模型推断: 热度 4 seexf2012 2014-3-14 13:45; -- 分析千岛湖鸟类多样性与墓群出现率的决定性因素斯幸峰三墩职业技术学校空想资本主义学院理论空间学研究所, 杭州 310058, 中国浙江注意: 转移到科学网后部分R代码已经混乱，清晰版本详见原文: http://sixf.org/cn/2014/03/model-selection-multimodel-inference/ 摘要由于常规的逐步回归分析在使用过程中有诸多缺陷，而信息理论的赤池信息量准则(AIC)弥补了这一缺点。此文基于AIC的判定方法，利用模型选择和多模型推断(model selection and multimodel inference)探讨千岛湖岛屿鸟类多样性的决定因素。同时开展对千岛湖墓葬分布的可能性分析，为盗墓的理论研究打下翔实的基础。关键词 AIC、盗墓、多模型推断、模型选择、鸟类、千岛湖、逐步回归前言面对一系列可能的备选模型，如何评判模型的优劣？选用逐步回归分析(stepwise regression)还是信息理论(information theoretic analysis)？Whittingham等(2006)对2004年的 Ecology Letters 、 Journal of Applied Ecology 和 Animal Behaviors 三个杂志分析，共有65篇文章使用多元回归(multiple regression)，其中57%的研究使用了逐步回归的方法。虽然逐步回归依旧广泛使用，但是有许多缺陷，如：参数估计的误差(bias in parameter)，模型选择算法的不一致(inconsistencies among model selection algorithms)，多个假设检验的内在缺陷(inherent problem of multiple hypothesis testing)，以及最后结果只依赖单一的最优模型(inappropriate focus or reliance on a single best model)。至于具体的缺陷原理，此处不予细说，本文将采用信息理论简要介绍多模型推断的方法。千岛湖地处浙江西部，山清水秀，民风淳朴(此处省略一百字)。自1959年新安江大坝建成后，形成1078个岛屿(108米水位时)，乃名副其实的“千岛湖”，是一个得天独厚的路桥岛屿天然实验场所。本研究团队自2002年开始千岛湖地区的鸟类调查，到目前已经逐渐拓展到蜘蛛、蜥蜴、青蛙、蛇、猴子、昆虫、兽类、蝴蝶以及植物等各项业务，欢迎广大生态爱好者和有志之士前来参观与洽谈。撰写本文的起因是早先跟本团队中的“蜘蛛侠”吴博士尝试探讨鸟类多样性与风水的关系，加上近日刚好看了一些有关模型选择和多模型推断(model selection and multimodel inference)的文献(xián)，采用“先进”的AIC(Akaike information criterion)技术，探讨该学术问题的可能性。本文主要探讨的问题包括两部分：1) AIC是啥？莫非是美国国际大学(American International College)得缩写？2) 模型选择的操作步骤；3) 千岛湖岛屿上鸟类和墓葬分布的机理。材料与方法研究地点与岛屿参数按照面积和隔离度，利用分层随机抽样法(stratified random sampling)在千岛湖选取40个岛屿。自2002年开始实地考察并详细并测量了跟鸟类多样性相关的各种岛屿参数：面积、隔离度、植被物种数、生境种类、周长、周长面积比、形状指数、海拔，并于昨晚想像了各种与盗墓可能相关的岛屿参数：凹凸度、坡度、朝向、铝和硅的含量，沙土指数和pH值。其中铝和硅的含量是白膏泥的主要组成元素。由于白膏泥防水性能好，是墓葬出没的指标。沙土指数反映了建墓的可能性，即如果沙土含量过多，土质不夯实，容易测漏。pH值，跟墓葬中的有机体“发酵”程度相关。形状指数、凹凸度、坡度和朝向是判断风水优劣的关键，因为圆山、朝南、土层厚及石头少的生境是墓葬出现的高发区。 AIC AIC(Akaika Information Criterion)即赤池信息量准则，是评估统计模型的复杂度和衡量统计模型拟合优良性的一种标准。最早由日本统计学家赤池弘次创立和发展，由此得名。 AIC在一般情况下，可以表示为其中: k是参数的数量, L是似然函数(likelihood function)。这是公式，知道就可以，R语言中有现成的命令(stat包中的AIC命令，及stats包中的extractAIC命令)。如果自己动手算，也可以：假设条件是模型的误差服从独立正态分布，n为观察数, RSS为残差平方和，则增加了自由参数提高了拟合的优良性，即AIC鼓励数据的优良性但是尽量避免出现过度拟合(overfitting)的情况，所以优先考虑的模型是AIC值最小的那一只。其中在小样本的情况下(n/k 40)，AIC 转变成AICc (corrected AIC)，即：当n增加时，AICc收敛成AIC。所以AICc可以应用于任何样本大小的情况下(注: 这部分内容主要抄自维基百科，不过维基百科的该页中文文献引用有个小错误，即参考书是 Burham Anderson(2002)，而不是2004) 如果数据有过度离散(overdispersion)的影响，则需要考虑Q版的AIC，即 ĉ 为方差膨胀系数(VIF)或者过度离散系数(overdispersion coefficient)。如果 ĉ 大于1，则需要采用QAIC。当然，Q版的，也有QAICc，道理同上。一般在参数进入模型前，只要保证参数的独立性，则可以避免过度离散的情况。计算模型权重得到各个模型的AIC值后，按照AIC从小到大排列，然后每个模型的AIC值与最小的AIC值相减，得到ΔAIC。通过得到的ΔAIC，计算各个模型的模型权重，即Akaika weight( w i )。其中第 i 个模型的模型权重为：公式不复杂，而且R中有现成的命令计算 w i 。 w i 在0至1之间，并且所有模型权重之和为1。模型权重越大，表示该模型是真实模型的可能性就越大。比如第二个模型的 w 2 为0.31，则表示这个模型为真实模型(best possible model)的可能性为31%。通过模型权重还可以计算各个参数的重要值(importance)。方法很简单，比如参数1，则挑出含参数1的所有模型，然后把这些模型的权重相加，即是该参数的权重。各个参数的权重值一比，就知道哪个参数最重要了。模型选择的不确定性和多模型推断其实现实一般不会这么完美的，上述所有结论都建立在ΔAIC2的基础上，即第二个模型的AIC值比最小模型的AIC值差值大于2。如果小于2，则说明第一个模型跟第二个模型(或者连续前四五个模型)为真实模型的可能性差不多，无法决定优劣。咋么办？终极武器：模型平均(model averaging)。曾经ΔAIC2是条金科玉律(Burnham Anderson, 2002)，但是Anderson大神在2008版的书中似乎把ΔAIC2给降级了(Andersion, 2008)，建议不要轻信这条规律，而是建议把所有模型统统进行模型平均，也就是不要随便剔除一些看似不可能模型，哪怕这些模型的权重都小得接近于零。如果ΔAIC2，通过最优模型，代入实际岛屿参数测量值，就可以计算出预测的鸟类种数或者存在墓葬的可能性。现在由于ΔAIC2，第一个模型无法“代表”其他模型，于是所有模型都得参与进来。假设 Y ^ 值为预测值(鸟类种数或墓葬出现概率)，则平均预测值为：啥意思？假设有九个可能模型，则有九个模型的权重，以及可以计算出九个预测值。如今，平均预测值就是预测值分别乘以权重后的和，比如既然预测值 Y ^ 需要模型平均，参数估计值也得平均，道理跟估计预测值相似。假设参数 i 的参数估计为 θ i ，本来当ΔAIC2时只要直接采用最小AIC模型的 θ i 值即可，现在则需要把含有参数 i 的所有模型列出来，进行模型平均：同理，计算参数估计的方差时，也得进行模型平均，得到非条件方差估计(unconditional variance estimate)，详见(Burnham Anderson, 2002, p.162): Anderson大神似乎对这个公式也不是很满意，建议更新为Anderson (2008)第111页的公式，其实计算结果相差不多：其中 $\hat{\bar{θ}}$ 是模型的平均参数估计， w i 是模型权重，以及 g i 表示第 i 个模型。简言之，非条件方差估计就是包括两部分：根号内的前部分是本身的取样方差，另外一部分是由于模型选择不确定导致的方差。所以，把后者考虑进去以后，最后的方差估计不会由于模型的不确定性而降低准确性。我怕表达有所不准，列出Anderson(2008)第111页的原文: an estimator of the variance of parameter estimater esimates that incorporates both sampling variance, given a model, and a variance component for model selection uncertainty. 所以，在样本量较大的前提下，最后参数的置信区间为实战演练演练开始之前，请确保已经安装下列软件包：glmulti, MuMIn, bbmle。网速给力的情况下，最简单的方法是直接在R语言操作界面中输入 install.packages ( glmulti ) 否则，得从R的镜像网站下载压缩包后再本地安装。演练一：千岛湖鸟类多样性的决定因素导入 glmulti包 library (glmulti) ## Loading required package: rJava 导入千岛湖鸟类和岛屿数据(注：这个数据是真实的，只是我把数据的顺序随机调换了) tilbird - read.table ( tilbird.txt , h = T) #找到 'tilbird.txt'文件并打开 str (tilbird) # 检查`til.bird`的数据结构 ## 'data.frame': 40 obs. of 9 variables: ## $ birdspp : int 43 34 35 32 31 27 30 33 24 24 ... ## $ area : num 1289.2 143.2 109 55.1 46.4 ... ## $ isolation: num 897 1415 965 954 730 ... ## $ plants : int 36 50 88 86 65 68 45 49 45 31 ... ## $ habitats : int 3 6 3 3 3 3 3 7 4 4 ... ## $ Pe : num 105965 17465 12022 7570 10444 ... ## $ PAR : num 82.2 122 110.3 137.4 225.2 ... ## $ SI : num 832 412 325 288 433 ... ## $ elev : num 298 251 227 198 174 ... 数据中第一列为鸟类物种数，其余八列为岛屿参数，分别为：面积、隔离度、植物物种数、生境类别数、岛屿周长、周长面积比(越大表示边缘越多)、形状指数(完全的圆形，则形状指数为1)和海拔。模型开始之前得进行岛屿参数的独立性检验。其中方法可以使用相关分析(correlation test)，方差膨胀系数(VIF)和主成份分析(PCA)，这里采用常用的相关分析。相关分析的R语言命令是cor.test，这是两两检验。cor是多个参数一起检验，可以多个参数一起检验的时候，结果不给出p值，于是我写了一个小函数，就是多个参数检验的时候也同时给出p值。命令名称为cor.sig，代码为： cor.sig = function(test) { res.cor = cor (test) res.sig = res.cor res.sig = NA nx = dim (test) for (i in 1 :nx) { for (j in 1 :nx) { res.cor1 = as.numeric ( cor.test (test , test )$est) res.sig1 = as.numeric ( cor.test (test , test )$p.value) if (res.sig1 = 0.001 ) { sig.mark = *** } if (res.sig1 = 0.01 res.sig1 0.001 ) { sig.mark = ** } if (res.sig1 = 0.05 res.sig1 0.01 ) { sig.mark = * } if (res.sig1 0.05 ) { sig.mark = } if (res.cor1 0 ) { res.sig = paste ( , as.character ( round (res.cor1, 3 )), sig.mark, sep = ) } else { res.sig = paste ( as.character ( round (res.cor1, 3 )), sig.mark, sep = ) } } } as.data.frame (res.sig) } 所有岛屿参数进行相关分析， cor.sig (tilbird ) #第一列不算，那是鸟类物种数，即Y值。 ## area isolation plants habitats Pe PAR ## area 1*** -0.115 -0.139 -0.064 0.996*** -0.429** ## isolation -0.115 1*** -0.101 -0.1 -0.117 0.299 ## plants -0.139 -0.101 1*** -0.16 -0.138 -0.048 ## habitats -0.064 -0.1 -0.16 1*** -0.057 -0.035 ## Pe 0.996*** -0.117 -0.138 -0.057 1*** -0.481** ## PAR -0.429** 0.299 -0.048 -0.035 -0.481** 1*** ## SI 0.857*** -0.045 -0.167 -0.034 0.898*** -0.619*** ## elev 0.726*** -0.127 -0.039 -0.032 0.775*** -0.803*** ## SI elev ## area 0.857*** 0.726*** ## isolation -0.045 -0.127 ## plants -0.167 -0.039 ## habitats -0.034 -0.032 ## Pe 0.898*** 0.775*** ## PAR -0.619*** -0.803*** ## SI 1*** 0.888*** ## elev 0.888*** 1*** 结果表明，面积跟周长、周长面积比、形状指数和海拔呈显著相关。考虑到这些因素的生物学意义，很明显，除去其他显著相关的参数而保留面积是合理的，因为在岛屿生物地理学框架下，面积是极为重要的参数，且这里的其他参数都可能由于面积而产生。比如海拔，由于是岛屿，在坡度相似的情况下，面积越大，海拔越高。所以，最后进入模型的是四个参数：面积、隔离度、植物数和生境数。权且采用最常见的线性模型(linear model)，创建总模型(global model)，即包括所有参数： global.model - lm (birdspp ~ area + isolation + plants + habitats, data = tilbird) 然后利用glmulti包中的函数glmulti对所有可能模型中来选择最优模型。此处由于是4个参数，则共有2^4=16个可能模型( 此处不考虑交互效应 )。 bird.model - glmulti (global.model, level = 1 , crit = aicc ) #选用AICc进行评判模型 ## Initialization... ## TASK: Exhaustive screening of candidate set. ## Fitting... ## Completed. summary (bird.model) ## $name## glmulti.analysis ## ## $method## h ## ## $fitting ## lm ## ## $crit ## aicc ## ## $level ## 1 ## ## $marginality ## FALSE ## ## $confsetsize ## 100 ## ## $bestic ## 223.7 ## ## $icvalues ## 223.7 223.8 225.0 225.7 226.2 226.7 228.6 228.7 243.6 244.1 244.5 ## 244.5 246.0 246.7 246.8 247.0 ## ## $bestmodel ## birdspp ~ 1 + area + habitats ## ## $modelweights ## 2.871e-01 2.708e-01 1.455e-01 1.049e-01 8.123e-02 6.348e-02 2.432e-02 ## 2.259e-02 1.332e-05 1.036e-05 8.538e-06 8.461e-06 3.984e-06 2.794e-06 ## 2.652e-06 2.496e-06 ## ## $includeobjects ## TRUE 结果出来了，最优模型只包括面积和生境的参数，看看： lm9 - lm (birdspp ~ area + habitats, data = tilbird) summary (lm9) ## ## Call: ## lm(formula = birdspp ~ area + habitats, data = tilbird) ## ## Residuals: ## Min 1Q Median 3Q Max ## -6.606 -2.107 -0.263 1.911 8.705 ## ## Coefficients: ## Estimate Std. Error t value Pr(|t|) ## (Intercept) 20.69295 2.08432 9.93 5.6e-12 *** ## area 0.01564 0.00289 5.41 3.9e-06 *** ## habitats 1.29893 0.55652 2.33 0.025 * ## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 3.67 on 37 degrees of freedom ## Multiple R-squared: 0.474, Adjusted R-squared: 0.445 ## F-statistic: 16.6 on 2 and 37 DF, p-value: 7e-06 但再看看刚才的模型的AICc结果： summary (bird.model)$icvalue ## 223.7 223.8 225.0 225.7 226.2 226.7 228.6 228.7 243.6 244.1 244.5 ## 244.5 246.0 246.7 246.8 247.0 发现第二个模型的ΔAICc为223.8-223.7=0.1。坑爹啊！如果此时ΔAICc2，则模型选择到此结束，即最优模型为第一个模型。可是，现实比较残忍，继续模型平均，列出所有可能模型： lm1 - lm (birdspp ~ area + isolation + plants + habitats, data = tilbird) lm2 - lm (birdspp ~ isolation + plants + habitats, data = tilbird) lm3 - lm (birdspp ~ area + plants + habitats, data = tilbird) lm4 - lm (birdspp ~ area + isolation + habitats, data = tilbird) lm5 - lm (birdspp ~ area + isolation + plants, data = tilbird) lm6 - lm (birdspp ~ plants + habitats, data = tilbird) lm7 - lm (birdspp ~ isolation + habitats, data = tilbird) lm8 - lm (birdspp ~ isolation + plants, data = tilbird) lm9 - lm (birdspp ~ area + habitats, data = tilbird) lm10 - lm (birdspp ~ area + plants, data = tilbird) lm11 - lm (birdspp ~ area + isolation, data = tilbird) lm12 - lm (birdspp ~ area, data = tilbird) lm13 - lm (birdspp ~ isolation, data = tilbird) lm14 - lm (birdspp ~ plants, data = tilbird) lm15 - lm (birdspp ~ habitats, data = tilbird) lm16 - lm (birdspp ~ 1 , data = tilbird) 看着比较壮观，但是碰到十个参数，共 2^10=1024 个可能模型的时候就比较麻烦了。没事，可以再编个程序循环一下就行，此处暂时不提。 16个可能模型一起平均， library (MuMIn)lm.ave - model.avg (lm1, lm2, lm3, lm4, lm5, lm6, lm7, lm8, lm9, lm10, lm11, lm12, lm13, lm14, lm15, lm16) summary (lm.ave) ## ## Call: ## model.avg.default(object = lm1, lm2, lm3, lm4, lm5, lm6, lm7, ## lm8, lm9, lm10, lm11, lm12, lm13, lm14, lm15, lm16) ## ## Component models: ## df logLik AICc Delta Weight ## 12 4 -107.3 223.7 0.00 0.29 ## 123 5 -106.0 223.8 0.12 0.27 ## 124 5 -106.6 225.0 1.36 0.15 ## 1234 6 -105.6 225.7 2.01 0.10 ## 13 4 -108.5 226.2 2.53 0.08 ## 1 3 -110.0 226.7 3.02 0.06 ## 134 5 -108.4 228.6 4.94 0.02 ## 14 4 -109.8 228.7 5.08 0.02 ## 3 3 -118.5 243.6 19.96 0.00 ## 23 4 -117.5 244.1 20.46 0.00 ## (Null) 2 -120.1 244.5 20.85 0.00 ## 2 3 -118.9 244.5 20.86 0.00 ## 34 4 -118.4 246.0 22.37 0.00 ## 234 5 -117.5 246.7 23.08 0.00 ## 4 3 -120.1 246.8 23.18 0.00 ## 24 4 -118.9 247.0 23.31 0.00 ## ## Term codes: ## area habitats isolation plants ## 1 2 3 4 ## ## Model-averaged coefficients: ## Estimate Std. Error Adjusted SE z value Pr(|z|) ## (Intercept) 22.023011 3.272613 3.327045 6.62 2e-16 *** ## area 0.015423 0.002945 0.003044 5.07 2e-16 *** ## habitats 1.287322 0.560392 0.579478 2.22 0.026 * ## isolation -0.001104 0.000728 0.000753 1.47 0.143 ## plants 0.019405 0.021519 0.022247 0.87 0.383 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Full model-averaged coefficients (with shrinkage): ## (Intercept) area habitats isolation plants ## 22.023011 0.015422 1.040595 -0.000531 0.005770 ## ## Relative variable importance: ## area habitats isolation plants ## 1.00 0.81 0.48 0.30 结果中的第一部分，'Component models'，即列出了所有模型的自由度(df)，对数似然函数(logLik)，AICc值，ΔAICc值和模型权重。比如最优模型的模型权重为 0.29 ，即为真实模型的可能性为29%(其实是非常低的，一般达到0.6-0.7就很不错了，当然，这里使用的数据是被我随机化过的，所以结果没有实际参考价值) 其中的第4部分，'Full model-averaged coefficients'，即是平均参数估计， $\hat{\bar{θ}}$ 。第5部分，'Relative variable importance'，即是各个参数的重要值。最大为1，可见该例子中，面积是最重要的，次之是生境。至于隔离度和植物数量，则在模型中贡献不大。此时如果打算计算各岛的预鸟类物种数，则可以如下进行模型平均： pred.mat - matrix ( NA , ncol = 16 , nrow = 40 , dimnames = list ( paste ( isl , 1 : 40 , sep = ), paste ( lm , 1 : 16 , sep = ))) #建立一个空矩阵，放40个岛的各16各模型预测值，如下所示 pred.mat - predict (lm1) pred.mat - predict (lm2) pred.mat - predict (lm3) pred.mat - predict (lm4) pred.mat - predict (lm5) pred.mat - predict (lm6)pred.mat - predict (lm7)pred.mat - predict (lm8)pred.mat - predict (lm9)pred.mat - predict (lm10)pred.mat - predict (lm11)pred.mat - predict (lm12)pred.mat - predict (lm13)pred.mat - predict (lm14)pred.mat - predict (lm15)pred.mat - predict (lm16) # 输出40个岛屿的平均预测值，即上述的 hat-bar(Y) bird.pred - pred.mat %*% summary (lm.ave)$summary$Weight t (bird.pred) #把矩阵换方向，给页面省点空间，跟分析无关 ## isl1 isl2 isl3 isl4 isl5 isl6 isl7 isl8 isl9 isl10 isl11## 37.64 29.45 26.74 26.21 26.15 24.7 24.62 30.58 26.76 25.43 25.56## isl12 isl13 isl14 isl15 isl16 isl17 isl18 isl19 isl20 isl21 isl22## 25.51 24.19 24.07 25.48 24.31 26.46 25.51 24.43 26.67 26.58 25.67## isl23 isl24 isl25 isl26 isl27 isl28 isl29 isl30 isl31 isl32 isl33## 24.18 23.78 25.49 24.75 23.87 26.52 27.5 23.02 26.37 24.45 24.08## isl34 isl35 isl36 isl37 isl38 isl39 isl40## 26.61 26.38 26.48 25.21 25.34 28.94 25.29 还有一点是非条件方差估计，这个，有点麻烦，等以后再说。计算方法其实跟上述的 $\hat{\bar{Y}}$ 类似。实战演练二: 千岛湖墓群的决定因素这个分析就跟上述方法相似了，按部就班： tiltomb - read.table ( tiltomb.txt , h = T) #读取墓的虚拟数据 'tiltomb.txt' cor.sig (tiltomb )## area plants habitats SI elev convex## area 1*** -0.139 -0.064 0.857*** 0.726*** 0.041 ## plants -0.139 1*** -0.16 -0.167 -0.039 -0.107 ## habitats -0.064 -0.16 1*** -0.034 -0.032 -0.187 ## SI 0.857*** -0.167 -0.034 1*** 0.888*** 0.237 ## elev 0.726*** -0.039 -0.032 0.888*** 1*** 0.307 ## convex 0.041 -0.107 -0.187 0.237 0.307 1***## slope 0.248 0.193 0.115 0.247 0.322* 0.264 ## aspect -0.114 -0.081 0.141 0.069 0.278 0.075 ## Al 0.088 -0.066 0.193 0.223 0.326* 0.06 ## Si 0.055 -0.099 0.101 0.14 0.243 0.081 ## sand -0.207 0.197 0.111 -0.22 -0.191 -0.311 ## pH -0.194 -0.132 -0.204 -0.17 -0.228 0.018 ## slope aspect Al Si sand pH## area 0.248 -0.114 0.088 0.055 -0.207 -0.194 ## plants 0.193 -0.081 -0.066 -0.099 0.197 -0.132 ## habitats 0.115 0.141 0.193 0.101 0.111 -0.204 ## SI 0.247 0.069 0.223 0.14 -0.22 -0.17 ## elev 0.322* 0.278 0.326* 0.243 -0.191 -0.228 ## convex 0.264 0.075 0.06 0.081 -0.311 0.018 ## slope 1*** -0.093 0.412** 0.334* 0.111 -0.53***## aspect -0.093 1*** 0.075 0.101 -0.086 0.198 ## Al 0.412** 0.075 1*** 0.887*** 0.615*** -0.756***## Si 0.334* 0.101 0.887*** 1*** 0.504*** -0.646***## sand 0.111 -0.086 0.615*** 0.504*** 1*** -0.598***## pH -0.53*** 0.198 -0.756*** -0.646*** -0.598*** 1*** 结果发现面积、形状指数和海拔显著相关。考虑岛实际因素，岛屿面积或者说千岛湖以前的山头大小估计不会是墓葬考虑的因素，而这个山头圆不圆，这关乎风水的事，应该是主要因素，所以剔除面积和海拔。再看发现形状指数跟沙土也有正相关，可是考虑沙土多少是决定建不建墓的关键因素，予以保留，何况不是非常强烈的正相关(coef. = 0.373)。再看发现铝、硅和坡度有相关，可以确信铝和硅，其中之一是冗余的，因为白膏泥富含铝和硅。白膏泥相对铝含量较多，此处选择去除硅，以及另外的坡度。pH跟沙土相关，看来得把pH去除，估计过了上千年，墓葬中的有机质早化成泥土了。再看看选取参数后的结果， cor.sig (tiltomb )## plants habitats SI convex aspect Al## plants 1*** -0.16 -0.167 -0.107 -0.081 -0.066 ## habitats -0.16 1*** -0.034 -0.187 0.141 0.193 ## SI -0.167 -0.034 1*** 0.237 0.069 0.223 ## convex -0.107 -0.187 0.237 1*** 0.075 0.06 ## aspect -0.081 0.141 0.069 0.075 1*** 0.075 ## Al -0.066 0.193 0.223 0.06 0.075 1***## sand 0.197 0.111 -0.22 -0.311 -0.086 0.615***## sand## plants 0.197 ## habitats 0.111 ## SI -0.22 ## convex -0.311 ## aspect -0.086 ## Al 0.615***## sand 1*** 后续步骤跟演练一类似，不同的是，此处的应变量为二元结构，即presence-absence数据，得用广义线性模型中的逻辑斯帝回归(logistic regression)。其他注解省略，直接上程序， global.model.tomb - glm (tomb ~ plants + habitats + SI + convex + aspect + Al + sand, family = binomial ( logit ), data = tiltomb)tomb.model - glmulti (global.model.tomb, level = 1 , crit = aicc )## Initialization...## TASK: Exhaustive screening of candidate set.## Fitting...## ## After 50 models:## Best model: tomb~1+SI## Crit= 57.9820910321992## Mean crit= 64.0858355584437 ## ## After 100 models:## Best model: tomb~1+SI## Crit= 57.9820910321992## Mean crit= 64.9421343165768 ## ## After 150 models:## Best model: tomb~1+SI## Crit= 57.9820910321992## Mean crit= 64.5619346833708 ## Completed. summary (tomb.model)## $name## glmulti.analysis## ## $method## h## ## $fitting## glm## ## $crit## aicc## ## $level## 1## ## $marginality## FALSE## ## $confsetsize## 100## ## $bestic## 57.98## ## $icvalues## 57.98 58.33 59.61 60.17 60.22 60.30 60.39 60.46 60.54 60.75 60.82## 60.94 62.15 62.17 62.18 62.24 62.39 62.44 62.67 62.70 62.77 62.77## 62.79 62.87 62.89 62.91 62.95 62.98 63.01 63.09 63.19 63.27 63.32## 63.51 63.53 63.60 63.66 64.05 64.43 64.52 64.53 64.60 64.62 64.77## 64.80 64.87 64.88 64.91 64.92 64.92 64.95 64.96 65.08 65.12 65.14## 65.40 65.40 65.45 65.52 65.54 65.58 65.65 65.66 65.67 65.69 65.69## 65.72 65.81 65.82 65.88 66.02 66.08 66.14 66.14 66.22 66.32 66.47## 66.56 66.64 66.72 66.82 66.85 66.91 66.92 66.93 67.22 67.35 67.37## 67.38 67.64 67.65 67.66 67.67 67.80 67.83 67.83 67.86 67.87 68.02## 68.17## ## $bestmodel## tomb ~ 1 + SI## ## $modelweights## 0.1201201 0.1011728 0.0531133 0.0401592 0.0392729 0.0377621 0.0359927## 0.0348480 0.0333513 0.0300502 0.0290503 0.0273379 0.0149678 0.0148350## 0.0147370 0.0143245 0.0132729 0.0129413 0.0115051 0.0113448 0.0109770## 0.0109687 0.0108420 0.0104403 0.0103423 0.0102346 0.0100197 0.0098576## 0.0097113 0.0093423 0.0088919 0.0085364 0.0083084 0.0075580 0.0074968## 0.0072460 0.0070090 0.0057865 0.0047700 0.0045613 0.0045489 0.0043911## 0.0043397 0.0040282 0.0039725 0.0038450 0.0038208 0.0037599 0.0037378## 0.0037365 0.0036946 0.0036696 0.0034468 0.0033923 0.0033552 0.0029419## 0.0029405 0.0028648 0.0027779 0.0027422 0.0026895 0.0025989 0.0025888## 0.0025730 0.0025506 0.0025475 0.0025079 0.0023998 0.0023883 0.0023173## 0.0021582 0.0020990 0.0020310 0.0020308 0.0019495 0.0018537 0.0017263## 0.0016468 0.0015814 0.0015211 0.0014462 0.0014228 0.0013853 0.0013789## 0.0013704 0.0011849 0.0011078 0.0011006 0.0010928 0.0009612 0.0009542## 0.0009487 0.0009451 0.0008861 0.0008726 0.0008723 0.0008583 0.0008546## 0.0007955 0.0007370## ## $includeobjects## TRUE 结果一看，最优模型只包括形状指数，看来理论想像的数据也不错嘛，虽然烦人的ΔAICc依旧小于2，此处就不再演示模型平均了，因为 2^7=128 个可能模型，那个循环程序还没写好，所以就此为止。结果千岛湖鸟类多样性主要取决于岛屿面积和生境多样性，而墓葬可能性取决于岛屿的形状指数。讨论听说统计上有一个更牛的利器是随机森林模型 (random forest model)，可以无视参数是否独立，直接进入模型而且可以精确预测。哪天有兴趣琢磨琢磨。 PS: 以下是娱乐时间。圆山头是墓葬的首选，所以，各位看官以后到千岛湖旅游，不要去什么猴岛蛇岛，选择山头比较圆的岛，才是王道！最后检验一下鸟类多样性跟墓葬出现的相关性分析： cor.test (tilbird , tiltomb )## ## Pearson's product-moment correlation## ## data: tilbird and tiltomb ## t = 3.256, df = 38, p-value = 0.002378## alternative hypothesis: true correlation is not equal to 0## 95 percent confidence interval:## 0.1821 0.6797## sample estimates:## cor ## 0.4671 结果是显著正相关(t = 3.2562, df = 38, p-value = 0.002378)。墓葬的出现，表示该岛风水还不错，所以最后证实本文的最初假设，即跟蜘蛛侠讨论时所做的预测：鸟类多样性与风水有显著的相关性。至于机理等科学问题的讨论，不是本篇论文能够解决的。请听下回分解。致谢谢谢看官的一路捧场，浏览完这块又长又臭的博文。谢谢实验室提供的平台和提供的支助，给于了我想像的空间，以及岛屿的数据。有关墓葬的生境数据，来自古田山大样地，我想像着搬到千岛湖了，在此一并致谢。分析方法部分参考于此。本文的源代码及数据可以点击此处下载。看官就是reviewer(评审员)，若有任何reviews，请尽请留言，谢谢！参考文献 Anderson, David R. (2008) Model based inference in the life sciences: a primer on evidence . New York: Springer. Burnham, Kenneth P., and David R. Anderson. (2002) Model selection and multimodel inference: a practical information-theoretic approach . Springer. Symonds, Matthew RE, and Adnan Moussalli. (2011) A brief guide to model selection, multimodel inference and model averaging in behavioural ecology using Akaike’s information criterion. Behavioral Ecology and Sociobiology , 65 : 13-21. APA Whittingham, Mark J., et al. (2006) Why do we still use stepwise modelling in ecology and behaviour?. Journal of animal ecology , 75 : 1182-1189. 转移到科学网后部分R代码已经混乱，清晰版本详见原文: http://sixf.org/cn/2014/03/model-selection-multimodel-inference/ 本文引用格式： Si X., Pimm S.L., Russell G.J. P. Ding. (2014) Turnover of breeding bird communities on islands in an inundated lake . Journal of Biogeography , doi: 10.1111/jbi.12379.; 个人分类: 学术|15713 次阅读|4 个评论

代亚非李小勇: jiangdm 2011-10-15 21:17; 目录 1 代亚非对等网络信任机制研究 P2P网络信任机制综述 P2P十年：何去何从？ (代亚非学生) P2P 环境下的基于多种用户共享行为的防污染方案社交网络 2 李小勇可信网络中基于多维决策属性的信任量化模型动态信任预测的认知模型大规模分布式环境下动态信任模型研究自适应动态信任关系量化模型的研究基于机器学习的动态信誉评估模型研究基于行为监控的自适应动态信任度测模型 A Comprehensive and Adaptive Trust Model for Large-Scale P2P Networks 3 others P2P 网络信任管理研究综述一种融合凭证和声望的信任模型一种基于推荐的Web服务信任模型基于随机漫步的信任路径搜索算法 1 代亚非对等网络信任机制研究《对等网络信任机制研究》，李勇军，代亚非计算机学报，2010 摘　要　对等网络环境下的信任机制是作为一种新颖的安全问题解决方案被引入的，基本思想是让交易参与方在交易完成后相互评价，根据对某个参与方（主体）的所有评价信息，计算该主体的信任度，为对等网络中其他主体以后选择交易对象时提供参考．文中介绍了对等网络环境下信任的基本定义．深入剖析了信任机制与网络安全的关系，并讨论了信任机制的体系结构．根据信任机制研究的内容分别归纳总结了信任模型和信任推理方法的最新研究成果，并选取典型的信任模型进行了评述．最后探讨了目前研究中存在的问题，并展望了需要进一步研究的方向．关键词　对等网络；信任模型；推理方法；典型信任算法；网络安全 1 引言 P2P系统特点：匿名性、动态性和开放性等特点 P2P网络安全主要问题：如何实现一种机制将P2P网络中的不良用户进行隔离，规避此类用户带来的安全风险？信任trust与信誉reputation机制信任与信誉机制的主要步骤： 1）收集系统中节点间的历史交易记录 2）根据收集到的交易记录计算每个节点的可信度 3）依据节点的可信度决定是否进行交易．研究要点：（１）信任与信誉表示方法，如何表示节点的信任和信誉，是信任与信誉机制研究问题的核心组件；（２）信任与信誉计算方法，如何利用节点或者用户的历史交易信息评估其可信任的程度或信誉；（３）信任与信誉值存储方式，计算出的节点可信度在系统中如何存储，如何获取节点的信任与信誉值本文结构： 1) 阐述了信任与信誉的概念以及与网络安全之间的关系； 2) 重点依据信任与信誉研究的三个要点全面介绍了目前该项研究工作的最新成果； 3) 并对几种比较典型的信任与信誉机制进行了讲评； 4) 最后指出了目前研究工作中存在的一些问题，并对发展趋势进行了展望． 2 信任机制背景 2.1　基本概念信誉 vs 信任 1）信誉 objective, 被动 2)信任 subjective, 主动 2.2 信任机制与网络安全恶意行为采用的方法主要表现为：（１）策略性地提供恶意服务；（２）提交虚假评价；（３）虚假推荐信任数据攻击行为策略主要包括：（１）行为摇摆（２）合谋作弊（３）利用多账号进行的攻击 2.3　信任系统体系结构 i）集中式体系结构 ii）分布式体系结构 3 信任值表示方法 3.1 离散信任值 3.2 概率信任值 3.3 信念信任值 3.4 模糊信任值 3.5 灰色信任值 3.6 信任云 4 信任计算（推理）方法 4.1 加权平均法如eBay, EigenTrust等．借鉴社会网络中人之间的信任评价方法 4.2 极大似然估计方法基于概率的信任推理方 4.3 贝叶斯方法待推测参数指定的先验概率分布分为两种：Beta分布和Dirichlet分布 4.4 模糊推理方法 4.5 灰色系统方法 4.6 各种推理方法评述 5 典型信任模型 5.1 　eBay系统中的信任模型优点：算法简单易于实现，缺点：未考虑信任机制上下文以及对恶意评价的识别与惩罚．还存在中心点失效问题 5.2 EigenTrust算法与PowerTrust算法 EigenTrust：利用信任的传递特性，由直接信任值计算全局信任值的信任算法． PowerTrust算法从3个方面对EigenTrust算法改进：（１）可信节点集合的确定（２）迭代过程的收敛速度采用了向前看随机游走（Look-ahead Random Walk,LRW）策略，即每次迭代过程中，不仅考虑邻居节点的推荐信任值，而且考虑邻居的邻居的推荐信（３）实现机制上．PowerTrust借助DHT机制和LPH（Locality Preserving Hashing）函数实现动态发现Power节点的方法，使其能够适应节点的频繁加入和离开的动态环境．缺点：（１）计算信任值时没有考虑交易量大小，这容易使得恶意用户借助小额交易积累信任，而在大额交易上进行欺骗；（２）没有对恶意行为作出惩罚；（３）信任值没有体现评价的数量，恶意用户可采用多次正常交易掩盖其恶意行为． 5.3 PeerTrust算法计算直接信任值时需要考虑的５个因素：（１）反馈评价，计算信任值需要的最基本要素；（２）交易的数量；（３）提供反馈评价的节点的可信度；（４）与交易相关的因素，如交易时间、交易额度等；（５）与交易环境相关的因素 5.4 基于信誉和风险评价信任算法 5.5 Dirichlet信任算法 5.6模糊信任算法 5.7 灰色信任算法 5.8 基于云模型信任算法 5.9 各种模型比较 6 存在问题与展望 6.1 当前研究存在的问题 6.2 展望个人点评：这篇文章多读，可以综合对等网络信任机制研究.pdf P2P网络信任机制综述《对等网络信任机制研究》冯沁原代亚非， CCF通讯 2007-3 关键词： P2P 信任信任机制目的：通过对系统中的用户或资源进行评价来预测该用户或资源的未来行为，从而起到鼓励用户良性行为、打击用户恶意行为、辅助用户决策的作用本文诉求：从整体上对信任和信任机制的定义、构成与分类进行讨论，并针对P2P环境下信任机制的发展、问题和趋势进行分析，为人们选择适合自己具体应用的信任机制提供依据。 1 引言不良行为信任机制 2 信任的定义和分类 2.1 信任的定义信任定义 2.2 信任的分类 3 信任机制的构成和分类 3.1 信任机制的构成信任机制分为3部分：信息相关、计算相关和反馈相关 1．信息相关 ● 信息收集 ● 信息存储 ● 信息交流 2．计算相关（1）简单数学模型（2）传统数学模型 ● 概率模型 ● 模糊模型（3）社会网络模型（4）人工智能模型 3．反馈相关 3.2 信任机制的分类 4 P2P环境下信任机制的设计 4.1 P2P环境的特点 4.2 信任机制的设计目标 5 信任机制模型（1）使用信任传递性和矩阵迭代的EigenTrust; （2）已经部署并使用的基于对文件投票的Credence （3）在P2P文件共享系统中使用文件的平均保留时间来计算文件信任值的LIP （4）安全的信任机制架构TrustGuard 5.1 EigenTrust 5.2 Credence 5.3 LIP 5.4 TrustGuard 6 针对信任机制的攻击 6.1 背叛 1．基本背叛 2．策略摇摆 6.2 反馈 1．谎报反馈 2．伪造数据 6.3 重新注册攻击 6.4 合作攻击 7 结论和下一步工作个人点评：写得清楚，层次感强，值得学习 P2P网络信任机制综述.pdf P2P十年：何去何从？关键词： P2P 论文北一篇追踪性文章,写得很好,注意从会议中提取思路,作者从以下三方面论述从会议共收录P2P论文数量从研究课题内容来看从研究者来看在综合,作者提出P2P研究模式模式1“模型+近似算法” 模式2“测量+优化算法” 模式3“融合解法” 模式4“坚实系统” 模式5“逆向思维” 模式6“交叉应用” P2P十年何去何从.pdf P2P 环境下的基于多种用户共享行为的防污染方案蒋竞, 李勇军, 冯沁原, 黄鹏, 代亚非中国科学: 信息科学 2010年第40卷第10期摘要 P2P 环境下的文件污染问题威胁着系统的安全性和可用性, 甚至可能导致系统消亡. 当前的信誉机制和基于文件特征等防污染方案存在未考虑多种用户共享行为、难以获得大量原始数据和版本发布初期恶意欺骗等问题. 本文首次发现用户共享习惯差异性、用户特别长时间保留个别文件等多种用户共享行为, 并分析其对防污染方案的影响. 提出了基于多种用户共享行为的防污染模型, 减弱了多种用户共享行为干扰和版本发布初期恶意欺骗等问题. 设计了结构化P2P 网络下低开销的实现机制, 自动收集大量用户共享文件信息, 解决了难以获取大量原始数据的问题. 文中还给出了系统参数配置方案. 基于真实系统运行日志的模拟实验证明该方案能够准确、快速地区分出虚假文件, 降低虚假文件下载次数, 保证接近100% 的真实文件下载比例, 有效抵抗文件污染的攻击. 关键词: 对等网络文件污染用户共享行为 1 引言 P2P 文件共享系统文件污染问题信誉机制 and 基于文件特征的防污染方案 the organization of this paper: 1) 第2 节介绍相关工作. 2) 第3 节中发现多种用户共享行为, 并分析其对防污染方案的干扰. 3) 第4 节中详细介绍基于多种用户共享行为的防污染模型. 4) 第5 节中给出结构化P2P 网络下的实现机制. 5) 第6 节给出参数配置方法. 6) 第7 节中验证MUSB 方案的有效性. 7) 第8 节总结全文并介绍未来工作. 2 相关工作 P2P文件污染问题: solutions: 信誉机制其基本思想: 让参与用户评价交易, 然后将这些评价信息按照一定的算法进行计算, 从而得到用户或者文件的可信度, 为其他用户选择交易对象提供参考. 信誉机制主要包括: 基于用户的信誉机制 and 基于版本的信誉机制基于用户的信誉机制 -- EigenTrust -- TrustGuard -- RRM 基于版本的信誉机制 -- Credence 3 多种用户共享行为对防污染的影响 4 基于多种用户共享行为的防污染模型 5 基于多种用户共享行为的防污染实现机制 6 参数设置 7 实验分析 8 总结和未来工作 P2P环境下的基于多种用户共享行为的防污染方案.pdf 社交网络李勇军代亚非 CCF通讯 2010 年 3 月关键词：社交网络 1 社交网络概念 2 社交网络分类 3 社交网络历史 4 社交网络的主要研究问题社交网络.pdf 2 李小勇可信网络中基于多维决策属性的信任量化模型李小勇　　桂小林计算机学报摘　要　可信网络中的信任关系模型本质上是最复杂的社会关系之一，涉及假设、期望、行为和环境等多种因子，很难准确地定量表示和预测．综合考虑影响信任关系的多种可能要素，提出了一个新的基于多维决策属性的信任关系量化模型，引入直接信任、风险函数、反馈信任、激励函数和实体活跃度等多个决策属性，从多个角度推理和评估信任关系的复杂性和不确定性，用来解决传统量化模型对环境的动态变化适应能力不足的问题；在多维决策属性的融合计算过程中，通过信息熵理论确立各决策属性的分类权重，克服了过去常用的确定权重的主观判断方法，并可以改善传统方法由于主观分配分类权重而导致的模型自适应性不强的问题．模拟实验表明，与已有同类模型相比，该模型具有更稳健的动态适应性，在模型的安全性方面也有明显的优势．关键词　可信网络；信任量化模型；信息熵；多维决策属性１　引言动态协作模型静态信任机制: PKI (Public Key Infrastructure) Open problem: 大规模分布式应用的可信网络技术信任关系 the shortcoming of existing methods: -- 对影响信任量化的决策属性(Decision Factor,DF)考虑不全面 -- 计算OTD(Overall Trust Degree) the work of this paper: 提出了一个多ＤＦ的动态信任关系量化模型 -- 引入直接信任、信任风险函数、反馈信任、激励函数和实体活跃度等多个DF,从多个角度刻画信任关系的复杂性和不确定性 -- 2 相关工作信任管理: Blaze 1996 PowerTrust PeerTrust PET 3 信任关系模型的构建 3.1 相关问题的形式化定义 3.2 多维决策属性的计算衰减函数定义风险定义６激励函数定义为 3.3 基于信息熵的DF分类权重 3.4 相关实现算法 4 模拟实验与性能分析 4.1 实验设置 Netlogo 4.2 有效性评估 4.3 动态适应性评估 5 结论和下一步的工作可信网络中基于多维决策属性的信任量化模型.pdf 动态信任预测的认知模型李小勇, 桂小林软件学报 2010 摘要: 开放系统中的信任关系本质上是最复杂的社会关系之一,涉及到假设、期望、行为和环境等多种因子,很难准确地定量表示和预测.结合人类社会的认知行为,提出了一种符合人类心理认知习惯的动态信任预测模型:(1) 构建了自适应的基于历史证据窗口的总体可信性决策方法,不但克服了已有模型常用的确定权重的主观判断方法,而且可以解决直接证据不足时的可信性预测问题;(2) 使用已有的DTT(direct trust tree)机制进行全局反馈信任信息的搜索与聚合,以降低网络带宽消耗,增强系统在大规模分布式系统中的可扩展性;(3) 引入诱导有序加权平均(induced ordered weighted averaging,简称IOWA)算子的概念,建立了基于IOWA算子的直接信任预测模型,可以用来解决传统预测模型动态适应能力不足的问题.实验结果表明,与已有模型相比,该模型具有更稳健的动态适应性,在模型的预测准确性方面也有显著的改善. 关键词: 分布式系统;信息安全;动态信任预测模型;诱导有序加权平均算子信任管理开放环境(如网格、普适计算、P2P和Ad hoc等)中信任模型信任关系的复杂性、动态性和不确定性 = 信任关系的预测模型 Open problem: (1) 现有的信任预测模型在计算总体可信程度时,大多采用专家意见法或者平均权值法等主观的融合计算方法,致使预测结果带有较大的主观成分,影响了可信决策的科学性,而且缺少灵活性,一旦权值确定,将在实际应用中很难由系统动态地去调整它,致使预测模型缺少自适应性. (2) 现有信任关系预测机制大多通过基于信任链的广播方式在整个系统中进行反馈信任的搜索,从而导致在大规模的分布式环境下系统运算的慢收敛性和巨大的网络带宽开销,进而影响了系统的可扩展性. (3) 动态性是信任模型预测与评估的最大挑战,由于信任关系是一种随时间变化而动态衰减的量,也就是说,隔的时间越长,以前的信任值对现在信任预测的贡献就越小,而目前的文献大多对这种信任关系的时间衰减性刻画不足,导致了预测模型对环境的动态变化适应能力不足,进而影响了预测模型的准确性. 信任关系: the outline of this paper: 1) 第1节介绍一些相关工作的研究进展. 2) 第2节详细讨论基于认知计算的动态信任关系预测模型的构建过程. 3) 第3节通过模拟实验对本文模型的可行性和有效性进行分析. 4) 第4节对全文进行总结,并提出进一步的研究计划. 1 相关工作分析信任管理(trust management): Blaze 1996 信任关系预测模型: -- PTM(pervasive trust management) -- 基于向量(vector)机制的信任模型 -- 基于半环(semi-ring)代数理论的信任模型 -- Power-Trust -- PeerTrust -- PET -- PSM 2 动态信任预测的认知建模 2.1 自适应的基于历史证据窗口的总体信任度计算信任度(trust degree)获取方式:直接(direct)方式和间接(indirect)方式. 动态信任管理的主要任务: 如何有效地发现和抵御恶意节点攻击? 定义2. 总体信任度(overall trust degree,简称OTD) 图1为基于历史证据窗口的总体信任度计算的总体结构图, 计算总体可信程度: -- 直接信任与间接信任加权平均的方法 -- 自适应的方法 2.2 访问控制决策的形式化表示 2.3 基于DTT的反馈信任聚合机制直接信任树(direct trust tree,简称DTT)的概念定义4. IDT也称为反馈可信度(feedback trust degree,简称FTD), 2.4 基于IOWA算子的直接信任预测有序加权平均(OWA)算子: Yager 1988 诱导有序加权平均算子(induced ordered weighted averaging operator): Yager 2003 3 模拟实验及其结果分析 NetLogo comparison:Peer-TrustPETDy-Trust 3.1实验设置表2为部分实验参数 3.2预测模型的准确度评估 3.3模型动态适应性评估 4 结论麦库笔记：动态信任预测的认知模型.mknote 动态信任预测的认知模型.pdf 大规模分布式环境下动态信任模型研究大规模分布式环境下动态信任模型研究李小勇, 桂小林软件学报， 2007，综述摘要: 随着网格计算、普适计算、P2P 计算、Ad Hoc 等大规模的分布式应用系统的深入研究,系统表现为由多个软件服务组成的动态协作模型.在这种动态和不确定的环境下,PKI(pubic key infrastructure)中基于CA(certificate authority)的静态信任机制不能适应这种需求,动态信任模型是新的研究热点.分析了动态信任关系的相关概念、主要问题和研究方法;选取新的、典型的动态信任模型及其使用的数学方法进行评述,并进行了各种算法的比较性总结;分析了目前研究中的问题,并展望了其未来的发展方向.研究表明,动态性是信任关系量化与预测的最大挑战.今后的工作重点是对信任动态性的本质属性作进一步的理论研究,为实际应用提供坚实的理论基础. 关键词: 分布式系统;信息安全;动态信任模型;上下文信任管理基本思想：承认系统中安全信息的不完整性,系统的安全决策需要依靠可信任第三方提供附加的安全信息系统形态：封闭开放静态动态同构异构集中分布动态信任管理问题 1）度量 2）上下文相关 3）动态 4）主观 1 理解动态信任关系 1.1 信任定义: 信任定义: 信任度(trust degree) 定义: 直接信任度(direct trust degree) 定义: 间接信任度(indirect trust degree) 定义: 总体信任度(overall trust degree) 信任信任度 1）直接信任度 2）间接信任度 1.2 信任的动态性实体信任关系动态性和模糊性的6 个重要性质信任关系和信任关系的建模研究主要分为4 个方向: (1) 基于策略和凭证的信任关系(credential-based trust); (2) 通用模型的研究(general models of trust); (3) 基于声誉的信任关系(reputation-based trust); (4) Web 和信息资源中的信任关系(trust in websites and information sources). 信任的动态性：信任的动态性是信任评估和可信赖性预测的最大挑 2 动态信任关系建模与管理 2.1 动态信任关系的建模2 动态信任关系建模与管理 2.1 动态信任关系的建模 2 动态信任关系建模与管理 2.1 动态信任关系的建模动态信任关系建模与管理数学模型: (1) 信任度空间(trust degree space) (2) 信任值的获取(acquirement of trust value) (3) 信任度的评估或者进化(trust value evaluation or evolution) 2.2 动态信任管理的主要任务动态信任管理的主要任务 (1) 信任关系的初始化(initializing a trust relationship) (2) 观测(observation) (3) 信任评估(evolving trust) 2.3 动态信任本体论(ontology) 动态信任本体论(ontology) 3 典型模型及其评述 3.1 PTM (pervasive trust management model based on D-S theory) 较早研究普适环境下动态信任关系的模型 1）采用改进的证据理论(D-S theory)方法进行建模 2）信任度的评估采用概率加权平均的方法 PTM 主要优点是: (1) 信任推导和进化的规则体现了一种严格的惩罚性. (2) PTM 的信任模型也很好地体现了信任度随着时间和行为上下文的变化而增减的动态性; (3) 这是一个具体实现和应用的动态信任模型; (4) 没有复杂的迭代计算,适合普适环境下能源节约的应用需求,具有较好的计算收敛性和可扩展性. PTM 模型存在明显不足: (1) 信任模型中使用固定信任域,不能适应不同应用背景下模型的不同需求; (2) 不能处理部分信息和未知实体所引起的不确定性问题,没有风险分析及建模和信任之间的关系; (3) 算术平均获得间接信任度,没有考虑到信任的模糊性、主观性和不确定性. 3.2 Hassan’s model (trust model based on vectors) 基于向量机制的信任模型 3.3 George’s model(trust model based on semiring) George：提出了一种基于半环(semiring)代数理论的信任模型. 3.4 Sun’s model (entropy-based trust model) Sun：提出了一种基于熵(entropy)理论的信任模型 3.5 CBTM (a trust model cloud-based) 一种普适环境下基于云模型(cloud model)的信任模型 3.6 Dimitri’s model (Bayesian dynamic trust model) 基于Bayesian 网络模型提出了一种使用Kalman 信息过滤方法的动态随机估计模型 3.7 Song’s model (trust model based on fuzzy-logic theory) 3.7 Song’s model (trust model based on fuzzy-logic theory) Song ：提出了一种网格环境下的实体之间基于模糊逻辑的动态信任模型(fuzzy-trust model) 　　3 个组成部分: 　　　１）信任的描述部分　　　２）信任关系的评估(模糊推理)部分　　　３）信任的进化(更新)部分 8 Claudiu’s model (reinforcement learning model) 　　　Claudiu ：提出了一种P2P 环境下基于机器学习中强化学习方法的动态信任模型　　　特点：近期信任、长期信任、惩罚因子和推荐信任4个参数来反映节点信任度各种模型的比较动态信任模型存在问题: 　　(1) 信任关系定义的混乱性. (2) 信任模型的多样性 (3) 模型性能的评价困难. (4) 模型的实现问题. 展望个人点评：　　写得还好，但是有些虎头蛇尾。但是特别指出，该文文献部分索引存在较大问题，文章中索引与参考文献中文章经常对不上号。大规模分布式环境下动态信任模型研究.pdf 自适应动态信任关系量化模型的研究李小勇，张少刚计算机工程 2008-12 摘要：提出一个新的自适应动态信任关系量化模型。该模型在建立基于历史函数的直接信任计算方法和基于路径函数的反馈信任聚合模型的基础上，引入自信因子和反馈因子来自动建立和动态调节直接信任与反馈信任的权重。仿真实验结果表明，与现有模型相比，该模型能够有效提高可信决策的准确性。关键词：分布式处理系统；信息安全；动态信任模型 1 概述总体信任度: T =W ×D + (1−W)× I ，其中，D是直接信任；I 是反馈信任；W 和(1-W)分别为直接信任与反馈信任的权重； author's idea: 本文提出一个自适应动态信任关系量化模型。 -- 先建立基于历史函数的直接信任计算方法以及基于路径函数的反馈信任聚合模型， -- 然后引入自信因子和反馈因子两个参数来自动建立和动态调节直接信任与反馈信任的权重。 2 自适应动态信任关系量化模型的构建 2.1 直接信任度与反馈信任度担任角色的不同把主体分为3 种类型： (1)服务提供者(Service Provider, SP)； (2)服务请求者(Service Requester, SR)； (3)反馈者(Feedback Rater, FR)。反馈信任 -- hierachical degree 2.2 总体信任度的聚合定义4 自信因子定义5 反馈因子 3 模拟试验结果及分析定义6 用交互成功率(SSP)来说明模型信任评估的准确性，其定义如下： 4 结束语 the summary of author work: --提出一个自适应动态信任关系量化模型，建立基于历史函数的直接信任计算方法和基于路径函数的反馈信任聚合模型 -- 通过引入自信函数和反馈函数两个参数自动建立和动态调节直接信任与反馈信任的权重自适应动态信任关系量化模型的研究.pdf 基于机器学习的动态信誉评估模型研究陈菲菲桂小林计算机研究与发展摘要为在开放网络环境中建立资源消费者( 用户) 和资源提供者( 主机) 之间的信任关系, 提出基于机器学习的动态信誉评估模型1 模型中用户的信誉级别可以根据其行为和一些其他监测数据动态变化,而资源的信誉级别也可以根据用户对资源所提供服务的评价动态变化1 给出了用于生成评估规则和信誉级别的模糊信誉级别评估算法( FTEA) , 算法采用基于规则的机器学习方法, 具有从大量输入数据中自学习以获取评估规则的能力1 实验结果表明, 1000 组输入数据能够生成理想的规则库, 并且算法执行时间随输入判定因素数目成指数形式增长, 因此需要选择5~ 6 个因素和1000 个左右的样本数据以进行系统实现. 关键词机器学习; 信誉; 信誉级别; 模糊信誉综合; 网络安全信任 trust 信任 vs. 风险 author's work: 实现了一个基于机器学习的模糊信誉评估系统FTEs( fuzzy trust-level evaluating system) 1 信誉的相关数学描述 2 基于机器学习的动态信誉评估基于机器学习的模糊动态信誉评估系统FTEs (fuzzy trust-level evaluating system),图1 是FTEs 的结构图 2.1 FTEs 的工作方式定义 2.2 制定FTEs 中信誉级别的判定因素 2.3 模糊信誉级别评估算法(FTEA) 3 模拟实验与性能分析 3.1 FTEs 初始知识库生成基于机器学习的动态信誉评估模型研究.pdf 基于行为监控的自适应动态信任度测模型李小勇　桂小林　毛　倩　冷东起计算机学报 2009 摘要　大规模分布式系统中的动态信任关系模型本质上是最复杂的社会关系之一，涉及假设、期望、行为和环境等多种因子，很难准确的定量表示和预测．将粗糙集理论和信息熵理论结合起来，应用于开放环境下动态构建基于行为数据监控与分析的信任关系度测（度量与预测）模型．该方法直接从分析传感器监测到的动态数据入手，针对影响信任的多个度测指标进行自适应的数据挖掘与知识发现，从而改变了传统的信任关系建模思路，跳出了传统信任关系建模过程中各种主观假设的束缚，并克服了传统模型对多维数据处理能力不足的问题．实验结果表明，与已有模型相比，新模型能够快速准确地实现开放分布式环境下实体的可信性判别，而且具有良好的行为数据规模的扩展能力．关键词　信息安全；动态信任模型；粗糙集；信息熵１　引　言 PKI(Public Key Infrastructure)静态信任机制动态信任管理: 网络安全技术 + 行为可信研究意义： Related work: --PowerTrust 不足：粗糙集理论 + 信息熵理论: 2　动态信任决策问题的形式化描述图１为本文基于行为数据监控的开放系统信任管理系统结构: definition: 总体信任度 (Overall Trust Degree,OTD) 3 行为数据的获取与预处理获取行为的方法：（１）利用网络流量检测与分析工具，例如Bandwidthd．（２）利用目前已有的入侵检测系统，例如RealSecur，（３）利用审计跟踪系统产生的系统事件记录和实体行为记录，包括系统日志、审计记录、应用程序日志、网络管理日志截获的用户数据包以及相应的操作记录．（４）专门的数据采集工具，如Cisco NetFlow Monitor．（５）自开发的软硬件系统本文设计和部署了两种类型的软件传感用来获取系统中实体的行为数据: (1) 监测传感器 (monitoring sensor): 负责采集软件和计算资源交互过程中的常用行为参数 (2) 计算传感器 (calculating sensor): 获取作业执行的成功率、错误修复率、资源站点自防御的能力以及平均无故障时间(MTBF)等 My Q: It is only author's assumption! 4 自适应的动态信任度测方法概率统计 4.1 信任度测知识表达系统的构建 4.2 分类知识获取算法(CKAA) 算法１．　分类知识获取算法(Classification Knowledge Acquisition Algorithm,CKAA) 4.3 分类权重计算方法（CWCA）事件的信息熵: 一个事件的不确定性或信息量的量度算法２．分类权重计算算法(Classification Weight Calculated Alogirthm,CWCA) 5 实验与性能分析此性能的评估主要从２个方面进行考查：（１）模型的准确性，检查所提出的度测模型与算法是否能提供准确和一致的可信性判别；（２）输入行为数据规模的可扩展性， 5.1 实验方法两个衡量算法预测准确性的指标: 5.2 实验结果分析 5.3 进一步讨论（１）动态自适应性问题（２）计算的效率问题 6 结论与下一步工作 I comment: this paper present a novel trust model, which incorporate Rough set with information entropy. I admire author, since they are the essays' professional writer. 基于行为监控的自适应动态信任度测模型.pdf A Comprehensive and Adaptive Trust Model for Large-Scale P2P Networks Xiao-Yong Li (李小勇) and Xiao-Lin Gui (桂小林) JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 24(5): 868{882 Sept. 2009 Abstract Based on human psychological cognitive behavior, a Comprehensive and Adaptive Trust (CAT) model for large- scale P2P networks is proposed. Firstly, an adaptive trusted decision-making method based on HEW (Historical Evidences Window) is proposed, which can not only reduce the risk and improve system efficiency, but also solve the trust forecasting problem when the direct evidences are insu±cient. Then, direct trust computing method based on IOWA (Induced Ordered Weighted Averaging) operator and feedback trust converging mechanism based on DTT (Direct Trust Tree) are set up, which makes the model have a better scalability than previous studies. At the same time, two new parameters, confidence factor and feedback factor, are introduced to assign the weights to direct trust and feedback trust adaptively, which overcomes the shortage of traditional method, in which the weights are assigned by subjective ways. Simulation results show that, compared to the existing approaches, the proposed model has remarkable enhancements in the accuracy of trust decision-making and has a better dynamic adaptation capability in handling various dynamic behaviors of peers. Keywords P2P networks, dynamic trust model, IOWA operator, adaptability 1 Introduction 2 Related Work 3 Design of the CAT Model 3.1 Overall Framework of OTD Calculation 4 Evaluation and Comparison 4.1 Simulation Setup 一种面向大规模P2P网络的综合自适应信任模型.pdf others P2P 网络信任管理研究综述张光华张玉清计算机科学 2010-9 摘要建立信任管理机制对于确保P2P 网络中用户的利益, 确定资源或者服务的有效性具有重要意义。阐明了 P2P 网络信任管理中的基本概念, 剖析了P2P 网络信任管理系统的基本组成及各个部分中的关键问题, 在此基础上介绍了P2P 环境下的典型信任管理系统, 讨论了和其他学科的融合发展。最后, 对进一步研究方向如统一描述框架和分析评价标准作了展望。关键词 P2P, 信任管理, 框架, 标准 1 引言 P2P P2P 网络的本质属性: 分布式、匿名性和自治性 P2P 网络信任管理机制的任务: 本文基本目标: 阐明P2P 网络信任管理中的基本概念, 深入剖析P2P 网络信任管理中的关键问题, 并对已有的相关工作进行全面分类和总结, 为P2P 网络信任管理的进一步研究提供帮助和选择。 the outline of this paper: 1) 第2 节介绍P2P 网络信任管理中的基本概念; 2) 第3节讨论P2P 信任管理中的关键问题; 3) 第4 节列举具有代表性的信任模型; 4) 第5 节总结P2P 网络信任管理与其他学科的融合; 5) 最后指出了我们今后的研究方向。 2 P2P 网络信任管理中的基本概念定义1( 节点, peer, ag ent ) 定义2( 信任值, t rust value) 定义3( 声誉值, r eputation value) 可靠性 vs. 声誉值 vs. 可信度 3 P2P 网络信任管理中的关键问题 4 个功能: 1) 收集每个节点的信任信息; 2) 基于可靠性的期望值进行信任评价, 选择一个可靠的交易节点; 3) 根据交易情形, 更新相关的信任信息; 4) 对恶意节点进行惩罚, 对善意节点进行奖励。 3. 1 收集信任信息的关键问题 3. 1. 1 节点标识和信任初始化 Whitewashing 行为: 某些节点在P2P 网络中受到惩罚后, 立即退出系统, 然后以新标识再次登录到P2P 网络 3. 1. 2 信任信息的存储和传输基于DHT( Distr ibuted H ash Table, 分布式hash 表) 的P-Grid 存储机制 P2PRep: 3. 1. 3 行为类型 3. 2 进行信任评价的关键问题 3. 2. 1 信任信息的收集范围 3. 2. 2 推荐者的可信度 3. 2. 3 信任的模糊性和动态性 3. 2. 4 可靠性的评价方法 3. 2. 5 可靠性的表示形式 3. 2. 6 节点选择 3. 3 激励和惩罚搭便车现象 4 典型的P2P 网络信任模型 4. 1 非群组模型 4. 1. 1 用于P2P 电子商务的典型模型 1) PeerT rust 2) FuzzyTr ust 4. 1. 2 用于P2P 文件共享的典型模型 1) P2PRep 和XRep 2) Eig enTrust 3) SWRT rust 4) A Reputation- based Tr ust Manag ement System for P2P systems 4. 1. 3 用于信任信息管理的典型模型 1) Manag ing T rust 2) NICE 4. 2 群组模型 5 P2P 网络信任管理与其他学科的融合 I comment: it worthwhile reading. I want to write a survey to sort current approach, which also provide idea forfuture work P2P网络信任管理研究综述.pdf 一种融合凭证和声望的信任模型单明辉,倪宏，曾学文，贡佳炜，牛尔力计算机工程 2009-4 摘要：提出一种融合凭证和声望的信任模型。该模型以声望式信任管理为基础，以凭证和声望值的相关性为依据，动态自适应地计算凭证的信任值，并将凭证信任与声望进行融合得出综合信任度。仿真表明，该方法可以大幅提高信任计算的精度，尤其适用于服务提供者的交互历史数据较少的环境。关键词：信任管理；声望；凭证信任管理模型按技术可分为2 类： -- 基于凭证(credential): 信任管理使用安全策略和凭证建立用于实体间授权的信任关系，其系统的输入主要是代表授权或身份等的凭证，如属性证书等，信任的建立源自于输入的凭证，并通过预先制定的信任策略制定信任关系，代表系统有KeyNote,PolicyMaker 等。 -- 基于声望(reputation): 输入主要是交互一方在交互后对交互结果的反馈或对另一方的评价，其主要研究内容包括信任信息的搜集以及用于信任评估的数学模型，代表系统有BetaReputation, TRAVOS等 FIRE: 2 融合式信任管理模型 2.1 模型总体结构总体结构分为 3 个部分：声望子系统，凭证子系统和信任综合子系统。系统结构如图1 所示。 2.2 声望子系统节点可分为 3 种：服务提供者(provider)，评价者(rator)，用户(user)。贝叶斯估计方法(Beta 分布) 权重: 指数时间衰减因子 or 加时间窗 2.3 凭证子系统凭证子系统内部可分为训练模块和计算模块2 部分，其结构如图2 所示。 2.4 综合子系统 3 仿真与性能分析 4 结束语 I comment: auhtor idea is equal to reputation model + credentoal model 一种融合凭证和声望的信任模型.pdf 一种基于推荐的Web服务信任模型梁军涛，蒋晓原计算机工程 2007-8 摘要：借鉴信任管理概念和Beth信任模型，提出了一种基于推荐的新型自适应Web服务信任模型，给出了相应的信任度和信任度合成的方法，并针对恶意推荐采取惩罚机制。实验证明，该模型可以使得实体的信任度能根据服务经验自适应地变动，并能根据惩罚机制对欺骗的实体进行惩罚，从而在一定程度上减少访问到恶意实体的次数。关键词：Web服务；信任模型；惩罚机制 1 概述信任的定义为：信任是实体根据经验，在特定环境中和特定时间下，对其它实体未来行为的主观期望 Blaze Beth 2 Web服务信任模型 Web服务模型采取SOA(service oriented architecture)模型 SOA模型中一般包括3个角色：服务提供者(SP)，服务请求者(SR)和服务注册器(SB)。角色之间主要有3个操作：注册，查找和绑定。 3 基于推荐的信任度评估模型定义1(直接信任) 定义2(推荐信任) 3.1 推荐信任的合成信任值传递在推荐信任传递过程中包括2个值的传递： 1-)一个是直接信任关系的传递，这里传递的信任根据对目标实体的直接经验得到； 2-)另一个是对推荐实体的信任值，这个值可以通过中间实体的相互信任关系推导得出。多条推荐路径如何选择相应的权重? Beth模型: 简单算术平均方法综合多个不同推荐路径信任值，即每条推荐路径的信任值在推荐信任合成时权重是一样的偏移度权重 3.2 总体信任值总体信任值 = 直接信任值 + 合成的推荐信任值 3.3 惩罚机制恶意推荐: 误差Δ生成反馈，推荐信任是否是恶意推荐由阈值θ确定 4 仿真与结果分析 I comment: this paper is similar to 吕建 article, except that this paper consider the punish mechnism and a wegith for multi-trust path. 一种基于推荐的Web服务信任模型.pdf 基于随机漫步的信任路径搜索算法刘智勇，郑滔，伍伟绩计算机工程 2009 摘要：传统的局部信任模型采用简单洪泛的方法获得信任信息，针对该方法效率较低且对网络资源消耗较大的问题，提出一种基于随机漫步的搜索信任路径的算法。通过以往遗留的路径信息改进搜索，可有效减少多余信息的数目和信任回路的出现。该算法适用于对网络资源占用比较敏感的环境。关键词：随机漫步；信任管理模型；信任路径搜索 1 概述局部信任获取模型信息2 种途径： -- 一是通过向其他节点洪泛信任请求获得 -- 采用DHT 机制的P2P 存储系统如Chord 等获得 author's idea: 基于随机漫步(random walk)的局部信任路径搜索算法 2 相关工作全局信任模型 EigenTrust: 通过节点间信任度的迭代来实现信任的传播，从而为每个节点计算全局信任值局部信任模型: PeerTrust 3 基于随机漫步的信任路径搜索算法 3.1 算法思想 author's idea:较优的多条路径。本文用以下2 个标准来判断一条信任路径的优劣： (1)推荐信任值。推荐信任值越高的路径，在合成最终结果时所占的比重越大。 (2)路径长度。信任路径越短，在信任传递的过程中误差越少，被欺骗的可能性也越小。定义信任路径信息 3.2 信任路径信息的更新 3.3 信任回路 3.4 多级信任阈值 4 实验结果及分析 I comment: I don't watch the application of random walk in this paper: 基于随机漫步的信任路径搜索算法.pdf; 个人分类: CHI|1 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: inference

相关帖子

相关日志

关闭安全验证