科学网 › 标签 › 阈值

标签: 阈值

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

难以复原的南极冰盖: 热度 1 xuxfyuwp 2020-10-19 23:09; 《自然》杂志 9 月发表了朱利叶斯·加伯（ Julius.Garbe ）等人关于气候变化对南极冰盖影响的最新研究成果。南极冰盖含有地球一半以上的淡水资源，因此成为气候变暖背景下引发全球海平面上升的最大潜在因素。能否维持南极冰盖的长期稳定，将决定地球沿海城市和和人类文化遗产的命运。温度变化会引起冰与大气、海洋和固体地球之间相互作用的潜在非线性增长，但迄今为止，尚缺乏针对全球变暖不同量值引发南极冰盖变化的完整、细致分析。在这项研究中，朱利叶斯·加伯等人揭示了南极冰盖存在的多重温度阈值，超过这些阈值，冰盖流失将是不可逆的。使用历史数据和平行冰盖模型，可以发现，当全球变暖水平比工业化前温度高约 2 ℃时，由于海洋冰盖出现不稳定，南极洲西部处于长期局部塌陷；当温度高于工业化前水平 6 ℃至 9 ℃之间时，则会触发当今冰量损失 70 ％以上，这主要是由冰盖高度降低引起的；若温度比工业化前高 10 ℃以上，南极洲冰盖将几乎消失殆尽。冰盖对温度的敏感度在工业化前增温 2 ℃范围内，每增加 1 ℃会导致海平面上升 1.3 米；而当升温 2 ℃至 6 ℃之间时则几乎翻倍，每上升 1 ℃海平面增加 2.4 米；在温度升高 6 ℃至 9 ℃之间时，海平面增长速度达 10 米 / ℃左右。这些阈值都具有增加的滞迟效应，即便温度恢复到当前水平，也无法重现现存的冰盖构造。特别是南极西部冰盖将很难恢复到当前的程度，除非温度下降到较工业化前低 1 ℃的水平。研究结果表明，如果《巴黎协定》不能落实，南极对海平面上升的长期贡献将迅速增加，超过所有其他来源。《中国气象报》; 个人分类: 文章|4662 次阅读|1 个评论

关于所谓水资源安全国际标准的说明: 热度 3 jiasf 2015-11-22 05:17; 前几天在关于中国缺水城市个数的讨论中，几位朋友论及国际水资源安全标准，陈昌春教授也发过一篇相关博文，资料很丰富（ “国际公认的人均1700立方米的水资源紧张警戒线”是如何公认的？）。我2002年曾在《地利科学进展》上发表一篇文章“ 区域水资源压力指数与水资源安全评价指标体系 ”，初步做了介绍，现整理如下，供参考和讨论。反映人类对水资源压力（ water resources stress ）大小的指标，或衡量一个国家或地区水资源稀缺程度的指标，可以较粗略地反映一个国家或地区的水资源安全程度。目前国际上通用的宏观衡量水资源压力的指标有 2 个：一是区域人均水资源量，二是水资源开发利用程度。但这些指标的使用有两个方面需要注意：一是这些指标的建立都有假设条件，二是这些指标存在一些弱点。 1 人均水资源量 1989年，瑞典著名水资源学者 Falkenmark 等人根据100万方水资源供养的人口数量，把水资源压力分成5个等级：0-100、100-600、600-1000、1000-2000、2000+（人／百万方水资源）。1992年他们正式提出了用人均水资源量作为水资源压力指数（ Water Stress Index ）以度量区域水资源稀缺程度。他们根据干旱区中等发达国家的人均需水量确定了水资源压力的临界值：当人均水资源量低于 1700方/ 人年时出现水资源压力（ Water Resources Stress ） , 当人均水资源量低于 1000方/人年时出现慢性水资源短缺（ ChronicWater Scarcity ）。这一指标简明易用，只要是进行过水资源评价和有人口统计资料的地区，都可以获得人均水资源量数据。而且按用水主体人口来平均水资源符合公平合理的原则。但应用这一指标时应当注意一些限制条件，否则容易产生歧异。这一指标实际上是针对干旱区以工业为主的经济结构提出来的，对以灌溉农业为主的地区根本不使用。例如新疆尤其是南疆是水资源很紧张的地区，但一些人却根据该地区人均水资源量超过 2000 m 3 / 人而得出新疆不缺水的结论。人均水资源量作为衡量水资源稀缺程度的指标，还有以下几个弱点：第一，没有考虑生态用水的差异。在可持续发展的原则下，尤其要强调：在人均可更新淡水资源中，还包括一部分为维持生态平衡所需要的生态用水，这部分水量人类不能耗用。由于不同的地区生态用水占水资源总量的比例很不相同，人均水资源量并不反映人均实际可用的水资源。对于干旱内陆区，人类生活和生产用水必然挤占原来的湖泊、湿地等生态用水，应该受到严格控制，即在总水资源量中，必须保留相当一部分作为天然生态用水，否则就会出现河湖干涸、植被衰退、沙漠扩张等恶果。所以为了更合理，人均水资源量的计算应该扣除生态用水，而只计算人类生活、生产可耗用的那部分水资源量。第二，只考虑水资源的供给方面，而没有考虑水资源的需求方面。实际上水资源的稀缺程度必须从供给和需求两个方面综合来考虑，具体来说应考虑产业结构对需水的影响。如果经济结构以灌溉农业为主，则人均所需的水资源量必然较大；如果以耗水少的服务业为主，则人均所需的水资源量较少。所以由于产业结构的差异，人均水资源量供给相同的地区，可能缺水程度很不相同。第三，只考虑水资源数量而没有考虑水资源的质量。人均水资源量较高的地区也可能因为水质问题例如水被污染而缺水，例如前几年安徽省蚌埠市水厂因为水源淮河被污染而停产，全城失去供水来源。第四，只考虑数量的多少而没有考虑水资源开发利用的难易程度。实际上一些人均水资源量很高但开发很难的地区也存在缺水现象，例如我国西南的高山地区和喀斯特地区。第五，只考虑总量而没有考虑水资源的时空分布。虽然多年平均人均水资源量很高但年内年际分配不均的地区，在枯水季节、枯水年份也存在缺水现象。水资源的空间分配也是一个问题。如果以中国为评价单元，则按人均水资源量指标中国是不缺水的（中国人均水资源量 2300 m 3 ，大于缺水临界值 1700方／人年），但如果以中国北方地区或华北为评价单元（华北海河流域人均水资源量低于 400 m 3 ），则中国是缺水的。所以评价区域的大小对评价结果有很大影响。最好是按水资源可以调配的流域作为空间单元来评价。 2 水资源开发利用程度水资源开发利用程度定义为年取用的淡水资源量占可获得的（可更新）淡水资源总量的百分率（ water use intensity，withdrawal to availability ratio ）。Raskin 等人1997年提出用这一指标作为水稀缺指数或水脆弱指数。世界粮农组织、联合国教科文卫组织、联合国可持续发展委员会等很多机构都选用这一指标作为反映水资源稀缺程度的指标：当水资源开发利用程度小于 10% 时为低水资源压力（ low water stress ）；当水资源开发利用程度大于 10% 、小于 20% 时为中低水资源压力（ moderate water stress ）；当水资源开发利用程度大于 20% 、小于 40% 时为中高水资源压力（ medium-high water stress ）；当水资源开发利用程度大于 40% 时为高水资源压力（ high water stress ）。这一指标的阈值或标准，系根据水资源开发利用率与水生态环境问题的对应关系的经验确定。 Falkenmark and Lmdh (1976), Szesztay (1970), Kulshrestha (1993) and Strzepeket al. (1996)等人曾经研究总结出水资源开发利用率20%是一个重要的临界值。其他临界值是 Raskin 等人根据有关文献确定的。水资源开发利用程度作为衡量水资源稀缺程度的指标，比人均水资源量指标优越的地方是隐含考虑了生态用水，认为人类对水资源开发利用程度越高，水系统及相关自然生态受到的压力就越大。但它也有限制或弱点：第一，水资源开发利用程度与水资源紧缺程度并不完全对应。水资源开发利用程度低并不一定意味着水资源不紧缺或水资源利用效率高。在经济发展水平落后或水资源开发利用条件差的地区，尽管水资源很紧缺但水资源开发利用程度也可能很低。第二，对大的区域进行评价时，这一指标不能反映水资源开发利用强度的时空差异。第三，所需资料要求较高而不易获取。计算水资源开发利用程度除了需要水资源量和人口统计数据之外，还需要水资源开发利用评价资料。事务总是复杂的，但听众总希望听所谓简单清晰的表述，总避免不了在一些场合要用简单的指标表述复杂的事务。因此，归纳的指标或标准虽然简单了点，但也是有用的，关注是要应用在适用的地方。不该用的地方用了就是用的人的问题了。 http://www.unesco.org/water/wwap/wwdr/index.shtml#indicators Falkenmark, M., J. Lundquist and C. Widstrand (1989), “Macro-scale Water Scarcity Requires Micro-scale Approaches: Aspects of Vulnerability in Semi-arid Development”, Natural Resources Forum, Vol. 13, No. 4, pp. 258–267 Malin Falkenmark and Carl Widstrand,Population and Water Resources: A Delicate Balance, in Population Bulletin (PopulationReference Bureau, Washington, D.C., 1992), p. 19. Raskin, P, P Gleick, P Kirshen, G Pontius, and K Strzepek. Waer Futures: Assessment of Long-rangePatterns and Prospects. Stockholm, Sweden: Stockholm Environment Institute, 1997. Robert Engelman, Pamela LeRoy. Sustaining Water: Population and the Futureof Renewable Water Supplies. Population Action International, Washington,D.C., 1993: pp. 18-22.; 个人分类: 水是杂谈|11784 次阅读|5 个评论

citespace共引系数CCV涵义: mpcer 2014-9-2 00:52; CCV的计算公式为：，其中cc 文献 i 与文献 j 的共引次数， c 和 c 是各自被引次数。; 个人分类: CiteSpace|5724 次阅读|0 个评论

转基因大米背后的立法缺位: 热度 7 bioxncai 2014-7-28 23:19; 这几天，随着CCTV13频道7月26日23点20分播出“追查转基因大米”节目，转基因话题再次被炒热，刚刚看到在南京电视台18频道老吴韶韶节目里，老吴也在讨论这个话题。转基因食品究竟能不能吃呢？我们知道，只要是国家批准的转基因食品，事先都已经经过了安全性实验确认是安全的。所以答案是，国家已经批准的转基因食品能吃！有句老话：没有规矩，不成方圆，转基因也不例外，也应该立规矩，以保证转基因科学研究和产品的推广应用健康发展，让转基因技术更好地造福人类，因此对转基因进行规范管理是必要的。央视的这档节目除了可能让很多人对转基因食品增加困惑，或者被反对转基因人士利用来进行反转基因宣传外，也确实提醒我们对转基因的管理还有很多欠缺和不足，如果更深入地思考的话，就会发现，立法的滞后才是问题的根源。想当年，抗虫转基因水稻刚刚出现的时候，有人去偷科研单位试验田的种子，似乎不算什么罪过。直到现在，这种状况似乎也没有什么改变。例如前不久境外组织绿色和平在海南偷窃科研单位试验田的转基因水稻种子，科研人员立即到派出所报案，结果是不了了之，据说没有什么法律可以惩处这种行为。按照国人的习惯思维，几粒种子能卖几个钱？科研人员解释说这是科研的种子，有人就可以反问：你要惩处偷“科研的种子”的人，立法的依据是什么呢？所以最后的结果就是，派出所不立案，让偷种子者逃之夭夭。这种法律法规的滞后，造成了管理上的混乱，再加上管理上的欠缺，成为转基因水稻种子扩散的一个重要原因。当然现在及时补充有关的法律法规，亡羊补牢为时不晚。国外对食品中转基因成分的混杂已经有了相应的管理办法，可以借鉴。例如欧盟，对已经被欧盟批准的转基因成分，食品中含量不超过0.9%，就不必标识为转基因食品；如果别国已经批准的转基因成分（通常会得到欧洲食品安全局的正面评价），食品中含量不超过0.5%也是允许的；如果不符合前述条件，目前欧盟跟美国达成的共识是，食品中含量不超过0.1%也不会退货。对于转基因标识的阈值，从美国的无需标识，到欧盟的0.9%以上、日本的5%、韩国的3%以上标识，有多种不同的数值。中国的情况令人费解，中国没有阈值规定！这就意味着零容忍了，也就是说只要测出一点点都不允许，这是很奇怪的事情，或者说不科学。试想，我们的大米中都有农药残留，国家规定只要农药残留不超过阈值就是合格的，人就能吃，就能卖，也没有说测出一点点农药残留，商家就犯法了。其实我们天天就在吃有农药残留的大米，只不过含量没有超过阈值。有了阈值规定，管理才有依据，否则央视报道的那些据说查出含有转基因成分的大米，含量多的应该处罚，含量很少的，也要处罚吗？我们知道，法官判案要有一个量刑标准，不可以胡乱判决，例如个人受贿数额就有10万元、5万元、5千元等几个数量界限，对转基因大米的管理也应该有数量标准，道理是一样的。可是，现在中国还没有转基因标识的阈值规定，如何管理就成为难题了。所以，国家应尽快出台转基因标识的阈值规定，以解决无意或有意混杂转基因成分食品处罚的数量依据问题。附录1：（来源 http://blog.sciencenet.cn/blog-642008-813723.html ）王大元 2014-7-22 14:41 讲一下什么是LLP---Low Level Presence。这是在欧盟对混杂有美国没有批准的转基因作物和食品退货后出现的术语（大概也就4年左右）。欧盟原来的规定是所有没有批准的转基因食品和饲料都不许进口的。但美国批准的速度是6-12个月，欧盟是1-2年，所以有很多美国没有批准的转基因食品和作物都没有被欧盟批准。而美国是混收混加工混出口的，免不了会有没被批准的转基因作物混杂在被批准的转基因食品和作物中出口。欧盟开始正经其事执行器零容忍政策，把混有少量的没有被批准的转基因作物成批（船）退回，食品方面，2000-2012年，欧盟退回的转基因食品198批，其中在2009-2012一年就发生退货138批，美国因为违规被退货50余批次，但对大豆来说，美国出口商吃定你欧盟非买不可，于是羊毛出在羊身上，第二年就把出口到欧盟的大豆价格加价，把去年的损失找补回来，几年下来，美国出口欧盟的大豆价格飙升2倍，欧盟苦不堪言，主动找美国谈判处理这个问题，美国提出如果混杂的没有批准的转基因作物的含量在0.1%以下，欧盟不得退货，欧盟只好照单接下。所以2011年后，欧盟被迫制定新的进口转基因标识标准（Regulations 1829/2003 and 1830/2003），对欧盟没有批准的转基因作物，只要含量在0.1%以下，也可以进口做食品和饲料；同时，含转基因成分的饲料不要标识了（参见： http://www.agrogene.cn/info-1071.shtml ）也就是说欧盟现在的大豆饲料，几乎找不到非转基因的大豆了，欧洲麦当劳原来保证其牛肉饼绝对是非转基因饲料喂出来的牛肉，现在也做不到了，所以麦当劳今年初宣布他在欧洲的牛肉汉堡中的牛肉不再是非转基因饲料喂出来的了（国内主流媒体人民日报都报道了这个消息）。当然，麦当劳中国的牛肉汉堡肯定是转基因大豆饲料喂出来的，张掖市委书记不许转基因食品上市，但允许麦当劳的转基因牛肉饼敞开卖，是一件非常滑稽的政策。附录2：（来源： http://blog.sciencenet.cn/home.php?mod=spaceuid=203436do=blogid=513404 ）欧盟对于已批准的转基因生物阈值定为0.9%; 对于已经经过欧洲食品安全局正面评价只是还没有审批的转基因生物，阈值暂定为0.5%，对都未批准的转基因产品未规定容忍阈值。附录3 受贿罪量刑标准（来源：http://www.66law.cn/topic2012/zxshzlxbz/92434.shtml） 1 、个人受贿数额在10万元以上的，处10年以上有期徒刑或者无期徒刑，可以并处没收财产;情节特别严重的，处死刑，并处没收财产。 2 、个人受贿数额在5万元以上不满l0万元的，处5年以上有期徒刑，可以并处没收财产;情节特别严重的，处无期徒刑，并处没收财产; 3 、个人受贿数额在5千元以上不满5万元的，处1年以上，7年以下有期徒刑;情节严重的，处7年以上10年以下有期徒刑;个人受贿数额在5千元以上不满1万元，犯罪后有悔改表现、积极退赃的，可以减轻处罚或者免矛刑事处罚，由其所在单位或者上级主管机关给予行政处分。 4 、个人受贿数额不满5千元，情节较重的，处2年以下有期徒刑或者拘役;情节较轻的，由其所在单位或者上级主管机关酌情给予行政处分。情节较重，是指犯罪手段狡猾恶劣;行为人既贪赃又枉法;受贿行为给国家造成严重损失;或者是累犯、共犯中的主犯;受贿后又参与、支持其他犯罪活动：订立攻守同盟，销毁罪证，拒不坦白退赃;在对外活动中，向外商索贿受贿等。情节较轻，一般是指为他人谋取的利益没有违反有关规定;行为没有给国家或集体造成严重损失;案发后坦白交待事实经过，并退了赃款;或者有自首、立功表现等。 5 、对多次受贿未经处理的，按照累计受贿数额处罚。附录4 《食品安全国家标准食品中农药最大残留限量》(GB2763-2014) 食品安全国家标准食品中农药最大残留限量（GB2763-2014）.pdf; 1476 次阅读|26 个评论

[转载]为小波包变换降噪经典的试验而宽容些待sure: SciteJushi 2014-6-30 10:52; 原载 http://blog.sina.com.cn/s/blog_729a92140102uwlk.html 进入小波工具箱后，“SURE”,是令人不舒服的东西之一。某种阈值处理，而已，若属居士写的东西，不被喜欢就拉倒。但它与“名校名家”、“无偏”、“自适应”、“最佳”相关联，却易使人面临混乱。《小波工具箱中 sure不比shannon更危险吗》 (2013-09-16)称：可以肯定，现在 Matlab的主要问题不在于“Shannon”本身。后来《改善Matlab的小波包处理的一个简单例子》（2013-12-14）已表明：Shannon熵本身，是可以使用的，人们常用它是不奇怪的，虽然Wavelab的作者Dr.Donoho等质疑了其合理性、认为它最差，也许它确实有不足。那两个熵准则的Matlab的定义式中，都有对“未取模值”的数据的直接取平方的运算，表明未准备复信号的处理。当然，把复信号的实部和虚部分开处理，是一种方法，但是，小波理论，实际上一般使用复数域、复信号空间。早在Matlab小波工具箱诞生之前，小波包基系数的Shannon熵的计算表达式，就常有数据取模和能量归一化运算。然而，工具箱的文档资料中，一直没有采用这些。小波包变换用的那个SURE阈值的计算形式，不如普通离散小波变换降噪中的rigrsure似的繁琐，而类似sqtwolog的计算。虽然，普通的小波变换，只是小波包变换树中的一个局部，但是两个阈值计算相似而不相同。这里，反映了Dr.Donoho的小波包降噪的一个基本特点，它与Tpwp循着不同的思路（不论是非）。按Matlab-R2011a的帮助文档所述，把它用于一个可与“Shannon”并列的最佳小波包基的选择准则，这很抬举了，所以也使其不得不面临信号定标和作为代价函数的那种一般问题的拷问。现在宽容退步。依据用户手册，可认为它是只为降噪而设计的。即使如此，有同样问题：实际噪声标准差，和要求输入的阈值参数，都乘以同一个适当的常数后，类似《用Matlab的小波包变换试验能量阈值降噪方法》（2014-06-26）中那样，结果会怎样？可能试一试，但是注意到，最早和最新的手册都称：在白噪声的方差为“1”时，其工具箱的小波包降噪的性能良好（For now, suffice it to say that this method works well if your signal is normalized in such a way that the data fit the model x ( t ) = f ( t ) + e ( t ), where e ( t ) is a Gaussian white noise with zero mean and unit variance.）。所以，直接再厚道些，就使试验中的实际噪声标准差只为1！要求用户对被处理数据用噪声定标，也不一定过分。当然，这已略使人不自在，因为，既如此，如果有了被处理信号时，阈值实际也就定了，那么，真正的SURE准则，实际无需其它“输入参数”。干脆，由工具箱的函数ddencmp，自动确定降噪参数。依据手册和帮助文档的长期的内容重复，可以假定：SURE、不寻常的代价准则、Donoho、自动设置参数的函数ddencmp、小波包降噪和压缩的函数wpdencmp、试验信号生成函数wnoise、常见数据长度、滤波器选择，在小波工具箱中应该已经磨合为一体了，可以构成小波包降噪的“金标准”。从可选基的数目、对DFT的频率分辨率的逼近方面看，在累积误差、存储空间、时间开销都允许时，分解越深的小波包处理，对不同信号的自适应性就越强。但是，在与Dr.Donoho有关的小波变换和小波包变换降噪方法中，常见：选择（人为）适当的分解深度参数。为保险起见，把好人做到底：做“金标准”时，用循环语句试验不同深度分解的处理结果，可看其中最好的。设置一个“无所谓最不最佳的伪SURE”，当作灯泡：依据《小波工具箱举例不当与 Donoho阈值》（2013-09-26），用“3倍标准差”作为硬阈值，强行替换自动的SURE的默认参数。试验程序，如图片1.所示。其主体有4层嵌套for循环，从外到内，依次对应：由wnoise给出的6种基本测试信号，无噪信号的6种强度，10次(变量Te0)随机试验，不同的分解深度。误差数据阵列Ea的三维寻址指标，依次为：无噪信号的编号，信噪比条件的编号，分解深度和准则参数的编号。显示时，以整数1或0开始的行中，这第一个数字，“1”表示直接用ddencmp给的参数；“0”表示以“3倍标准差”做“硬阈值”的“伪SURE”。同一行中，第二个整数，表示分解深度；第三、四、五、六个数，分别表示，紧随其后的6个行显示的误差（范数比）矩阵中的元素的均值、标准差、最小值、最大值。保存这一行数据。在程序结束时，以“IsDefault_Depth_Mean_Std_Min_Max”为名，再集中显示它们，如图片2所示。此前的一行，显示一下默认参数，确认“SURE”。从均值、标准差、最大值看来，默认处理的结果，明显最差；“伪 SURE”的结果，最好；《用Matlab的小波包变换试验能量阈值降噪方法》的结果，处于二者之间。从可以实现的很低信噪比时的最小的误差值看，那个rigrsure最差，这里的默认处理中，存在比其它方法都更好的少数例子。新浪赛特居士SciteJushi-2014-06-30。图片 1. 设置Matlab小波包降噪的“金标准”的程序段图片 2. 图片1.中的程序运行的结果（末尾部分）; 1123 次阅读|0 个评论

CiteSpace阈值设置杂谈: 热度 1 mpcer 2014-4-20 11:05; CiteSpace 在单个时间分区按阈值控制网络节点数量，满足阈值条件的引文才被可视化，有 Top N 、 TopN% 、 ThresholdInterpolation 、 SelectCiters 共 4 种设定方式。 Top N 选取被引次数最高的 N 个引文， TopN% 先按被引次数排序再按百分比（ N% ）选取引文，这两种方式各时间分区的阈值完全相同。阈值插值（ Threshold Interpolation ）从被引频次 c （ citation ）、两篇文献的共被引频次 cc （ cocitation ）和共被引系数 ccv （ cosinecoefficient ）三个层次设置阈值，其中 ccv 计算公式为，其中 cc(i,j) 是文献 i 和文献 j 的共被引次数， c(i) 和 c(j) 是各自的被引次数，例如在某个时间分区里，文献 i 和文献 j 共被引 2 次，文献 i 被引 4 次，文献 j 被引 3 次，则 ccv=2/sqrt(4 × 3) ≈ 0.577 。它在整个时间跨度的第一个、中间一个、最后一个时间分区分别设定阈值锚点，其余时间分区的阈值利用线性插值算法来计算，实现了不同时间分区阈值的个性化。选择施引文献（ Select Citers ）先根据引文记录中的 TC 字段值筛选施引文献，然后需再用 Top N 、 TopN% 、 ThresholdInterpolation 中其中一种方法作为阈值筛选施引文献中的参考文献。阈值调谐可依据 Citespace 软件界面左下角（ Space Status 和 Process Reports ）数据处理报告的选中的引文数量、节点数和连接数量进行调整，确定合理的阈值需要进行反复的试算和比较。软件界面左侧 Space Status 文本框中 space 栏对应数值为该时间分区内引文的有效参考文献数目，题录字段缺失及重复的参考文献不计入， nodes 指满足阈值条件的参考文献数目。 Process Reports 中 Records within the chosen range 的值指有效的引文数量，缺少参考文献的引文不记数。; 个人分类: CiteSpace|21947 次阅读|1 个评论

关于高频阈值的只言片语: 热度 2 zilu85 2012-12-13 09:51; 高秀敏：到底多少是多啊？赵本山：自行车？要啥自行车？！每到截取高频被引论文或者高频主题词或者高被引作者或者核心期刊的时候，总是想起上面的对话。阈值问题一直困扰着共现分析，甚至比样本问题更为严重。因为没有金标准，涉及到后续聚类等因素较多，没有办法评价。今日看到一篇古文，其中的片段翻译过来，供参考。这是一个选择高被引论文阈值的探索，根据我的理解，绘制了一张表格。序号（ R ）论文被引频次来源文献 S 累计 S S1 S2 …… Sm 1 P1 100 1 0 1 2 P2 99 0 0 0 …… … … r Pr T St …… … … N Pn 1 r: 被引文献数； T: 阈值； St ：高于 t 阈值所涉及到的来源文献数（矩阵中为 1 的 S 总数）最开始时候，阈值为 1 时，参考文献总数大于来源文献总数。以后二者变化幅度不同。引文阈值的选择图中，横轴是按整数选取的被引文献阈值，纵轴为相应的被引论文数和来源文献数目。从图中可以看到，从被引次数的阈值为 40 到阈值为 4 的在一个很大的引文阈值的区域里，相关的来源文献增长很慢，仅仅从 650 （ 22% ）增长到了 1378 （ 46% ）。在这个区域里，被引文献的数目从 5 到 306 ，也是整个数据库中总共 54,638 条参考文献中的很少一部分。在更低的阈值上，被引文献数和来源文献数则增长迅速，百分比计算也是同样的结果。这也不足为奇，因为在我们数据库所收集的文献中，被引文献列表长度上没有太大的变化（ mean=22 ， std=14 ， skewness=2.2 ）。对于同被引分析来说，重要的是尽可能多地选择相关的被引论文和来源文献，但是又要不能增加噪音。在图中，我们看到来源文献数目一直比较稳定，如果从高到低选择阈值，参考文献的数目会增加得比来源文献数目要快。换言之，大多数对这些文献的引用来自于已经在更高阈值上被选中过的来源文献，这还说明增加的信息要多于噪音。但是，如果阈值低于 4 次，增加的噪音要多于信息了，因为增加的引用大多数来自于高阈值中没有引用过这些参考文献的来源文献。这样，我们就有了依据来选择尽可能低的引用阈值，在我们的例子里， 4 或者 5 最为合适。; 个人分类: 文献计量学|7160 次阅读|3 个评论

27、各生理信号小波包消噪: baishp 2012-11-30 00:46; 将脉搏信号序列MB2917_r、收缩压信号序列GY2917_r、舒张压信号序列DY2917_r、均压信号序列JY2917_r、差压信号序列CY2917_r分别导入小波分析GUI工具，以与前篇体温信号序列TW4860_r消噪相同的方式、参数进行消噪。发现各消噪信号与原信号的相似度（模数比、标准差比、平均绝对差比）基本上都略小于0.9，较TW4860_r消噪的相似度明显为小。因此将阈值都改为低惩罚阈值penalize low，以提高其相似度。以下是各信号消噪过程截图。（一）脉搏信号序列MB2917_r：图27-1 MB2917_r用sym5小波作6层小波包分解截图图27-2 MB2917_r用低惩罚阈值penalize low消噪图27-3 MB2917_r消噪残差图27-4 MB2917_r消噪信号(黑)与原信号(红)时域局部放大波形对比将消噪信号导出，记为MBpsy5den_low。 normr=norm(MBpsy5den_low)/norm(MB2917_r)%模数比 stdr=std(MBpsy5den_low)/std(MB2917_r)%标准差比 madr=mad(MBpsy5den_low)/mad(MB2917_r)%平均绝对差比 smnr=smn(MBpsy5den_low)/smn(MB2917_r)%光滑度比运行，得： normr = 0.8969 stdr = 0.8969 madr = 0.8897 smnr = 1.9992 跟前篇TW4860_r消噪比起来，相似度normr、stdr、madr下降了，但光滑度比smnr也下降了。将阈值改为中度惩罚阈值penalize medium消噪，导出消噪信号，记为MBpsy5den_med。 normr_med=norm(MBpsy5den_med)/norm(MB2917_r)%模数比 stdr_med=std(MBpsy5den_med)/std(MB2917_r)%标准差比 madr_med=mad(MBpsy5den_med)/mad(MB2917_r)%平均绝对差比 smnr_med=smn(MBpsy5den_med)/smn(MB2917_r)%光滑度比运行，得： normr_med = 0.8815 stdr_med = 0.8814 madr_med = 0.8731 smnr_med = 2.3035 跟上面低惩罚阈值penalize low消噪比起来，相似度normr、stdr、madr下降了，但光滑度比smnr提高了。所以“相似度提高则光滑度降低，光滑度提高则相似度降低”只能用在同一信号不同消噪方式之间，不能在不同的信号消噪时进行绝对的比较。完全相同的消噪方式、参数设置，不同的信号，其消噪相似度、光滑度改变比例为什么会不一样？这个肯定跟信号本身的属性、结构有关了。下面各图仍是低惩罚阈值penalize low消噪记录：图27-5 MB2917_r(蓝)消噪信号(紫)残差(黄)功率谱对比（二）收缩压信号序列GY2917_r：图27-6 GY2917_r用sym5小波作6层小波包分解截图图27-7 GY2917_r用低惩罚阈值penalize low消噪图27-8 GY2917_r消噪残差图27-9 GY2917_r消噪信号(黑)与原信号(红)时域局部放大波形对比将消噪信号导出，记为GYpsy5den_low。 normr=norm(GYpsy5den_low)/norm(GY2917_r)%模数比 stdr=std(GYpsy5den_low)/std(GY2917_r)%标准差比 madr=mad(GYpsy5den_low)/mad(GY2917_r)%平均绝对差比 smnr=smn(GYpsy5den_low)/smn(GY2917_r)%光滑度比运行，得： normr = 0.9041 stdr = 0.9037 madr = 0.8942 smnr = 2.5718 图27-10 GY2917_r(蓝)消噪信号(紫)残差(黄)功率谱对比（三）舒张压信号序列DY2917_r：图27-11 DY2917_r用sym5小波作6层小波包分解截图图27-12 DY2917_r用低惩罚阈值penalize low消噪图27-13 DY2917_r消噪残差图27-14 DY2917_r消噪信号(黑)与原信号(红)时域局部放大波形对比将消噪信号导出，记为DYpsy5den_low。 normr=norm(DYpsy5den_low)/norm(DY2917_r)%模数比 stdr=std(DYpsy5den_low)/std(DY2917_r)%标准差比 madr=mad(DYpsy5den_low)/mad(DY2917_r)%平均绝对差比 smnr=smn(DYpsy5den_low)/smn(DY2917_r)%光滑度比运行，得： normr = 0.9256 stdr = 0.9255 madr = 0.9175 smnr = 3.0569 图27-15 DY2917_r(蓝)消噪信号(紫)残差(黄)功率谱对比（四）均压信号序列JY2917_r：图27-16 JY2917_r用sym5小波作6层小波包分解截图图27-17 JY2917_r用低惩罚阈值penalize low消噪图27-18 JY2917_r消噪残差图27-19 JY2917_r消噪信号(黑)与原信号(红)时域局部放大波形对比将消噪信号导出，记为JYpsy5den_low。 normr=norm(JYpsy5den_low)/norm(JY2917_r)%模数比 stdr=std(JYpsy5den_low)/std(JY2917_r)%标准差比 madr=mad(JYpsy5den_low)/mad(JY2917_r)%平均绝对差比 smnr=smn(JYpsy5den_low)/smn(JY2917_r)%光滑度比运行，得： normr = 0.8816 stdr = 0.8815 madr = 0.8738 smnr = 2.2232 图27-20 JY2917_r(蓝)消噪信号(紫)残差(黄)功率谱对比（五）差压信号序列CY2917_r：图27-21 CY2917_r用sym5小波作6层小波包分解截图图27-22 CY2917_r用低惩罚阈值penalize low消噪图27-23 CY2917_r消噪残差图27-24 CY2917_r消噪信号(黑)与原信号(红)时域局部放大波形对比将消噪信号导出，记为CYpsy5den_low。 normr=norm(CYpsy5den_low)/norm(CY2917_r)%模数比 stdr=std(CYpsy5den_low)/std(CY2917_r)%标准差比 madr=mad(CYpsy5den_low)/mad(CY2917_r)%平均绝对差比 smnr=smn(CYpsy5den_low)/smn(CY2917_r)%光滑度比运行，得： normr = 0.9079 stdr = 0.9079 madr = 0.8963 smnr = 2.4868 图27-25 CY2917_r(蓝)消噪信号(紫)残差(黄)功率谱对比附：用小波消噪GUI工具需知道的英语单词： sorted排序 absolute values绝对值 colored有色 terminal nodes叶子节点 styles方式 export输出 entropy熵 action作用，行为 label标签 current当前 minimaxi最小极大方差 regression回归 estimation估计 density密度 structure结构 value值 int.诠释。 superimpose叠加 scroll滚动 decomposition分解 reconstructed重建 detail细节 approximation近似 synthesized合成 propagate传播传递 medium中等 penalize惩罚 heuristic启发式 rigorous严格 sure确定 fixed固定 form形式 interval间隔 delimiters分隔符 dependent依赖 threshold阈值 settings设置 residuals残差 range范围 absolute绝对 standard标准 deviation偏差 median中位数 scaled缩放 reconstruct重建 split分割 merge合并 visualize想像 node节点 action行动 initial初始 terminal终端 depth深度 Invalid无效 value值 bins垃圾箱 detail细节 approximation近似 show显示 synthesize综合 fractional分数 brownian布朗 generation代 generate产生 balance平衡 sparsity稀疏 norm规范，模数 de-noise消噪 histograms直方图 continuous连续 complex复杂 coefficients系数 number of zeros in零数 retained energy in保留的能量需要 global全局 compress/compression压缩 original原 analyze分析 extension延期 specialized专门 multiple多 multivariate多元 denoising去噪 multiscale多尺度 separate分开（本文首发于： http://blog.sina.com.cn/s/blog_6ad0d3de01013jt0.html 首发时间：2012-03-05 22:59:36）; 个人分类: 斤斤计较|3572 次阅读|0 个评论

26、小波包消噪及曲线光滑度估计: baishp 2012-11-30 00:09; 上一篇博文一维小波消噪，消噪的结果，残差的：阈值： Fixed SURE Minimaxi 标准差： 15.23、 2.673、 11.97 平均绝对差：12.31、 2.267、9.662 模数： 3679、 645.5、 2890 消噪信号与原信号的模数比： Fixed阈值的：normr1=norm(TWden_fix)/norm(TW4860_r)=0.7205； SURE阈值的：normr2=norm(TWden_rig)/norm(TW4860_r)=0.9846； Minimaxi阈值的：normr4=norm(TWden_mnmx)/norm(TW4860_r)=0.7891。感觉消噪要么太过，要么不及。觉得模数比在0.9~0.95附近才比较好。模数与标准差、绝对差的定义、计算方法虽然不一样，但它们的变化步调是一致的。如果用消噪信号的标准差、绝对差比上原信号的标准差、绝对差，所得结果与上面的模数比基本上是一样的。残差的模数、标准差、绝对差与原信号的模数、标准差、绝对差之比也基本上是一样的。所以模数比反映的其实也是消噪信号与原信号的相似度。将体温信号序列TW4860_r导入小波分析GUI界面，改变各种消噪的方式、参数，完全用它默认的设置进行消噪。下图是用sym5小波对信号进行小波包分解、消噪的截图：图26-1 界面中小波包最多能分解12层，我的系统资源最多能将此信号分解8层，但消噪最多只能消噪到6层，所以就按6层分解。上左图为最优小波树，各节点上的数字表示各节点所占能量百分比；下左图为我随选的节点的重构信号（系数）；上右图原始信号；下右图为叶子节点染色系数。点其上De-noise进入消噪界面。截图如下：图26-2 选定中度惩罚阈值penalize medium，再点其中的De-noise开始消噪。左上图为系数绝对值排序；左下图为系数绝对值的直方图；右上图红色为原始信号，紫色为消噪信号；右中图为原系数，右下图为阈值作用后系数。点residuals打开残差观察窗口，截图如下：图26-3 点图26-2的View Denoised Signal，打开消噪信号观察窗口，如下：图26-4 TW4860_r及其消噪信号时域波形对比上图信号曲线是局部放大了的。红色为原信号，黑色为消噪信号。将消噪信号导出，记为TWpsy5den_med，表示体温、小波包、sym5小波、消噪信号、中度惩罚阈值。消噪残差也导出，记为TWpsy5res_med，表示体温、小波包、sym5小波、消噪残差、中度惩罚阈值。下面是TW4860_r、TWpsy5den_med、TWpsy5res_med功率谱比较图。蓝、紫、黄色分别是TW4860_r、TWpsy5den_med、TWpsy5res_med功率谱。图26-5 TW4860_r、TWpsy5den_med、TWpsy5res_med功率谱比较图图26-6 图26-5低频端放大可见消噪信号与原信号功率谱低频端完全重合，残差功率谱图只是极小的一条水平线。图26-7 图26-5高频端放大可见消噪信号与原信号功率谱高频端有明显差异。除了消噪信号整体数值变小，波形也不完全一致。图中实标尺线处，消噪信号的一个峰值对应于原信号的一个峰值，但虚标尺线消噪信号的一个峰值对应于原信号的一个谷值附近。将图26-2界面的阈值改为高惩罚阈值penalize high、低惩罚阈值penalize low消噪，并将消噪信号导出，记为TWpsy5den_hi、TWpsy5den_low。看看各消噪信号与原信号的模数比（也是相似度度量之一）： normrh=norm(TWpsy5den_hi)/norm(TW4860_r) normrm=norm(TWpsy5den_med)/norm(TW4860_r) normrl=norm(TWpsy5den_low)/norm(TW4860_r) 运行，得： normrh = 0.9576 normrm = 0.9662 normrl = 0.9687 下面是各消噪信号与原信号的标准差比： stdrh=std(TWpsy5den_hi)/std(TW4860_r) stdrm=std(TWpsy5den_med)/std(TW4860_r) stdrl=std(TWpsy5den_low)/std(TW4860_r) 运行，得： stdrh = 0.9575 stdrm = 0.9661 stdrl = 0.9686 下面是各消噪信号与原信号的平均绝对差比： madrh=mad(TWpsy5den_hi)/mad(TW4860_r) madrm=mad(TWpsy5den_med)/mad(TW4860_r) madrl=mad(TWpsy5den_low)/mad(TW4860_r) 运行，得： madrh = 0.9575 madrm = 0.9661 madrl = 0.9685 我觉得这几个数值比上篇中的处理结果要好。曲线的光滑度，我觉得可以用它的功率谱的低、高频部分的能量比来衡量,数值越大越光滑（当然也可以用它的功率谱的高、低频部分的能量比来衡量,数值越小越光滑）。函数m文件： ----------------------- function S=smn(X,Order,Nfft,Fs) %求函数光滑度S Nfft=2^16;%快速傅立叶算法点数 Order=10000;%参数估计法阶数，选取原则参见第6篇博文 Fs=Nfft;%采样频率取Nfft，为使P_TW序号等于圆频率(再加“1”） P=pyulear(X,Order,Nfft,Fs);%功率谱估计 P_1=P(2:end); Sl=sum(P_1(1:length(P_1)/2));%低频部分能量 Sh=sum(P_1(length(P_1)/2+1:end));%高频部分能量 S=Sl/Sh;%光滑度 end ------------------------ 以文件名“smn”保存。 %消噪信号TWpsy5den_hi的光滑度Sdh： sdh=smn(TWpsy5den_hi) %消噪信号TWpsy5den_med的光滑度Sdm： sdm=smn(TWpsy5den_med) %消噪信号TWpsy5den_low的光滑度Sdl： sdl=smn(TWpsy5den_low) %原信号TW4860_r的光滑度Stw： stw=smn(TW4860_r) 运行，分别得： sdh = 398.4736 sdm = 228.5763 sdl = 196.7536 stw = 53.7294 光滑度分别提高倍数： smnrh=sdh/stw smnrm=sdm/stw smnrl=sdl/stw 运行，分别得： smnrh = 7.4163 smnrm = 4.2542 smnrl = 3.6619 光滑度提高倍数越来越小。可见在信号消噪这件事情中，消噪信号与原信号相似度越高，光滑度提高倍数就越小。用相似度与光滑度当中的一个指标衡量消噪效果就可以了。（本文首发于： http://blog.sina.com.cn/s/blog_6ad0d3de01013iuc.html 首发时间：2012-03-04 23:09:12）; 个人分类: 斤斤计较|3835 次阅读|0 个评论

幸福的阈值: 热度 32 baoyongli800 2012-8-2 10:24; 前年新年聚餐的时候，和 H老师同桌，因为是年终岁末，人们自然会“回首往事，展望未来”。于是有人提起H老师过去的辉煌，那是90年代初期，顺应长春市“取消酸菜缸计划”的实施，H老师的“酸菜鲜”事业做得风生水起，很是风光了一番，在私家轿车还十分珍惜的当时拥有了生科院第一辆私人轿车，并买了当时作为财富及身份象征的“大哥大”，而今，这一切已随时间逐渐淡去，江湖上只留下一个 “古老”的传说，但回忆起当年的辉煌，H老师仍十分感叹：“ 当时那叫一个兴奋，幸福呀！” 。现在拥有轿车和手机已变得不再稀奇，而且，人们所拥有的也比过去多得多，但是遍寻心底，却找不到一点点幸福的涟漪。W老师说这是因为“幸福的阈值”越来越高了，一般物质的冲击已不能使心理的“满足感”上升到“幸福感”的程度。 2009年的夏天去温州给教育硕士上课，同去的C老师说起当年他和老伴儿一起住“筒子楼”的情形，说那时候虽然苦，但觉得很幸福，他的老伴儿也常和他说：“咱俩那时候多幸福呀！现在啥都有了，反倒觉得生活一点意思也没有了，要是能回到当年该多好呀！” 说也奇怪，日子越过越好，幸福反倒变得越来越稀缺，甚至有人怀疑世界上是否真有这种叫做“幸福”的东西，于是有关幸福的含义也便被演绎成千万种：幸福是“猫吃鱼”，幸福是“活在当下”，幸福是“ 我饿了，看见别人手里拿个肉包子，他就比我幸福；我冷了，看见别人穿了件厚棉袄，他就比我幸福。 ”......说起来似乎很简单，但问题是如果猫每天都能吃到鱼，而且周围其它的猫也能吃到鱼，那么它还会觉得幸福吗？至于“活在当下”，其具体的寓意是什么，似乎也是一件无头公案；至于那“拿着肉包子”的人和“穿着厚棉袄”的人也只是别人认为他应该幸福，而他们自己可能并未意识到这和幸福有什么关系。幸福是什么？幸福在哪里？幸福是比较级。很多时候幸福感是通过比较而产生的，所以有人说“幸福是比较级，需要有人垫底儿才能感觉得到”，但是比较也有不同的方式。在电影“饭局也疯狂”中范伟扮演的骗子谭大师说了一句堪称真理的名言： “ 幸福与金钱无关，与心相连 ” 。其实一个人幸福与否，很大程度取决于心态。乐观的人和悲观的人对同一种现状会有 “幸福”和“不幸”两种不同的诠释，这样的结果源自不同的比较方式，乐观的人乐于 “ 用己所长比人之短”，而悲观的人则更倾向于“用己之短比人所长”。每个人的快乐和痛苦都有表面的和隐藏的，如果总是用自己隐藏的痛苦去和别人表面的快乐作对比，幸福感又怎会产生呢？所以我们常常会看到那些我们觉得没有理由不快乐的人，人家自己却不觉得幸福，而我们以为很不幸的人，人家自己却觉得很幸福。幸福是满足感。在物质匮乏的年代，人们知道自己需要的是什么，所以当这个需要得到满足，人们便会产生一种幸福感，就像 “饿的人吃到了肉包子”，“冷的人穿上了厚棉袄” 。而当基本的物质需求得到满足，人们的主要需求便转为精神层面，那是一个人们无法预知的世界，因而需求由 “ 物质 ” 转为 “ 精神 ” 的过程也就是由 “ 具体 ” 变为 “ 抽象 ” 的过程， “ 抽象 ” 的东西需要悟性去领悟，而悟性并非本能，不可能人人具备，所以当人们的需求由物质转为精神，幸福也便成了奢侈品，因为阈值没有最高，只有更高，需要一个极大的冲击力方能激发出一丝丝的幸福感，而且是那种脉冲式的稍纵即逝的幸福感。幸福位于视野的盲点。幸福一般处于人视野的盲点，所以很多人苦苦求索而找不到幸福的踪迹，而当自己换一个角度就会发现，其实幸福就在身边。亦或是在多年寻找幸福的路上稍做休息，回首来时的路，会蓦然发现，幸福曾经悄无声息地陪伴着自己，而当时身在幸福中的自己竟然丝毫没有意识到它的存在，正所谓“身在福中不知福”，所以在很多人的心里幸福总是过去式，因此总是陷入对过去的无休止的追忆中，但人生的路是单行线，没有人可以在现实中逆行。于是有人便将自己锁入精神世界里掩耳盗铃般地说着自己编织的神话；也有人在白日梦中实现一次次的精神穿越。幸好文学作品承载并实现了很多人穿越的梦想。为什么幸福遍寻不见？不是幸福爱捉迷藏，而是因为人们发现幸福的能力太差，因此幸福总是乐于光顾那些善于发现幸福的人。幸福是他人的认同感。很多人心里的幸福是和被他人的认同感息息相关的，只有得到更多人的承认才会有幸福的感觉，这样的人生往往比较悲剧，因为人们常常忙得无暇去给予一个廉价的肯定，亦或不知道自己的肯定是他人幸福感的源泉。所以，如果有一天，你在街上遇到熟人，他说起自己最近的“成就”或“好事”，请别忘了给一个充分的肯定，因为这可能是一种最廉价的给予他人幸福感的方式。幸福隐于平凡。很多人将幸福理解为卓越，将找不到幸福归咎于太平凡，因此开始痛恨平凡，努力超越，而超越之后才发现，其实平凡才是一种幸福，最低势能才是最稳定的状态。幸福与欲望成反比，与平凡相伴行，与乐观的心态一脉相承......; 个人分类: 人生感悟|10974 次阅读|65 个评论

玩科学，还是被科学玩，这是一个问题！: 热度 7 xcfcn 2011-9-1 16:36; 玩科学，还是被科学玩，这是一个问题！玩科学，还是被科学玩，这是一个问题！（ To play science, or to be played by science, this is a question! ）根据文双春老师的博文，大概年轻人是被科学玩，而在达到一定阈值后，你就可以玩科学了！不过我想说明一点的是，其实很多院士、千人照样只有被科学玩的份，而不是玩科学！其实不光做科学是如此，任何两者之间互动的关系莫不如此，不是你强，就是它弱！当势均力敌时，我们看到的是张力美；但一方变得游刃有余时，和谐美就出现了！相对于“ 玩科学是一种境界 ”，我更喜欢“ 做科学是一种生活方式 ”，其实社会上三百六十行，每行都有自己的生活方式，做科学的也不能例外！人的分化其实跟细胞的分化很像，最早大家都是干细胞，具有无限的可能性，但是迟早是要分化定型的，有的人变成了政治家、有的人变成了科学家，其实他们早年不过就是要奶喝的小 baby 而已。当然有的可塑性很强，有点像诱导多功能性干细胞 (induced pluripotent stem cells, iPS ），学而优则仕嘛，或者仕而优则学嘛！; 个人分类: 杂论|1059 次阅读|17 个评论

共现分析目前需要解决的问题以及主观上的经验: 热度 3 zilu85 2010-2-20 11:35; 共现分析越来越引起大家的兴趣，很多信息专业以外的研究人员也想利用这种方法分析自己学科领域的研究现状或者热点。因此，不断有人跟我探讨这个方法的具体使用问题，说实话，这个方法还在不断的完善之中，应用中有很多具体的问题还没有解决。所以，感觉应该把这个方法的一些弱点，或者说需要进一步完善的地方列举出来，同时也提出自己目前的解决方法，希望有更多的同道能一起探索解决的方法。按照共现聚类分析的顺序，列举存在的问题如下： 1. 分析样本数目的问题：就是用于分析的样本大小的确定，实际上是检索论文数目多寡的问题。根据我的经验，理想的境界是应该包括该领域或主题的所有论文，对于比较大的主题，我一般用软件进行随机抽样，对于一些比较小的主题，论文数应该不少于500篇。道理很明显，文献太少了，共现的偶然性就大，得出的结论就不可信，我们不能对着不可信的结果信口开河。当然，这和你分析的对象是以篇为单位（如论文、引文）、还是一篇文章有多个共现的项目（作者、被引作者主题词有关系。一般我愿意以3000-5000篇作为分析的样本。 2. 高频阈值的确定问题：一般是用出现或者被引用频次高于某个阈值的项目作为下一步分析（共现矩阵和聚类分析）的对象，如高频主题词，高被引论文、高产作者、高被引作者、高被引期刊等等。阈值的选取还是一个样本量的问题，样本太大，最后得到的聚类结果会很庞杂，对各个类别的主题就不好分析和抽取，如果样本太小，得到的主题结构过于泛泛，没有新鲜的内容，比如有人曾经告诉我，分析出来肺结核病研究的热点是肺结核的诊断，肺结核的治疗。没有更细致的信息得到的结果就没有什么意义了。对这个问题国内外也有过研究，主要是检验起来比较麻烦。习惯性地有人愿意套用布拉德福定律的方法，用百分比来确定阈值，但是受到主题范围和发展程度等因素的影响，这个方法确定的高频词不是那么稳定，有的时候高频词很多至几百个，有的时候又很少，似乎应该有一个全面的调查。还有就是有人用HIT 曲线试图解决这个问题，这似乎也是一个思路。再有就是拿最后的聚类分析结果的质量好坏来评价阈值选取的方法。目前，我个人比较喜欢30-40左右的高频词或者高被引论文来分析。 3. 聚类分析方法的问题：从大的方面来说，有凝聚的方法和拆分的方法，比如在SPSS软件中可以用系统聚类方法，也可以用K-means快速聚类方法，我们一般使用比较简单直观的系统聚类方法，因为我们比较注重共现主题词之间的语义关系分析，所以愿意知道凝聚过程的先后顺序。但是，最近看到文章说，有人专门进行过研究，说是快速聚类的效果要优于系统聚类。这个有待于深入调查。另一方面，从具体的细节来说，还有相似系数的选择问题，很多国外的研究似乎用皮尔逊相关系数，而我们多年来一直用Ochiia相似系数，因为我们最开始是同被引聚类分析，从原理上看，我们认为这个系数是最合理的，就是两篇被引论文同被引次数做分子，两篇论文各自被引的总次数的乘积做分母，不用考虑没有引用这两个论文的其他论文，这些论文数量是相当地庞大。还有的是类与类聚合时候采用的方法：最大距离法，最小距离法，平均距离法重心法等等。一般我们是根据主题范围的大小确定这些方法的选择，比较细小专深的题目，我们采用最大距离法，把这些主题或者论文的类别尽量拉大距离，划分清楚；对于比较大和分散的主题，我们用最小距离法让各个类别之间尽量聚集到一起。 4. 聚类结果的解释问题：我们目前是通过人工阅读发现聚类项目之间的语义关系，这有很大的主观性，受到分析人员的专业水平和综合抽象能力的影响。国内外有一些对类别的主题进行识别的研究，有人提出主题词的粘滞度，有人从文章中抽取句子代替论文然后组成这个类的标签，有人提出用HITS算法，涉及到文本分类问题，又受到分类合理性检验问题的困扰，结果都不是令人满意，窃以为这又是一个比较有前景的研究方向。总之，所依赖的主要原理一个是共现，一个是聚类分析。由于聚类分析本身就是一个无监督的方法，多数情况下要靠经验积累才能找到比较好的聚类途经和聚类结果的解释。上面列举的只是实践中遇到的主要问题，具体实践中恐怕还有遇到很多问题。; 个人分类: 生物医学文本挖掘|7349 次阅读|4 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 阈值

相关帖子

相关日志

关闭安全验证