李小文院士博客转帖: http://blog.sciencenet.cn/home.php?mod=spaceuid=2984do=blogid=658183 从 “历史赌博”大作的 评论 看来, 您正应聘西北农林科技大学的兼职教授吧?祝顺利 ,前述“历史无知”也就可以谅解了。 科研场现形记: http://blog.sciencenet.cn/home.php?mod=spaceuid=825582do=blogid=658058 Humg 2013-1-31 13:53 呵呵,博文中的“线性无偏见估算”没听说过,“最优线性无偏估计”应该不是个新词吧。 endeavor 2013-1-31 11:30 老大,农业大学教授是不是很难聘啊 marine2008 2013-1-31 11:02 您的结论咋得到的? ----------- 美国使馆单点的实测估算有10天出现大于 300单位, 而模型预测只有2天, 也就是说20%的正确率。 jkingL 2013-1-31 10:15 怎么你给人感觉跟小孩一样。 Ilikemusic 2013-1-31 08:39 博主,还是别炒作了,继续应聘你西北农林科技大学的兼职教授吧! 博主注: 经好友推荐看了一个博文,留了点评论,躺着也中枪,心情一落千丈,不为自己,只为祖国科研事业的未来和希望。 中国科研界跳出圈子利益,不搞人身攻击,才能看到希望。不管什么牛人,都 要有平等观念,专注科学探讨,以理服人,别动不动依仗其身份、地位“找其导师、领导、单位”告状,以压制、平息发对意见。大人打架还需要到家长那里去告状?别孩子气了! 科学最需要的就是批判精神,唯有批判才能鉴别真假、对错,才能进步。 本人一直强调自己写博客、写评论无非就是记录客观历史和自己认识发展的历程,除此之外别无他意。各路好事者不要利用我,更不要打扰我的清净。谢了!!! http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0053400 王老师的英文原文链接,待风平浪静之后慢慢拜读。 http://news.sciencenet.cn/htmlpaper/20119281059128019643.shtm 科学家建立有偏样本纠正新模型 样本代表性或无偏性是指样本均值等于总体均值,是抽样调查的基本要求,通常以样本随机选择作为保障。然而,地理调查中样本抽取的随机性有时难以保障。 中国科学院地理科学与资源研究所王劲峰研究员带领研究团队一起研究建立了B-Shade模型, 该模型充分利用地理空间横向相关性,以及样本与区域总体之间的纵向相关性。即使样本有偏,用B-shade模型也可以得到区域总体无偏最优估计。 研究人员以上海浦东新区疾病流行率估计为应用案例。区域发病率/流行率往往通过哨点医院的监测记录进行估计。但是,这些记录本身的误差及哨点医院设立的有偏性,传统方法得到的区域流行率估计值将是有偏的,这将误导疾病干预。 研究表明,使用该研究提出的B-Shade模型,基于有偏哨点医院数据计算得到研究区疾病流行率最优无偏估计。 相关研究成果发表在《 PLoS 综合》(2011 6(8): e23428)上。(来源:中科院地理科学与资源研究所) 下面是原文的阅读体会,不定期更新: SPA (Single Point Areal Estimation): 国内大量的所谓统计数据空间化及气象等观测数据内插研究,好像类似这个思路,但不完全一样 。 Accuracy of the SPA Technique: 精度分析部分似乎更像是对模型因子之间关系的解释和分析。 个人认为做模型估计值和实际真值之间的精度验证更有意义和说服力。但实际真值如何获得?18个站点是样本,对应的总体分布特征又如何确定?欢迎专家指教、点拨。 The maximum and minimum values of Pearson correlation efficient are 0.85 and 0.69, respectively. 文章还没有细看,不过上面一句印证了我的一个猜测,这类空间插值模型因子的相关系数一般都在0.85以下。 很好的案例,可以支持我正在写的一篇文章的论点了,一定引用这篇论文:) SPA was used to extend the temporal PM 2.5 data recorded at a single (U.S. Embassy) monitoring station to areal-average PM 2.5 pollutant estimates, taking advantage of physical correlations between the PM 2.5 mass concentrations (U.S. Embassy station) and the PM 10 data (18-station BJ-EPB network). It was found that the U.S. Embassy PM 2.5 observations exhibited approximately the same trend as citywide PM 2.5 areal concentrations estimated by the SPA technique, 看不太懂。用A和B因素的变动特征模拟成C,然后说C的趋势与A一致。是不是我英语不好误解了? 如果把18个PM10点观测值利用美国使馆PM2.5值相关系数计算的权重转换成PM2.5的值,再把美国使馆PM2.5站点加入变成19个PM2.5观测点,再利用克里金等差值方法,是否可以生成类似图一的图像?与该文方法的估算哪个更准确?如何对比验证? 目前很多学者,特别是跨学科的方法研究者,很少对所涉及的外学科进行系统基础理论学习,只会就数据玩数据,用相关分析求得权重建立回归方程进行模拟、预测。 这样做首先是忽略了不同学科、变量的数据特点。比如对气温差值有效的模型,用在降水差值上就并不一定有效。因为气温是连续分布曲面,而降水是离散并可能存在突变线的(俺数学不好,专业术语不会。)对GDP差值合理的模型,对人口差值就不一定行,虽然二者性质已经很相似了。 其次,忽略了长期的时间序列变动。比如只利用了后30年数据进行相关、回归分析,或许前30年的变动趋势与其相反。 因此,一直想说的是,要研究另外一个领域的问题,就要先学好另外一个领域的基础理论。做计算机模拟最忌讳的就是就数据玩数据,Garbage; In Garbage Out。 也看到一些评论,说可以考虑加入污染源、地形、风向等因子。这样另一个悖论来了,因子越多干扰噪声也越多,把握众多因子趋势及相互交叉影响也更难。如果把人口、资源、环境、经济、社会因子都加入或许考虑更全面,但这样能做出庞大、复杂的模型就能更有效吗? 可见,模型领域还有很多问题需要解决,并非就是数据相关、回归分析建模这么简单。 这是本人就此发表评论的原因,非有他意。 特别声明:本人才疏学浅,只是一己之见,特别欢迎专家批评、指导! 我的每个进步,都离不开各位师长多年的教导和关怀。在此特地致谢! ٱ� 33] 徐晓 2013-2-3 17:42 李老师,这篇文章我看了。当然方法上,没有特别的创新,是一般的数据处理手法。