科学网 › 标签 › 血统论

标签: 血统论

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

悼念黄帅是几个意思？: 冯用军 2017-12-13 13:32; 一个所谓的“反潮流革命小闯将”、“小学生事件主角”，因癌而逝，不但新闻报道遮天蔽日，连网上也是看取“悼念声一片”，这个新时代、这个新社会是肿么了？尊师重道立德树人 1979年，黄帅从北京大学附中高中毕业，参加理工科高考，得到322.5分，在填高考志愿时，她一口气写下4个选择都是北京工业大学。黄帅解释说，之所以这么做是为了确保能留在北京。搞“株连九族”、“斩尽杀绝”是人治社会“丛林法则”背景下的反动落后产物，是反人类反社会的罪行，与文明新时代格格不入。胡耀邦的理念是与时俱进的，是真正的共产主义者的博大胸怀。难怪那首献给胡耀邦同志的歌曲——《好大一棵树》，唱得天地动情。; 个人分类: GHCRC全球人类浩劫研究中心|1509 次阅读|0 个评论

新的血统论会贻害无穷: 热度 17 ailincnj 2015-3-21 18:06; 　　最近，湖南省发布了《 2015 年湖南省选调生选拔工作相关要求》，在湖南 14 个市州中，有 10 个要求考生必须是“全国‘ 985 ’、‘ 211 ’高校全日制应届本科及以上学历毕业生”（见《光明日报》 3 月 21 日）。非“ 985 ”、“ 211 ”高校毕业生就业时遭到歧视现象日益普遍，上海多年前就有入沪歧视政策，这两年有些本身就是三流学校，在招聘教师、研究生录取方面，不仅看文凭、成果，还要看血统，也就是本科毕业学校。这不仅有违公平原则，也违反了我国的《就业促进法》和《中共中央关于全面深化改革若干重大问题的决定》，决定中强调“规范招人用人制度，消除城乡、行业、身份、性别等一切影响平等就业的制度障碍和就业歧视”。不看才能和后期的成长，通过一考把人生路堵死，这是何等的悲乎！过去还提“不拘一格选人才”，那怕你是自学成才，现在看来是倒退了。“唯学校论”是荒谬的，是不公平的。如果这样，那非“ 985 ”、“ 211 ”高校最好关门，免得误了学生。感谢万恶的美英帝国的教育制度，去年从我们这个三流学校录取一位去哈佛大学、一位去哥伦比亚大学和一位去英国帝国理工，如果要象湖南那样看出身，或考国内那些985也许没有希望。请不要挡了年青人的路，他们也许前途无量，要有英雄不问出处的胸怀。建议有人通过行政诉讼来起诉那些有歧视的规定和单位，尽管不一定胜诉，也会为那些非“ 985 ”、“ 211 ”高校的学子们去抗争一把。　　南京林业大学风景园林学院哈佛女孩王雪诗南京林业大学信息学院学霸夏丽娟，在本科期间发了5篇SCI论文，收到了包括英国帝国理工在内的6所外国名校的offer 　　　　　　　　　南京林业大学木结构建筑专业才子王智恒，现就读于美国哥伦比亚大学; 4111 次阅读|51 个评论

一篇 "它引" 上万的大牛论文与数据血统论-- 趣味数据挖掘之三: 热度 21 tangchangjie 2011-12-1 08:18; 一篇 "它引" 上万的大牛论文与数据血统论-- 趣味数据挖掘之三(唐常杰）　本文先通俗地介绍快速挖掘关联规则的Apriori算法，然后介绍发表这一算法的论文(它被引用了11480 + 次），最后关注此文的实际影响与传统影响因子的差距。有言在先，趣味数据挖掘和趣味数学一样，有些段落比较细致，此文虽只要中学数学知识，但须静心把它当回事，或许要在草稿上写画，才读得顺畅。　　 1 朴素挖掘方法中的组合数呈指数增长。上文中，关联规则朴素挖掘法的主要脉络是 “组合对象--选举-唱票-计票”。人们说组合对象数量很大，究竟大到什么程度？　　从m个对象中选k个对象的组合数记为C(m,k)，中学数学中， C(m,k)=m!/k!(m-k)!, 下面简单估计它的增大趋势： C(m,k) 是二项式（1+x） m 展开后第k+1项系数，令x=1，容易得出　　　∑C(m,k)= (1+1) m = 2 m 所以，二项式展开后的m+1个系数的平均值为2 m /(m+1) ，其分布称为二项分布，中学数学给出前几个是（1,1）（ 1,2,1）（1,3,3,1）（1,4,6,4,1），…大致规律是两头小,中间大,还可用杨辉三角形计算。中间的系数远大于平均值 2 m /（m+1） . 所以说，组合数是大致随m的指数增长的。于是，朴素挖掘方法耗时也随m的指数增长的，当m=10 5 ，(一个超市中的物品数量)，2 m /（m+1）可是天文数字！为解决朴素挖掘方法中组合爆炸问题，R. Agrawal和 R.Srikant与1994年提出了Aprior算法。　　 2 Aprior性质与数据血统论：高频集的子集一定是高频集　　Aprior，形容词，发音，其译意包括：演绎的、先天的、先验的、推测的、演绎的、事前的，等等。　　笔者体会，Aprior算法命名是采用“先天的”这一层意思（曾与R.Agrawal同登黄山，但兴奋中忘了问这个问题）。　　Aprior性质说：高频集的子集一定是高频集，这相当于“龙生龙、凤生凤”，注意，它并未断言“老鼠生儿打地洞”，所以，属于半血统论。　　社会生活中，血统论带来不公平，22个世纪前，大泽乡起义的带头人陈胜，代表老百姓的发出了一声呐喊：“王侯将相宁有种乎？”，它穿越时空、而今还振聋发聩（典出《史记·陈涉世家》）。　　数据空间中的血统论带来了数据的不公平，正好可用于数据剪枝，尽早排除哪些不必要扫描的对象，从而提高计算速度。　　这个数据血统论有下列两层意思：　　 2.1，从高频集看其子集　　用乒乓球竞赛作比喻，设在10次竞赛中有5次以上夺冠的选手的称为高频选手，（相当于支持度阈值=5/10）；　　Aprior性质说：如果双打组合 {A, B} 是高频的，则其子集{A}和{B}都是高频的。　　为什么？因已知A, B联手5次夺冠，A还可能和其他选手联手或单打而夺冠，所以A的夺冠总次数不低于5。　　Aprior性质对任意k项集都成立，双打只说了k=2的特例；人们都承认它，有公理体系之洁癖的数学美爱好者，也可在一番定义之后去证明它。　　　　 2.2 Aprior构造性命题：（k+1）项的高频集一定可以用其两个k项的高频子集连接而成。　　例如，上篇博文中 k=3时, {烤鸭，面饼，面酱} 是高频集，用 JOIN 表示数据库中的连接运算，则这个三项集可用两个双项（高频）集连接而成，如下所示：　　 {烤鸭，面饼} JOIN {面饼，面酱} == {烤鸭，面饼，面酱} 要点是，两个记录中的“面饼”作粘连项，用数据库的行话，是两个只有一行的表（关系）做等值连接。　一般地描述，（k+1）项的高频集有（k+1）个k项子集（且都是高频的），容易找到其中的两个，使他们有K-1项相同，连接即可。　　　　　　 3 迅速排除非高频集的法宝　　上述Aprior构造性命题的逆否命题是“不能用两个k项高频集连接而成的k+1项集，一定不是高频集”，使得我们能用构造性命题把高频候选集迭代地、循序渐进地、一个不漏地构造出来，因为凡是构造不出来，都要排除，不必操心。　　这是我们迅速排除非高频集、缩小候选空间的法宝。大致思路的估计如下：　　摸着石头过河试探地确定支持度阈值。假定超市有10万种商品，想找出同时被购买得比较多的K项集合，K=1,2,..，10。什么是“比较多”？怎样选择支持度阈值T？　　 T=0.01; 满足此阈值的项多，挖掘系统计算很长时间才算完，可能经济意义小；　　　T=0.95 ，可能太大，类似于元宵节大部分家庭买汤圆，平时满足此阈值的商品少，甚至为空集；挖掘系统很快（几秒钟-几分钟）就算完了。　　　选T=20%，即有20%的顾客都买的货物，(这类商品真实存在，例如食品、餐巾纸，卫生纸等等)。比较中庸，有意义，中等时间消耗。　　　 4 Aprior原理作迅速剪枝　　　下面，为了找到量的感觉，将用常识与合理假定，给出一些具体的数据。 4.1 先找出高频单项集。设挖掘系统扫描数据库得知，支持度不小于20% 单项集只有 100项。这一次从10万项中剪掉了99.9%。 4.2 只有高频单项集才有资格组合成高频双项集的候选集（根据构造性命题）这个消息太好了，按照Aprior原理，不需扫描 10万种商品，而只需考虑100项商品组成的双项集，他们一共有100（100-1）/2 =4950项，如果采用朴素的笨方法，从10万项产生双项集，会有10^5 *10^5-1）/2 10^9项! 这一次剪掉的不少于99.9999999% 当然，没被剪枝的，还需要扫描一次流水账，核实其高频性。设 4950个双项集中，支持度不小于20%的只有 10项，（双项高频集比单项集要难一些，因为项与项需要“缘分”才能被同时购买），则4940项及其超集都被剪掉了,这一次又剪掉4940/4950=99.7% 4.3 只有高频双项集才有资格连接成高频三项集的候选集 10个双项集，彼此连接，产生的三项候选集超集不会超过10*9/2=45项，还不太多，核实其高频性也比较容易了。以此类推…. 总的思想，（a)知道了某项不是高频集，就把它排出；(b)因为它的血统不够高贵，其超集合的血统一定不高贵,也被排除；（c）在理想参数下，每次可能排除绝大部分。这就是我们用来剪枝，加快的法宝。　　5 一举成名的高被引用论文之特征　　Aprior算法是IBM Almaden研究中心的 R. Agrawal和 R. Srikant在1994年提出的，发表在数据库界的顶级国际会议 VLDB 94 上，在Google 上一搜即得，有兴趣者不妨实查一下，它被引用了11480+ 次，也可在本文附件中下载。　　这是顶级科学家在顶级国际会议上的一个方向的开创性论文，因为紧凑，原始文献比教科书中相关章节稍难读，更不像科普博文这样浅显。笔者在教学中，常推荐给新入门者，因为它有下列特色：（1）它于无中添有，高频数据的先天性质（Aprio性质）天天摆在光天化日下，被普通人熟视无睹、擦肩而过，人群中，有一个人-- R. Agrawal，就像王菲在《传奇》中唱的，多看了它几眼，捅破了这层窗户纸，在人类知识上无中添有（这就是创新），窗户纸有个特点，未破之前，百思不得其解，捅破之后，一目了然，大众认可；（2）它也兴风作浪 — 独特的算法，并不复杂，掀起了一阵关联规则研究的潮流。（3）它像破冰船，破开了关联规则研究方向的拦路坚冰；它像推土机，推开了露天煤矿的表土，又不独贪（矿场太大，也无法独贪），留给后来者的，不是榨干了油水的骨头，所以才有大批后来者跟踪、改进，引出了后来的成百上千篇的改进型论文，才有上万次的引用。（4）它很完整，有背景，有模型，有形式化描述，有理论、有算法，这也是数据挖掘界学术论文的标准写法，初学者可在这里学思想、学写法，学实验；（5）它有大规模实验验证，实验数据含10 5 个记录，这在当时已经是的“海量”了，当年用的计算机是IBM RS6000，主频 33M，也许在1994年是不错的设备，今天看来，并不高贵。在大规模的数据集上测试算法的规模伸缩性，是如今数据挖掘论文攀登顶级会议的必要条件。 6 十大算法的Top4 在2006年，国际数据挖掘界推选十大数据挖掘算法，经过严密的程序，几个国际会议程序委员会（ KDD-06, ICDM '06, SDM '06 ，ACM KDD Innovation Award and IEEE，ICDM ）的提名 ---投票---辩论，最后Aprilori 算法名列十大算法的第四名。（关于十大算法，另择机讨论）。 7 不公平的影响因子 VLDB顶级国际会议，一年只有几十篇论文的空间，进入VLDB似乎比进入奥运会还要难，但会议论文既不上EI，也不上SCI。ISI不计算其影响因子，或ISI影响因子为0。　　根据DBLP和Google的论文统计，从1994-2003年，SIGMOD文章平均被引用70次，VLDB文章平均被引用50次。简单抽样表明，引用高峰在前两年，各占10年中引用数的20%以上，如果这个抽样有一般性，则实际影响因子可能不小于 10 ，甚至不小于14。　　而论文被引用11480 + 次，是特例中的特例，可能进入计算机科学论文被引用次数的高端了。　　　　 8 假如R.Agrawal在中国目前，我国若干学校和科研单位单位并不承认国际会议论文。可能是因为制定科研成果认定政策的官员，多非计算机专业人士，他们只认SCI-EI，而不认这些顶级会议。（相关问题，或许另择机讨论）。　　所以，如果R. Agrawal,和 R. Srikan在中国，如果他们鼓起勇气，用那篇开创性的论文作为申请博士学位或作为提职称的主打材料，可能会像刀郎唱的，受到“冲动的惩罚”。最近有了好消息，中国计算机学会（CCF）公布了一个“推荐国际学术会议”清单，其中包括数据库界的四个顶级会议：SIGMOD，VLDB，ICDE 和 SIGKDD，也许这个推荐清单还不足以说服有关官员，但抗争者至少有了一点批判的武器，不再是手无寸铁。参考文献 R Agrawal, and R Srikant .”Fast Algorithms for Mining Association Rules in Large Databases”, Proceedings of the 20th International Conference on Very Large Data Bases, p.487-499, September 12-15, 1994. 点击这里下载 R Agrawal关于关联规则的开创性论文.pdf 相关博文 1 “被打”和“北大” 的关联 --- 趣味数据挖掘系列之一 2 烤鸭、面饼和甜面酱之朴素关联 --- 趣味数据挖掘系列之二 3 一篇它引上万的大牛论文与数据血统论-- 趣味数据挖掘之三 4 巧挖科学博客之均击量公式，兼谈干预规则 ---- 趣味数据挖掘之四 5 听妈妈讲过去的故事，分房与分类 ----- 趣味数据挖掘之五 6 借水浒传故事，释决策树思路--- 趣味数据挖掘之六 7 宴会上的聚类 — 趣味数据挖掘之七 8 农村中学并迁选址、K-平均聚类及蛋鸡悖论--趣味数据挖掘之八 9 灯谜、外星殖民、愚公移山和进化计算 --- 趣味数据挖掘之九 10 达尔文、孟德尔与老愚公会盟：基因表达式编程--趣味数据挖之十 11 十大算法展辉煌，十大问题现锦绣---趣味数据挖掘之十一 12 数据挖掘中的趣味哲学 --- 趣味数据挖掘之十二其它系列博文的入口唐常杰博客主页科学博客主页; 个人分类: 科普札记|23904 次阅读|42 个评论

今孔子后代最不该姓孔: yanjx45 2010-3-16 15:13; 一篇科普小品入选《 2009 中国最佳杂文》博主在 2009 年第 3 期的《环球科学》杂志上曾发表一篇科普小品，原题为“ 遗传学不承认‘孔子后裔’ ”。此文入选辽宁人民出版社出版的《 2009 中国最佳杂文》（主编王蒙，分卷主编王乾荣），入选时换了一个题目。今孔子后代最不该姓孔在遗传学家看来，世界上根本就不存在 “ 孔子后裔 ” ，或换一种更确切的说法：根据遗传学基本原理，当前正宗 “ 孔子后裔 ” 继承的孔子的遗传物质其实最少，他们最不应当姓孔；而有些目前不姓孔的人继承的孔子的遗传物质却可能更多，更应姓孔。对姓氏的研究，可分别从社会学和遗传学的角度来进行。在这两个领域中，姓氏的内涵差别很大。目前，社会上有不少人认可甚至津津乐道 “ 孔子后裔 ” 这个概念，但在遗传学家看来，世界上根本就不存在 “ 孔子后裔 ” ，或换一种更确切的说法：根据遗传学基本原理，当前正宗 “ 孔子后裔 ” 继承的孔子的遗传物质其实最少，他们最不应当姓孔；而有些目前不姓孔的人继承的孔子的遗传物质却可能更多，更应姓孔。在社会学家看来，这种说法也许是奇谈怪论，然而在遗传学家看来却是不争的事实。每个人的祖先数目都随世代增加而按几何级数递增：每个人都有父母２人，祖父母和外祖父母共４人，曾祖父母和外曾祖父母共８人 …… 如此类推，上溯 10 代，应有约 1000 个祖先（ 2 10 ＝ 1024) ；上溯 20 代（仅 600 年左右） , 就应有约 100 万个祖先（ 2 20 ≈10 6 ）。理论上，每个后代都有均等的机会，从这 100 万个祖先各继承百万分之一的遗传物质。如果上溯 50 代～ 100 代呢？得到的将是天文数字。我们每个人都继承了庞大姓氏的血统，在每个人的家谱中，只要耐心地多上溯几代，几乎都能查到百家姓里所有的主要姓氏，同时沿父系和母系多上溯几代，有时甚至能查到在历史上极著名的人。中国人的姓氏并不多，常见的 100 多个姓氏便囊括了近 90 ％的汉族人口。不同程度的血缘婚姻（更不用说同姓婚姻）实际上不可避免地经常发生。 “ 孔子后裔 ” 到底继承了多少孔子的血统？现代遗传学已确定的一个基本事实是：人体每个细胞有 46 条（ 23 对）染色体，染色体是遗传信息（基因）的主要载体，每个人都只能从父母双方各获得一半的遗传物质（即 23 条染色体）。我们可以反过来从某个先辈出发，来估算先辈与后代在遗传方面的数量关系。在后代中，基因减半的过程每传一代都会发生一次，所以后代继承某个特定祖先基因的数量，随传代次数的增加而按几何级数迅速递减。假定孔子的遗传物质（ “ 孔子基因 ” ）全部是特殊类型的基因（事实上，不同人的基因有 99.99% 都是相同的），并且没有血缘婚姻发生，那么孔子的第 6 代后裔就只继承了 1/64 （ 2 6 ＝ 64 ）的 “ 孔子基因 ” ，其余 63/64 都来自外姓祖先。这就是说，就个体而言，在孔子的第 6 代子孙的细胞中， 46 条染色体里最多只可能有 1 条来自孔子，而其余 45 条都来自外姓。再往下每传一代，后代连一条孔子的染色体都没有的概率就增加一倍，即越来越多的 “ 孔子后裔 ” 实际上没有继承孔子的任何遗传信息。以此类推，就群体而言（为简化计算，在此暂不考虑 Y 染色体的特殊性，留待另文专题讨论），孔子的第 10 代孙只继承了约千分之一（ 2 10 ≈1000 ）的 “ 孔子基因 ” ，第 20 代孙只继承了约一百万分之一（ 2 20 ≈10 6 ），到目前的第 80 代，因 2 80 ≈10 24 ＝ 1 亿亿亿，就只继承了约１亿亿亿分之一的 “ 孔子基因 ”—— 这个数字与０有多大区别？虽然经女性传承的不姓孔的 “ 孔子后裔 ” 偶然也会与姓孔的 “ 孔子后裔 ” 婚配（血缘婚姻），把带出去的部分 “ 孔子基因 ” 又带回到姓孔的 “ 孔子后裔 ” 之中，但中国传统习俗强调 “ 同姓不婚 ” ， “ 孔子后裔 ” 总是尽量选择不姓孔的婚配对象，每代基因减半的发生概率仍然较大。遗传学上有个著名的群体遗传平衡定律：如果群体很大，个体随机婚配，且不考虑基因突变和自然选择的影响，则群体中各种基因类型的比率每代均保持不变。我们先假设 “ 孔子基因 ” 全部是与众不同的特殊基因。孔子在世时，中国实际人口约为 1000 万， “ 孔子基因 ” 在当时人口中所占的比率为千万分之一。现在中国人口超过 13 亿，是当年的 130 倍；按照平衡定律， “ 孔子基因 ” 在现代中国人口中所占的比率仍为千万分之一，在全国 13 亿人口中总共应有约 130 人份的孔子基因。既然 80 代以后的 “ 孔子后裔 ” 继承的孔子基因不到 1/10 24 ( １亿亿亿分之一 ) ，远低于全国人口中的平均值（１千万分之一），那么在全国人口中必然有一部分人所继承的 “ 孔子基因 ” 的份额高于这个平均值。这部分人只可能是通过女性传承的不姓孔的 “ 孔子后裔 ” 。这些不姓孔的后代之间，由于不适用 “ 同姓不婚 ” 的限制，可能多次交叉发生血缘婚配。从遗传学的角度看，正是这部分不姓孔的人比目前姓孔的 “ 孔子后裔 ” 更有资格姓孔。 2,000 多年前，孔子的传人孟子（非 “ 孔子后裔 ” ）就认识到： “ 君子之泽五世而斩，小人之泽五世而斩 ” ，即先辈对后世的影响经 5 代就基本上断绝。人们夸耀祖先往往是基于与某个显赫祖先有相同基因的假设，然而人类的遗传物质在后代个体中稀释（递减）的速度非常快，以至先辈的基因在第 6 代以后的某些个体中就很可能不存在了。因此从遗传学角度来说，我们整个社会应当淡化姓氏的概念，社会学界对所谓 “ 姓氏文化 ” 的研究，应立足于 “ 文化 ” 的传承而不是荒诞的 “ 血统论 ” 暗示。本文作者：严家新，中国生物技术集团公司武汉生物制品研究所基因工程室研究员，博士生导师。主要研究方向为病毒的分子生物学和分子进化论，以及狂犬病毒新型疫苗和诊断技术。; 个人分类: 姓氏文化|19123 次阅读|1 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 血统论

相关帖子

相关日志

关闭安全验证