科学网

 找回密码
  注册

tag 标签: 血统论

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

悼念黄帅是几个意思?
冯用军 2017-12-13 13:32
一个所谓的“反潮流革命小闯将”、“小学生事件主角”,因癌而逝,不但新闻报道遮天蔽日,连网上也是看取“悼念声一片”,这个新时代、这个新社会是肿么了? 尊师重道 立德树人 1979年,黄帅从北京大学附中高中毕业, 参加理工科高考,得到322.5分, 在填高考志愿时,她一口气写下4个选择都是北京工业大学。黄帅解释说,之所以这么做是为了确保能留在北京。 搞“株连九族”、“斩尽杀绝”是人治社会“丛林法则”背景下的反动落后产物,是反人类反社会的罪行,与文明新时代格格不入。 胡耀邦 的理念是与时俱进的,是真正的共产主义者的博大胸怀。难怪那 首献给胡耀邦同志的歌曲——《好大一棵树》,唱得天地动情。
个人分类: GHCRC全球人类浩劫研究中心|1509 次阅读|0 个评论
新的血统论会贻害无穷
热度 17 ailincnj 2015-3-21 18:06
  最近,湖南省发布了《 2015 年湖南省选调生选拔工作相关要求》,在湖南 14 个市州中,有 10 个要求考生必须是“全国‘ 985 ’、‘ 211 ’高校全日制应届本科及以上学历毕业生”(见《光明日报》 3 月 21 日)。非“ 985 ”、“ 211 ”高校毕业生就业时遭到歧视现象日益普遍,上海多年前就有入沪歧视政策,这两年有些本身就是三流学校,在招聘教师、研究生录取方面,不仅看文凭、成果,还要看血统,也就是本科毕业学校。这不仅有违公平原则,也违反了我国的《就业促进法》和《中共中央关于全面深化改革若干重大问题的决定》,决定中强调“规范招人用人制度,消除城乡、行业、身份、性别等一切影响平等就业的制度障碍和就业歧视”。 不看才能和后期的成长,通过一考把人生路堵死,这是何等的悲乎!过去还提“不拘一格选人才”,那怕你是自学成才,现在看来是倒退了。“唯学校论”是荒谬的,是不公平的。如果这样,那非“ 985 ”、“ 211 ”高校最好关门,免得误了学生。 感谢万恶的美英帝国的教育制度,去年从我们这个三流学校录取一位去哈佛大学、一位去哥伦比亚大学和一位去英国帝国理工,如果要象湖南那样看出身,或考国内那些985也许没有希望。请不要挡了年青人的路,他们也许前途无量,要有英雄不问出处的胸怀。建议有人通过行政诉讼来起诉那些有歧视的规定和单位,尽管不一定胜诉,也会为那些非“ 985 ”、“ 211 ”高校的学子们去抗争一把。    南京林业大学风景园林学院哈佛女孩王雪诗 南京林业大学信息学院 学霸夏丽娟,在本科期间发了5篇SCI论文, 收到了 包括 英国帝国理工 在内的6所外国名校的offer          南京林业大学木结构建筑专业才子王智恒,现就读于美国哥伦比亚大学
4111 次阅读|51 个评论
一篇 "它引" 上万的大牛论文 与 数据血统论-- 趣味数据挖掘之三
热度 21 tangchangjie 2011-12-1 08:18
一篇 "它引" 上万的大牛论文 与 数据血统论-- 趣味数据挖掘之三(唐常杰)   本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被引用了11480 + 次),最后关注此文的实际影响 与 传统影响因子的差距。 有言在先,趣味数据挖掘和趣味数学一样,有些段落比较细致,此文虽只要中学数学知识,但须静心把它当回事,或许要在草稿上写画,才读得顺畅。    1 朴素挖掘方法中的组合数呈指数增长 。上文中,关联规则朴素挖掘法的主要脉络是 “组合对象--选举-唱票-计票”。人们说组合对象数量很大,究竟大到什么程度?   从m个对象中选k个对象的组合数记为C(m,k), 中学数学中, C(m,k)=m!/k!(m-k)!, 下面简单估计它的增大趋势: C(m,k) 是二项式(1+x) m 展开后第k+1项系数,令x=1,容易得出    ∑C(m,k)= (1+1) m = 2 m 所以,二项式展开后的m+1个系数的平均值为2 m /(m+1) , 其分布称为二项分布,中学数学给出前几个是(1,1)( 1,2,1) (1,3,3,1) (1,4,6,4,1),…大致规律是两头小,中间大,还可用杨辉三角形计算。 中间的系数远大于平均值 2 m /(m+1) . 所以说,组合数是大致随m的指数增长的。 于是,朴素挖掘方法耗时也随m的指数增长的,当m=10 5 ,(一个超市中的物品数量),2 m /(m+1) 可是天文数字! 为解决朴素挖掘方法中组合爆炸问题 ,R. Agrawal和 R.Srikant与1994年提出了Aprior算法。    2 Aprior性质 与 数据血统论:高频集的子集一定是高频集   Aprior,形容词,发音 , 其译意包括:演绎的、先天的、先验的、推测的、演绎的、事前的,等等。   笔者体会,Aprior算法命名是采用“先天的”这一层意思(曾与R.Agrawal同登黄山,但兴奋中忘了问这个问题)。   Aprior性质说: 高频集的子集一定是高频集 ,这相当于“龙生龙、凤生凤”,注意,它并未断言“老鼠生儿打地洞”,所以,属于半血统论。   社会生活中,血统论带来不公平,22个世纪前,大泽乡起义的带头人陈胜,代表老百姓的发出了一声呐喊:“王侯将相宁有种乎?”,它穿越时空、而今还振聋发聩(典出《史记·陈涉世家》)。   数据空间中的血统论带来了数据的不公平,正好可用于数据剪枝,尽早排除哪些不必要扫描的对象,从而提高计算速度。   这个数据血统论 有下列两层意思:    2.1,从高频集看其子集   用乒乓球竞赛作比喻,设在10次竞赛中有5次以上夺冠的选手的称为高频选手,(相当于支持度阈值=5/10);   Aprior性质说:如果双打组合 {A, B} 是高频的,则其子集{A}和{B}都是高频的。   为什么?因已知A, B联手5次夺冠,A还可能和其他选手联手或单打而夺冠,所以A的夺冠总次数不低于5。   Aprior性质对任意k项集都成立,双打只说了k=2的特例;人们都承认它,有公理体系之洁癖的数学美爱好者,也可在一番定义之后去证明它。       2.2 Aprior构造性命题 :(k+1)项的高频集一定可以用其两个k项的高频子集 连接而成 。   例如,上篇博文中 k=3时, {烤鸭,面饼,面酱} 是高频集,用 JOIN 表示数据库中的连接运算,则这个三项集可用两个双项(高频)集 连接而成,如下所示:    {烤鸭,面饼} JOIN {面饼,面酱} == {烤鸭,面饼,面酱} 要点是,两个记录中的“面饼”作粘连项,用数据库的行话,是两个只有一行的表(关系)做等值连接。   一般地描述,(k+1)项的高频集有(k+1)个k项子集(且都是高频的),容易找到其中的两个,使他们有K-1项相同,连接即可。         3 迅速排除非高频集的法宝   上述Aprior构造性命题的逆否命题是“不能用两个k项高频集连接而成的k+1项集,一定不是高频集”,使得我们能用构造性命题把高频候选集 迭代地、循序渐进地、一个不漏地 构造出来,因为凡是构造不出来,都要排除,不必操心。   这是我们迅速排除非高频集、缩小候选空间的法宝。大致思路的估计如下:   摸着石头过河 试探地确定支持度阈值 。 假定超市有10万种商品,想找出同时被购买得比较多的K项集合,K=1,2,..,10。什么是“比较多”?怎样选择支持度阈值T?    T=0.01; 满足此阈值的项多,挖掘系统计算很长时间才算完,可能经济意义小;    T=0.95 ,可能太大,类似于元宵节大部分家庭买汤圆,平时满足此阈值的商品少,甚至为空集;挖掘系统很快(几秒钟-几分钟)就算完了。    选T=20%,即有20%的顾客都买的货物,(这类商品真实存在,例如食品、餐巾纸,卫生纸等等)。比较中庸,有意义,中等时间消耗。     4 Aprior原理作迅速剪枝    下面,为了找到量的感觉,将用常识与合理假定,给出一些具体的数据。 4.1 先找出高频单项集 。 设 挖掘系统扫描数据库得知,支持度不小于20% 单项集 只有 100项。 这一次从10万项中剪掉了99.9%。 4.2 只有高频单项集 才有资格 组合成高频双项集的候选集(根据构造性命题) 这个消息太好了,按照Aprior原理,不需扫描 10万种商品,而只需考虑100项商品组成的双项集,他们一共有100(100-1)/2 =4950项,如果采用朴素的笨方法,从10万项产生双项集,会有10^5 *10^5-1)/2 10^9项! 这一次剪掉的不少于99.9999999% 当然,没被剪枝的,还需要扫描一次流水账,核实其高频性。 设 4950个双项集中,支持度不小于20%的只有 10项,(双项高频集比单项集要难一些,因为项与项需要“缘分”才能被同时购买),则4940项及其超集都被剪掉了,这一次又剪掉4940/4950=99.7% 4.3 只有高频双项集 才有资格连接成 高频三项集的候选集 10个双项集,彼此连接,产生的三项候选集超集不会超过10*9/2=45项,还不太多,核实其高频性也比较容易了。 以此类推…. 总的思想, (a)知道了某项不是高频集,就把它排出;(b)因为它的血统不够高贵,其超集合的血统一定不高贵,也被排除;(c)在理想参数下,每次可能排除绝大部分。 这就是我们用来剪枝,加快的法宝。    5 一举成名的高被引用论文之特征   Aprior算法是IBM Almaden研究中心的 R. Agrawal和 R. Srikant在1994年提出的,发表在数据库界的顶级国际会议 VLDB 94 上,在Google 上一搜即得,有兴趣者不妨实查一下,它被引用了11480+ 次,也可在本文附件中下载。   这是顶级科学家在顶级国际会议上的一个方向的开创性论文,因为紧凑,原始文献比教科书中相关章节稍难读,更不像科普博文这样浅显。笔者在教学中,常推荐给新入门者,因为它有下列特色: (1) 它于无中添有 ,高频数据的先天性质(Aprio性质)天天摆在光天化日下,被普通人熟视无睹、擦肩而过,人群中,有一个人-- R. Agrawal,就像王菲在《传奇》中唱的,多看了它几眼,捅破了这层窗户纸,在人类知识上无中添有(这就是创新),窗户纸有个特点,未破之前,百思不得其解,捅破之后,一目了然,大众认可; (2) 它也兴风作浪 — 独特的算法,并不复杂,掀起了一阵关联规则研究的潮流。 (3) 它像破冰船 ,破开了关联规则研究方向的拦路坚冰; 它像推土机 ,推开了露天煤矿的表土,又不独贪(矿场太大,也无法独贪), 留给后来者的,不是榨干了油水的骨头 ,所以才有大批后来者跟踪、改进,引出了后来的成百上千篇的改进型论文,才有上万次的引用。 (4) 它很完整 ,有背景,有模型,有形式化描述,有理论、有算法,这也是数据挖掘界学术论文的标准写法,初学者可在这里学思想、学写法,学实验; (5) 它有大规模实验验证 ,实验数据含10 5 个记录,这在当时已经是的“海量”了,当年用的计算机是IBM RS6000,主频 33M,也许在1994年是不错的设备,今天看来,并不高贵。在大规模的数据集上测试算法的规模伸缩性,是如今数据挖掘论文攀登顶级会议的必要条件。 6 十大算法的Top4 在2006年,国际数据挖掘界推选十大数据挖掘算法,经过严密的程序,几个国际会议程序委员会( KDD-06, ICDM '06, SDM '06 ,ACM KDD Innovation Award and IEEE,ICDM )的提名 ---投票---辩论,最后Aprilori 算法名列十大算法的第四名。(关于十大算法,另择机讨论)。 7 不公平的影响因子 VLDB顶级国际会议,一年只有几十篇论文的空间,进入VLDB似乎比进入奥运会还要难,但会议论文既不上EI,也不上SCI。ISI不计算其影响因子,或ISI影响因子为0。   根据DBLP和Google的论文统计,从1994-2003年,SIGMOD文章平均被引用70次,VLDB文章平均被引用50次。简单抽样表明,引用高峰在前两年,各占10年中引用数的20%以上,如果这个抽样有一般性,则 实际 影响因子可能不小于 10 ,甚至不小于14。   而论文 被引用11480 + 次,是特例中的特例,可能进入计算机科学论文被引用次数的高端了。       8 假如R.Agrawal在中国 目前,我国若干学校和科研单位单位并不承认国际会议论文。可能是因为制定科研成果认定政策的官员,多非计算机专业人士,他们只认SCI-EI,而不认这些顶级会议。(相关问题,或许另择机讨论)。   所以,如果R. Agrawal,和 R. Srikan在中国,如果他们鼓起勇气,用那篇开创性的论文 作为申请博士学位或作为提职称的主打材料,可能会像刀郎唱的,受到“冲动的惩罚”。 最近有了好消息,中国计算机学会(CCF)公布了一个“推荐国际学术会议”清单,其中包括数据库界的四个顶级会议:SIGMOD,VLDB,ICDE 和 SIGKDD,也许这个推荐清单还不足以说服有关官员,但抗争者至少有了一点批判的武器,不再是手无寸铁。 参考文献 R Agrawal, and R Srikant .”Fast Algorithms for Mining Association Rules in Large Databases”, Proceedings of the 20th International Conference on Very Large Data Bases, p.487-499, September 12-15, 1994. 点击这里下载 R Agrawal关于关联规则的开创性论文.pdf 相关博文 1 “被打”和“北大” 的关联 --- 趣味数据挖掘系列之 一 2 烤鸭、面饼和甜 面酱之朴素关联 --- 趣味数据挖掘系列之二 3 一篇它引上万的大牛论文与数据血统论-- 趣味数据挖掘之 三 4 巧挖科学博客之均击量公式,兼谈干预规则 ---- 趣味数据挖掘之四 5 听妈妈讲 过去的故事,分房与分类 ----- 趣味数据挖掘之五 6 借水浒传故事,释决策树思路--- 趣味数据挖掘之六 7 宴会上的聚类 — 趣味数据挖掘之七 8 农村中学并迁选址、K-平均聚类及蛋鸡悖论--趣味数据挖掘之八 9 灯谜、外星殖民、愚公移山和进化计算 --- 趣味数据挖掘之九 10 达尔文、孟德尔与老愚公会盟:基因表达式编程--趣味数据挖之十 11 十大算法展辉煌,十大问题现锦绣---趣味数据挖掘之十一 12 数据挖掘中的趣味哲学 --- 趣味数据挖掘之十二 其它系列博文的入口 唐常杰博客主页 科学博客主页
个人分类: 科普札记|23904 次阅读|42 个评论
今孔子后代最不该姓孔
yanjx45 2010-3-16 15:13
一篇科普小品入选《 2009 中国最佳杂文》 博主在 2009 年第 3 期的《环球科学》杂志上曾发表一篇科普小品,原题为“ 遗传学不承认‘孔子后裔’ ”。此文入选辽宁人民出版社出版的《 2009 中国最佳杂文》 (主编王蒙,分卷主编王乾荣),入选时换了一个题目。 今孔子后代最不该姓孔 在遗传学家看来,世界上根本就不存在 “ 孔子后裔 ” ,或换一种更确切的说法:根据遗传学基本原理,当前正宗 “ 孔子后裔 ” 继承的孔子的遗传物质其实最少,他们最不应当姓孔;而有些目前不姓孔的人继承的孔子的遗传物质却可能更多,更应姓孔。 对姓氏的研究,可分别从社会学和遗传学的角度来进行。在这两个领域中,姓氏的内涵差别很大。目前,社会上有不少人认可甚至津津乐道 “ 孔子后裔 ” 这个概念,但在遗传学家看来,世界上根本就不存在 “ 孔子后裔 ” ,或换一种更确切的说法:根据遗传学基本原理,当前正宗 “ 孔子后裔 ” 继承的孔子 的遗传物质其实最少,他们最不应当姓孔;而有些目前不姓孔的人继承的孔子的遗传物质却可能更多,更应姓孔。在社会学家看来,这种说法也许是奇谈怪论,然而在遗传学家看来却是不争的事实。 每个人的祖先数目都随世代增加而按几何级数递增:每个人都有父母2人,祖父母和外祖父母共4人,曾祖父母和外曾祖父母共8人 …… 如此类推,上溯 10 代,应 有约 1000 个祖先( 2 10 = 1024) ;上溯 20 代(仅 600 年左右) , 就应有约 100 万个祖先( 2 20 ≈10 6 )。 理论上,每个后代都有均等的机会,从这 100 万个祖先各继承百万分之一的遗传物质。如果上溯 50 代~ 100 代呢?得到的将是天文数字。我们每个人都继承了 庞大姓氏的血统,在每个人的家谱中,只要耐心地多上溯几代,几乎都能查到百家姓里所有的主要姓氏,同时沿父系和母系多上溯几代,有时甚至能查到在历史上极 著名的人。 中国人的姓氏并不多,常见的 100 多个姓氏便囊括了近 90 %的汉族人口。不同程度的血缘婚姻(更不用说同姓婚姻)实际上不可避免地经常发生。 “ 孔子后裔 ” 到底继承了多少孔子的血统?现代遗传学已确定的一个基本事实是:人体每个细胞有 46 条( 23 对)染色体,染色体是遗传信息(基因)的主要载体,每个人都只能从父母双方各获得一半的遗传物质(即 23 条染色体)。 我们可以反过来从某个先辈出发,来估算先辈与后代在遗传方面的数量关系。在后代中,基因减半的过程每传一代都会发生一次,所以后代继承某个特定祖先基因的 数量,随传代次数的增加而按几何级数迅速递减。假定孔子的遗传物质( “ 孔子基因 ” )全部是特殊类型的基因(事实上,不同人的基因有 99.99% 都是相同 的),并且没有血缘婚姻发生,那么孔子的第 6 代后裔就只继承了 1/64 ( 2 6 = 64 )的 “ 孔子基因 ” ,其余 63/64 都来自外姓祖先。这就是说,就个体而言,在孔子的第 6 代子孙的细胞中, 46 条染色体里最多只可能有 1 条来自孔子,而其余 45 条都来自外姓。再往下每传一代,后代连一条孔子的染色体都没有的概率就增加一倍,即越来越多的 “ 孔子后裔 ” 实际上没有继承孔子的任何遗传 信息。 以此类推,就群体而言 (为简化计算,在 此暂不考虑 Y 染色体的特殊性,留待另文专题讨论), 孔子的第 10 代孙只继承了约千分之一( 2 10 ≈1000 )的 “ 孔子基因 ” ,第 20 代孙只继承了约一百万分之一( 2 20 ≈10 6 ), 到目前的第 80 代,因 2 80 ≈10 24 = 1 亿亿亿,就只继承了约1亿亿亿分之一的 “ 孔子基因 ”—— 这个数字与0有多大区别? 虽然经女性传承的不姓孔的 “ 孔子后裔 ” 偶然也会与姓孔的 “ 孔子后裔 ” 婚配(血缘婚姻),把带出去的部分 “ 孔子基因 ” 又带回到姓孔的 “ 孔子后裔 ” 之中,但中国传统习俗强调 “ 同姓不婚 ” , “ 孔子后裔 ” 总是尽量选择不姓孔的婚配对象,每代基因减半的发生概率仍然较大。 遗传学上有个著名的群体遗传平衡定律:如果群体很大,个体随机婚配,且不考虑基因突变和自然选择的影响,则群体中各种基因类型的比率每代均保持不变。我们 先假设 “ 孔子基因 ” 全部是与众不同的特殊基因。孔子在世时,中国实际人口约为 1000 万, “ 孔子基因 ” 在当时人口中所占的比率为千万分之一。现在中国人口 超过 13 亿,是当年的 130 倍;按照平衡定律, “ 孔子基因 ” 在现代中国人口中所占的比率仍为千万分之一,在全国 13 亿人口中总共应有约 130 人份的孔子基因。 既然 80 代以后的 “ 孔子后裔 ” 继承的孔子基因不到 1/10 24 ( 1亿亿亿分之一 ) ,远低于全国人口中的平均值(1千万分之一),那么在全国人口中必然有一部分人所继承的 “ 孔子基因 ” 的份额高于这个平均值。这部分人只可能是通过女性传承的不姓孔的 “ 孔子后裔 ” 。这些不姓孔的后代之间,由于不适用 “ 同姓不婚 ” 的限制,可能多次交叉发生血缘婚配。从遗传学的角度看,正是这部分不姓孔的人比目前姓孔的 “ 孔子后裔 ” 更有资格姓孔。 2,000 多年前,孔子的传人孟子(非 “ 孔子后裔 ” )就认识到: “ 君子之泽五世而斩,小人之泽五世而斩 ” ,即先辈对后世的影响经 5 代就基本上断绝。人们夸 耀祖先往往是基于与某个显赫祖先有相同基因的假设,然而人类的遗传物质在后代个体中稀释(递减)的速度非常快,以至先辈的基因在第 6 代以后的某些个体中就 很可能不存在了。 因此从遗传学角度来说,我们整个社会应当淡化姓氏的概念,社会学界对所谓 “ 姓氏文化 ” 的研究,应立足于 “ 文化 ” 的传承而不是荒诞的 “ 血统论 ” 暗示。 本文作者:严家新,中国生物技术集团公司武汉生物制品研究所基因工程室研究员,博士生导师。主要研究方向为病毒的分子生物学和分子进化论,以及狂犬病毒新型疫苗和诊断技术。
个人分类: 姓氏文化|19123 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 17:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部