科学网

 找回密码
  注册

tag 标签: 关联分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

机器学习之关联分析——Apriori代码一
iggcas010 2018-6-23 21:41
上次的代码终于调好了,好累啊! 接上次博文: \0 http://blog.sciencenet.cn/home.php?do=blogid=1119829mod=spacequickforward=1uid=1966190bsh_bid=2094879447 \0 《机器学习实战》 这本书里的代码可以用在python27中,我这python365得不到正确结果。 于是本人给代码进行“换血”改成python365可用的程序,费了我好几天时间。 附件竟然不支持这种文件上传,好吧,我传到了百度云。 7天内有效 ,时效过了还想要给我发邮件。邮件地址之前的博文有。 链接: https://pan.baidu.com/s/1hC9Ju9NFY1XIHKQT23dPqA 密码:uqp9 网上所见全部是上面那本书中的,甚至一点都不改,有的还抄人家的书发成博文,无耻!!! 本人仅仅参考思路,将程序进行了修改。 调用方法如下: importmy_apriori2asma data= , , , ] #1包子2油条3豆浆4煎饼5香肠 data2= , , , ] data=data2 min_supp=0.5 C_all,_=ma.ctotal(data,True) #这个函数第二个参数要么是最小支持度,要么是True #最小支持度时计算满足最小支持度的组合,是True时生成所有组合 print('所有的组合情况如下:\\n',C_all) C_length=ma.c_length(C_all) clen=len(C_all ) ##print(C_length==2**clen-1) C,C_supp=ma.ctotal(data,min_supp) print('满足最小支持度的组合如下:\\n',C) 结果为: 所有的组合情况如下: , , , , ], , , , , , , , , , ], , , , , , , , , , ], , , , , ], ]] 满足最小支持度的组合如下: , , , ], , , , ], ]] 这种结果与将字符串换成数字是一样的,自己可以试试哈。 看到这个结果或许你再也不吃路边摊的早点了,老是 包子、油条、豆浆、煎饼、香肠 ,都想吐了 \0 \0 \0 \0 \0 \0 本人的结果和那本书中结果一致。截图如下: 下期预告:发掘关联规则
2065 次阅读|0 个评论
机器学习之关联分析——Apriori算法一
iggcas010 2018-6-19 23:53
千呼万唤始出来,犹抱琵琶半遮面。 本文仍旧进展很慢,因为 纯粹的说教毫无意义,不放代码的博文都是耍流氓。 本文暂时耍个流氓,明天或者后天将代码补上这里。因为这周比较忙,开始慌了。 \0 \0 \0 \0 一、Apriori 到底是什么 ? 学过 反演理论 的童鞋应该对 A priori 不陌生,对,就是‘一个先验信息’,先验信息在优化问题、数值求解中非常重要。如果先验信息找的好,非常省力,求解时间很短,找的不好可能得不到真实解,也可能无解。 1.1 先验信息到是什么? 我们对要求解的问题总会或多或少地知道 ‘一点’答案信息,比如双色球,蓝球肯定是 1~16 之间,红球肯定是在 1~33 之间,并且 6 个球不一样,顺序无要求。有人说,这是废话,知道这些东西还是中不了奖,哈哈,正常!再比如,我可以知道你要么单身,要么有对象,如果有对象,虽然我猜不到你对象是男女,但我能猜到你对象一般应该有两个胳膊、两条腿,不要说就你特殊哈,不耐烦了吧,其实 先验信息就是依据惯例所知道的东西,关键在于怎么用。 在上次的博文中提到路边摊卖的早点,根据先验信息,我们知道五种食品的组合(项集)只有以下几种(不可能出现什么都不买,让老板给你打印个购物单,肯定怼死你, “ 神经病 ”)。若采用暴力算法去算,经繁琐计算知道其项集组合应该有下面 31 种情况,分别是组合 ,其和就是31。采用二项式系数展开定理我们知道,如果有 n 个项,那么所有的项集有?种可能(如果自己推不出,可以发邮件问我) 上图在排列组合过程中很费劲,因为要把所有的情况考虑到,因此暴力算法也称蛮力算法、穷举算法。如果某店铺有 20 种零食,它们的项集有多少种可能呢?来,心算一下,结果是 1048576-1=1048575 ,你把这个数字给老板还不一巴掌啪死你。因此,我们要考虑实际情况,参照实际的售卖情况进行简单的统计, 如果出现某个项集(比如 { 油条,豆浆 } )的概率较大(也就是频繁),那么我们可以确定出现 { 油条 } 或 { 豆浆 } 的概率也很大 ,这就是所谓的 Apriori 原理, R U Clear? 这是什么鬼??它的逆否命题为, 如果子集不频繁,那么该子集的超集也不频繁 。 1.2 超集是什么? 在上一个博文中,支持度的概念里面应该提到超集,支持度是出现的项集只要包含指定项集即可,也可能有其他项。此时,包含项集的集合就是超集,超集的概念与子集相对。咱玩点文字游戏:空集是任何非空集合的真子集,此时的非空集合就是空集的真超集。 任何集合都是它本身的子集,同样也是它本身的超集。( 无聊 ) Apriori原理很强,如果儿子不肖,那么老子也不怎么样!是不是很强?! 咱回到初衷 ——关联分析,那么 关联分析的目的 就是 寻找频繁项集,并发掘关联规则 那么Apriori到底有什么用,是不是还没发现? 回想一下怎么提出 Apriori 的,是不是因为项的组合——项集太多,而不能用暴力算法计算,又因为我们只关注频繁项集,对于那些不频繁的项集就不予考虑,而 Apriori 就是一种发现频繁项集的方法,如果 { 豆浆 , 香肠 } 是不频繁项集,那么它的超集也是不频繁的,其支持度无需再计算了。因此 Apriori 只需知道最小的 支持度( 这是需要知道的参数,需要指定 ) ,将大于该支持度的项集保留,而其他项集去掉。这就是Apriori的具体作用。 1.3 伪代码在这 那么Apriori算法流程是:参考人民邮电出版社《机器学习实战》 1 首先生成所有单个物品的项集列表 2 遍历数据集中所有项集,将不满足最小支持度的项集去掉 3 对剩下的项集组合,生成包含两个元素的项集 4 重新遍历数据集,去掉不满足最小支持度的项集 5 重复上述过程,直到所有项集都被去掉 代码在哪里?欲知后事如何,且听下回分解。 (还在调代码中……)
6090 次阅读|0 个评论
机器学习之关联分析初步——概念
iggcas010 2018-6-17 23:50
本文介绍关联分析相关的基本概念 关联分析 :从大量的数据中寻找事物之间的隐含关系,称为关联分析,有的教材称关联规则学习。 任何事物之间都是有关的,发现它们之间的隐含关系非常重要,本宝宝就不提啤酒和尿不湿的关联了。这种看似没有任何关系的东西其实也是有交集的,发现这种深层的关联关系对于商品定价、销售、促销、存货都有很大的帮助。获得顾客购买物品的信息就可用于类似商品的推荐和销售,以及关联商品的销售。一个顾客、很多顾客都出现的关联商品的销售应该引起管理人员的注意,这种频繁出现的关联信息就是 频繁模式 。 先解释下什么是 频繁模式 : 望文生义也能猜到,频繁模式就是频繁出现的模式,而模式又是事物赖以存在的形式(前面博文提到过),因此,频繁模式可以解释为:在数据集中频繁出现的项集、子序列、子结构等模式。 关联分析的目的是什么?—发现频繁项集,发掘关联规则 频繁项集 :经常出现在一起的事物的集合,例如上面的啤酒和尿不湿,用大括号哈 {啤酒 , 尿不湿 } ,这就是一个集合, Python 的集合也是这么表示的。 有的说项集是项的集合,也就是说,啤酒是 项 ,尿不湿也是 项 。 关联规则 :就是两者之间紧密联系的关系,可用箭头表示,尿不湿— 啤酒,意思就是买了尿不湿可能就会买啤酒。 那么如果有人有疑惑?到底频繁和我们经常说的频繁有没有区别,或区别在哪里? 频繁 到底是怎么定义的呢?一天吃三次饭,跑两次步?这是一种频次表示,不够书面(高大上),总有些学者创造一些新的名词,显得自己逼格高,别人都不懂, 不明觉厉 !听了报告只能说, “厉害”,到底哪里厉害又说不上来,这就是一种屏蔽小白的方法。 在描述频繁的概念中有两个名词经常用到,一个是 支持度 (瞬间恼火,联想一下支持向量,哈哈),一个是 可信度 (有的叫置信度,和统计学里面的置信度概念是差不多的,可简单理解为概率)。 下面解释支持度和可信度 支持度 :数据集中该项集出现的概率,(只要包含该项集即可,含有项集外的项也可以) 可信度 :这个概率是针对关联规则来说的,买了尿不湿又去买啤酒的概率是多大?这个信息很重要,尤其是对老板来说。 下面举例子说明支持度和可信度: 路边摊卖早点的地方,一般都有 包子、油条、豆浆、煎饼、香肠 顾客的购买情况可能是: 序号 清单 1 油条、豆浆、香肠 2 包子、豆浆 3 包子、油条、豆浆、香肠 4 油条、煎饼 5 煎饼、豆浆、香肠 6 油条、煎饼、豆浆 7 包子、油条、煎饼、豆浆、香肠 在上面 7 条交易记录(序号和项集有的称事务)中, { 包子 } 出现 3 次,则支持度为 3/7 , { 油条,豆浆 } 出现 4 次,支持度为 4/7 ,很容易理解吧。 { 油条 } 出现的 5 次,支持度为 5/7 ,那么油条 — 豆浆的可信度为 “在油条事件发生的情况下,发生豆浆事件的概率”也就是{油条,豆浆}的支持度/{油条}的支持度,这里为 (4/7)÷(5/7) =4/5 , 可信度是不是就是条件概率。 当数据量比较大时寻找事物之间的组合比较困难,特别是采用暴力方法(Brute Force)无疑是最笨的,那么如何高效地获得频繁项集呢?好,这是下一个博文的重点—— Apriori 算法
3061 次阅读|0 个评论
小麦穗粒数转录组分析(四)----使用plink进行关联分析
mashengwei 2018-4-3 17:29
4/ 4 本期作者:Neal 使用plink进行关联分析 这是一个系列,也请参考以前我们的推送。 小麦穗粒数转录组分析(一) 小麦穗粒数转录组分析(二)——SNP的筛选 小麦穗粒数转录组分析(三)-----Fst的计算 关联分析我们常用的软件有tassel,plink。其中tassel是图形化界面,想必大家比较熟悉。记得以前看过农大杨小红老师的一些关于关联分析的介绍,我传到百度网盘有需要了解的可以去下面的网址下载。 链接: https://pan.baidu.com/s/1QLoTBNzXt2FY1vpb6O3THA 密码: vtem 今天我们要谈的是另外一个软件plink。PLINK是Percell实验室开发的一款适用于大样本GWAS(Whole Genome Association Analysis Study)研究的一个开放免费的强大分析工具集。可以实现包括数据统计、数据质控与过滤及数据分析的强大软件。支持windows,mac和linux。 目前2.0版本支持vcf输入文件,所以可以使用我们前面生成的vcf文件作为输入文件。90 mini core SNPs INDEL HC for_GWAS.vcf,但是要注意要将小麦染色体名称换成1-21,即 chr1A换成数字1,chr1B换成数字2,以此类推。 第二要注意的就是表型文件的格式,其中FID和IID这两列要与vcf文件中每个品种的名称对应,即基因型与表型的名称要对应,两者在顺序上最好也对应。如果表型有缺失,使用1000代替。格式如下图: 运行命令如下 . /plink --vcf 90_mini_core_SNPs_INDEL_HC_for_GWAS.vcf --assoc --adjust --pheno ./ trait_plink . txt -- all - pheno -- allow - no - sex -- missing - phenotype 1000 -- out 90 _mini_core_grain_weight # 其中 --all-pheno 表示对所有的表型进行关联分析,其中 trait_plink.txt为表型文件,格式如上面所述,生成.qassoc.adjusted,.qassoc,分别是校正p值和原始p值。 这只是一个最基本的命令,plink里有很多参数和统计模型等,我也是初次接触,这里就不在一一阐述了,免得引起误导。大家可以参考官方写的文档以及一些已发表的文章,结合自己的数据特点合理使用。 我们从数据的下载到今天介绍关联分析的教程,都非常初级,都是基本的介绍,算是起到一个引路的作用。 下面的推送我打算说一说LD map的展示。类似下面的图。 欢迎关注 “ 小麦研究联盟 ”, 了解小麦新进展 投稿、转载、合作以及信息分布等请联系: wheatgenome
1354 次阅读|0 个评论
小麦穗粒数转录组分析(一)
mashengwei 2018-2-17 22:12
2 14 本期作者:Neal 小麦穗粒数转录组分析 过年回家,胖丫要经受两方面的考验。首先是“逼婚以及生孩子”,老大不小了怎么还不结婚,老大不小了怎么还不生孩子;再次是毕业问题,老大不小了怎么还不毕业。这两个问题,实在是让胖丫难以给他们确定的答复,每次都是搪塞过去。苦口婆心的举了很多例子,如果最后还是油盐不进,最后总会来上这么一句“上学上傻了”。听到这句话,胖丫也不去辩解,因为自己也曾一度怀疑是否真的上学上傻了。如果听到还在读博士,往往是一副羡慕的样子,总是说,下来能挣大钱了。胖丫总是说,赚不了大钱,读书都读傻了,不可能赚大钱了。 今天就说到这,以后有机会再聊,说会到我们今天的正题。中国科学院遗传与发育生物学研究所焦雨铃研究组和中国农业大学王向峰研究组合作,利用前人筛选出的我国小麦微核心种质,通过转录组关联分析和基因共表达网络分析的策略研究了幼穗发育的基因表达调控网络,并验证了其中的关键因子在穗粒数调控中的作用。研究结果得到了多个与穗粒数相关的核心共表达模块。研究人员对其中10个基因进行了过表达分析,发现过表达基因TaTFL1可以延长幼穗分化时间,增加小穗数,小花数和穗粒数;过表达基因TaPAP2, TaVRS1可以缩短幼穗分化时间,减少小穗数,小花数和穗粒数。以上研究结果为研究人员进一步解析小麦穗发育的遗传调控提供了理论基础,并为有效利用与穗粒数相关的分子模块进行了初步技术验证。 该研究结果于2017年8月14日在线发表在Plant Physiology上(DOI: 10.1104/pp.17.00694,题目是“Transcriptome Association Identifies Regulators of Wheat Spike Architecture”。焦雨铃研究组的博士后王元格和已毕业博士生于浩澎为该文章的共同第一作者。焦雨铃研究员和王向峰教授为共同通讯作者,中科院遗传发育所童依平研究员和高彩霞研究员参与研究。 以上是文章的新闻稿,提供给大家做个了解。今天我们结合另外一篇发表在Front. Plant Sci.上的文章来进一步解读,该文的题目是“A Combined Association Mapping and Linkage Analysis of Kernel Number Per Spike in Common Wheat ( Triticum aestivum L.)”。下图列出了文章的作者信息,相信一定有很多小伙伴熟悉。 请点击输入图片描述 Kernel number per spike (KNPS) in wheat is a key factor that limits yield improvement. In this study, we genotyped a set of 264 cultivars, and a RIL population derived from the cross Yangmai 13/C615 using the 90K wheat iSelect SNP array. We detected 62 significantly associated signals for KNPS at 47 single nucleotide polymorphism (SNP) loci through genome-wide association analysis of data obtained from multiple environments. These loci were on 19 chromosomes, and the phenotypic variation attributable to each one ranged from 1.53 to 39.52%. Twelve (25.53%) of the loci were also significantly associated with KNPS in the RIL population grown in multiple environments. For example, BS00022896_51-2ATT , BobWhite_c10539_201-2DAA, Excalibur_c73633_120-3BGG , and Kukri_c35508_426-7 DTT were significantly associated with KNPS in all environments. Our findings demonstrate the effective integration of association mapping and linkage analysis for KNPS, and underpin KNPS as a target trait for marker-assisted selection and genetic fine mapping. 这两篇文章所用材料都有小麦微核心种质,如果结合两个结果是不是有意思的结果出来呢?实际上第一篇文章也是可以做关联分析的。下面我们就一步一步来,实际上这也是我的实验记录。 首先要在NCBI上下载数据,这一步略去不表,参见我们以前的推送 SRA数据的下载以及在线blast--或许与你了解的不一样 这第二步就是将下载的数据mapping至中国春基因组,并获得包含变异信息的gvcf文件。因为是转录组数据,所以mapping软件使用的是STAR,这里没有列出如何将基因组序列index。下面是流程,整个从流程从sra文件开始,到bam文件结束。具体应用到自己的项目上时,要根据需要修改。还是那句话,小麦里的变异分析,我也是新媳妇上花轿——头一回。 #!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = 'wheatomics' import subprocess with open ( 'input.txt' , 'r' ) as f : for line in f : line = line . strip (). split () sra , rg = line print sra , rg proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () # 1. Mapping reads with STAR proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () # 2. Metrics proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () # 3. Remove Duplicate Reads proc = subprocess . Popen ( , shell = False ) proc . wait () proc = subprocess . Popen ( , shell = False ) proc . wait () # 4. Split reads at Junction proc = subprocess . Popen ( , shell = False ) proc . wait () # 5. Indel realigner proc = subprocess . Popen ( , shell = False ) proc . wait () 得到bam文件之后,通过下面的命令就可以获得vcf文件 # 此处为命令示例,多个bam文件,可使用 -i 添加 sentieon driver - r / data2 / Fshare / FastaAndIndex / IWGSC_v1 . 0 _STAR / IWGSC_v1 . 0 _part . fasta -- read_filter MapQualFilter , min_map_qual = 60 - t 10 - i Aimengniu . realigned . bam - i Aodesa3 . realigned . bam - i Baibiansui . realigned . bam - i Baidatou . realigned . bam 下面这一步就是筛选SNP了,筛选这一步要到下期介绍了。后面会多一些发表文章常见的结果。因为本文是90个材料的RNA_seq的数据,所以会包括群体遗传分析和进化方面的一些内容,下面推送会包括以为内容,GWAS,eGWAS,结合其他已知信息尝试锁定QTL候选基因等。 最后祝大家假期愉快,万事如意 !还有,情人节快乐 ,单身的早日找到另一半 欢迎关注 “ 小麦研究联盟 ”, 了解小麦新进展 投稿、转载、合作以及信息分布等请联系: wheatgenome
6510 次阅读|0 个评论
使用Plink将VCF转换为Treemix所需文件
qingdaoghawk 2017-3-17 09:21
材料介绍:11个地点的132个个体重测序,获得VCF格式数据,通过Treemix推测迁移事件。 1、使用vcftools将VCF文件转换成.ped(此格式丢失了数据,我换用了.tped格式)或者.tped格式文件; vcftools --gzvcf DK.vcf.gz --plink-tped --out DK 此步骤结束,可得到 DK.tfam 和 DK.tped 文件; 此时DK.tfam文件格式为:IID IID 0 0 0 0;每个个体一行;顺序为VCF文件中的个体顺序; 这里需要将格式转换成: FID IID 0 0 0 0; 此时DK.tped文件格式: 0 scaffold36:52 0 52 G G X X: 每个个体2个Allele;顺序排开; 2、使用plink统计allele的频数 plink --tfile DK --freq --noweb --missing --within pop.cov 其中 pop.cov中定义了每个个体属于哪个群体,格式如下; FID IID clusterID Egypt 161 1
个人分类: 关联分析|5772 次阅读|0 个评论
[转载]2b-RAD基因分型样品的制备
hsm 2015-7-21 17:25
实验试剂 1. ALFI (Fermentas, cat no. ER1801) 2. T4连接酶 (NEB, cat no. M0202) 3. ATP (NEB, cat no. P0756) 4. DNA聚合酶 (NEB, cat no. M0530) 5. dNTP (NEB, cat no. N0447) 6. 琼脂糖 7. 所有的连接子和寡核苷酸引物购于IDT 实验步骤 1. 酶切 1) 准备完整、高质量的基因组DNA样本,每个样本含量为1μg,在高浓度(至少250 ng μl -1 )。用无核酸水稀释所有样品至相同体积(4μL)。 2) 通过将以下物质加入一个试管中混合,获得酶切混合物。这里所指体积为单一一个反应的体积,因此乘以样本数,再多加上一些避免吸取导致的误差。 0.6μL 10×缓冲R 0.4μL 150μM的SAM 1.0 U AlfI 加入无核酸水(NFW)至总体积2.0 μL 3) 将 2μL酶切混合物与 4μL DNA样品混合,并在37℃孵育1小时,然后在65℃灭活酶20分钟,保持样本在冰上。 2. 接头连接 1) 准备2份双链接头,都用终浓度为4μM的寡核苷酸绑定,通过SLD- ada1-ALFI和反SLD- ada1连接准备接头1,通过SLD- ada 2 AlfI和反SLD- ada2相连接准备接头2。 2) 将下列物质混合在一个试管中来制备连接混合物,这里列出的体积为单一一个的反应体积,因此根据需要扩充体积。 0.5μL 10 mM ATP 2.0μL 10× T4连接酶缓冲液 2.5μL 5μM的接头1 2.5μL 5μM 的接头2 11.5μL NFW 3) 将5μL消化的DNA与20μL酶切混合物混合。孵育1小时(热灭活酶,16℃如ALFI,或未灭活酶,4℃,如BsaXI),放置冰上。 3. 条形码插入 1) 预试PCR确定最低循环数,并评估样品的相对产量。通过以下成分混合在一个试管内准备一份PCR酶切混合物。这里列出的体积为单一一个的反应体积,因此根据需要扩充体积。 6.5μL NFW 2.5μL 2.5 mM dNTP 0.4μL 10μM SLD-P5 0.4μL 10μM SLD-P6 1.0μL 1μM SLD-P3 1.0μL 1μM SLD-P4 (条型码) 4.0μL 5× HF缓冲区 0.2μ聚合酶 2) 每个样本将16μL酶切混合物与4μL接头子混合,应用以下程序:(98℃ 5秒,60℃ 20秒,72℃10秒) × 12个循环。 3) 每个反应5μL样品,两个循环时间间隔(N = 6,8,10,及12个循环)。每个采样间隔期间,可以暂停热循环。 4) 凝胶电泳(2%琼脂糖TBE缓冲凝胶)检测PCR 产物,使用小分子量的 marker。要求PCR产物大小?130 bp,选择循环的最低数。 5) 通过将以下成分混合来准备PCR反应的酶切混合物。这里列出的体积为单一一个的反应体积,因此根据需要扩充体积。 32.5μL NFW 12.5μL 2.5μM dNTP 2.0μL 10μM SLD-P5 2.0μL 10μM SLD-P6 5.0μL 1μMSLD-P3 5.0μL 1μMSLD-P4(条形码) 20.0μL 5×HF缓冲液 1.0μL 聚合酶 6) 将80μL酶切混合物与20μL接头子混合,并根据第4步确定使用最佳循环次数扩增。 4. 凝胶纯化 1) 2%琼脂糖凝胶,使用标准的电泳方法和标记物。 2) 设置紫外透射为低强度,观察目标条带(?130 BP),限制每个样品的紫外照射不超过30秒。 3) 从凝胶中切下所得条带,准备提取: a. 根据你所选择的胶提取试剂盒,根据说明提取 b. 将胶直接放入水中洗脱(1.5 ml离心管中40μL NFW),在4℃过夜,到第二天早上收集洗脱液。 4) 从每个准备液和混合液中收集小片段(2-10μl),然后测序。剩下的准备液可以20℃保存6个月。
1635 次阅读|0 个评论
EMMAX- efficient mixed-model association
lry198010 2010-5-26 23:23
最近,nature Genetics发表了一篇文章,文章主要介绍了利用一种新的工具软件进行全基因组关联分析的结果。EMMAX是一种进行关联分析的新方法,这种方法非常高效:平常需要几年才能完成的计算量,EMMAX只要几个小时就可以完成。他处理群体结构的方法与一般的软件不一样。看来,关联分析又有一场新的革命了。 Variance component model to account for sample structure in genome-wide association studies
个人分类: genetic association breeding|10772 次阅读|0 个评论
今天听关于关联分析和在作物育种中应用的一点总结
热度 2 lry198010 2010-5-17 20:56
,听了一个从CIMMYT回来的师兄的报告,题目是关联分析在作物遗传改良中的应用。觉得很有意思,在这里记录一下,与大家分享,可能某些观点和看法因为不能很好的理解从而记录有误,还请大家多担待。 首先介绍了目前国际作物育种所面临的新任务-哪就是解决世界人们的粮食需求,保证人们的温饱,并且提到:上一辈的育种家已经为世界粮食的增产做出了贡献,使得粮食的增长与人口增长及对粮食增长的需求相持平,但最近的20年,粮食增长的速度在放缓,年轻一代的育种家需要找出使粮食增产的新途径和新方法,而且这种新方法和途径与上一代绿色革命所用的方法可能会明显的不同(如何不同,在那些形式上)。在他看来,新一代的育种技术在遗传资源利用的广度和深度上将是传统育种方式所不能企及的,他觉得有信心能达到新时代下的育种目标:因为自然界中存在着广泛变异的材料,把这些变异好好的利用起来,就能满足地球人口对粮食的需求(个人觉得这一点还是有道理的,增加作物的抗旱、抗盐碱的能力,就可以扩大作物的种植面积,同时也能提高作物的产量效率;提高作物的肥料利用效率或者提高作物低肥的耐性,也可以在很大程度上提高作物的产量水平的;此外,充分利用和组合发掘的优良等位基因,也是可以预期育出高产作物品中的)。 接下来,介绍了什么是关联分析以及关联分析的度量LD值,并指出LD值在不同的群体之中,不同染色体位置是不一样的,在进行关联分析以前一定要注意关联分析群体的选择和群体结构的分析。虽然举了一个群体结构如何影响关联分析结果的例子,自己还是依旧不能理解:群体结构是如何影响关联分析的。 从关联分析的规模来说,一般有基于候选基因的关联分析方法和全基因组的关联分析方法。候选的关联分析方法可以从已知基因的功能出发,在群体中扩增分析这样特定基因,也可以从QTL mapping的结果出发,对某一区段的所有基因进行关联分析。这里他给出了一个最经典的例子就是玉米维生素代谢途径的候选基因关联分析法,并给出了利用这个方法找到了几个基因的几个位点,对群体中维生素含量的变异贡献率达到58%以上,把这些位点转化成标记,成功的利用到玉米的育种之中,有希望育成“golden maize”,与“dolden rice”相对应。此外,他们还根据文献等各种资料,对几百个基因做了与玉米产量的关联分析,让人感到诧异的,他们并没有找到与产量关联的snp位点,后来他们从次生代谢产物的角度,对从新对这些snp位点做了关联分析,终于找到了与次生代谢产物的相关联的位点,但他们重新回顾这一关联分析的历程时,他们觉得:直接对像产量这样复杂的性状进行关联分析,找不到相关联的位点才是正常的,而找到才是不正常的(不是很能理解)。 研究生的工作是进行数据的分析和科学的解释,如果能有替代的方法做snp等分型的检测的话,那么何必让研究生去做snp的分型实验。师兄认为,应该尽量采用公司的服务。比如,他们实验室目前在确定了用于关联分析的位点时,他们一般倾向于用illumina公司的goldengate芯片来做很多材料的分型,这样几百上千份材料的几百上千个多态性位点在3-5天的时间就可以得到了,而如果用研究生来说做,也许耗尽他/她三年的时间也可能完成不了。 对于全基因组的关联分析,他觉得最重要的一个问题是所用的多态性位点的数目,据估计是几百万甚至上千万个吧(在玉米里)。 关联分析的一个问题是rare 位点的处理,一般来说,rare位点都是发生比较晚的位点,可能也是起主要功能的位点。但在关联分析了,如果某一多态性的数目少于5%的话,一般是不能用于关联分析的(不知道这样的说法从那里来的,难道是样本容量不够吗,如果一个用于做关联分析的群体有10000个株系,那么5%的数目也有500个株系了).这个时候可以与linkage analysis结合起来对这种rare多态性功能进行分析,具体来说,就是通过选择rare多态性的株系与其他株系构建作图群体,构建分离群体和近等基因系的,进行linkage analysis(当然也包括QTLmapping)。他还给出了一个成功的例子。关联分析可以帮助缩减QTL mapping候选基因的范围,也就是说通过利用QTL区间里的多态性位点,进行关联分析,从而找到与目标性状最关联的位点,那么根据关联分析的原理,这一与目标性状关联的位点肯定在目标基因的附件(也许只有几十kb),因此也就缩减了QTL候选基因的范围。关联分析也可以用来验证QTL 定位的候选基因。 关联分析是一个分析-》总结-》再分析的过程,因此,任何想一次分析就可以得到所需结果的想法都是不可取的,也是不现实的,在分析的过程中,需要不断的从其他方面来找出能支撑你结果的证据,比如,QTL mapping的结果,基因pathway的结果,gene功能注释的结果等等。 此外,全基因组上的关联分析,可以给出每一个位点上不同多态性的功能效应,如果以这些功能效应为基础,来评价育种材料和对育种过程进行标记辅助选择,其育种效率是可以大幅度提高的(这就是具有全基因组育种值的分子标记辅助选择的方法吧!),他也给出了这样的例子。 最后,关联分析是一个需要国际协作的工作,需要大家共享关联分析群体,帮助表型的测定,因此需要大规模的协作。同时也需要与育种具体结合起来,填补育种与基因组学等生物分子学科之间的差距。以后,在新一代测序技术的支撑下,表型检测将变得异常的容易,而表型数据的获取依旧是基因型与表型关联的gap,谁能在表型数据的获取上达到高通量、高准确性,谁就能在关联分析,分子育种上占有主导地位。
个人分类: genetic association breeding|9505 次阅读|2 个评论
中国用全基因组关联分析 找出银屑病"第三凶手"
xupeiyang 2009-9-2 14:54
http://www.chinanews.com.cn/jk/jk-xpxz/news/2009/07-14/1774653.shtml 复旦大学举行的全基因组关联研究及遗传流行病学国际研讨会上传出信息,我国科学家运用全新基因分析技术,在众所周知的两个基因以外,首次发现银屑病的第三个凶手LCE基因变异。该成果日前在线发表于学界最高级别期刊《自然遗传》,表明我国银屑病的易感基因研究达到了世界领先水平。   银屑病俗称牛皮癣, 是一种易于复发、难以根治、严重影响患者身心健康的常见复杂疾病,目前全世界约有2000万患者,我国约有400万人。正常人皮肤表皮细胞更新一代需28天,银屑病使皮肤表皮细胞更新一代只需3天,其结果为大量皮肤增厚,鳞屑脱落。由张学军教授领衔的安徽医科大学皮肤遗传研究团队与国家人类基因组南方研究中心合作研究发现,LCE基因变异同样与皮肤表皮细胞更新速度异常有关。这一发现对阐明疾病发病机制、疾病预警、临床诊断及新药开发具有重大科学价值。   值得一提的是,发现这第三个凶手,研究人员依靠的是全新的基因分析技术全基因组关联分析,主要指在所有基因序列中,开展多中心、大样本、反复验证的基因与疾病的关联研究,全面揭示疾病发生发展与治疗相关的遗传基因。它为我们了解人类复杂疾病的发病机制提供了更多的线索,对基因密码的研究不再是盲人摸象,而是全方位的撒网捕鱼。   据悉,该项研究是第一个中国人群的大样本量的人类全基因组关联分析研究。目前,全球科学家已经在肥胖、高血压、糖尿病、冠心病、阿尔茨海默、乳腺癌、前列腺癌、肺癌、胃癌、脑胶质瘤等一系列复杂疾病中进行了全基因组关联研究,并找到与疾病相关的易感基因,为疾病的风险评估、个性化预防提供了坚实依据。
个人分类: 科技评价|1928 次阅读|0 个评论
SOC主业与技术前景
wyf 2009-2-14 18:50
最近闲谈交流时,SOC(安全管理中心)聊得不少,在这里想把有关思路点滴记录一下。 做好一桌菜,买菜选料很重要,但好筵席最需要的,还是做菜的手艺。SOC也是一样,把各类日志、扫描信息、IDS信息收集齐、整理好固然关键,但SOC真正的主业,是进行深度关联分析。 既然起了运营中心的名字,那么SOC就不是安全仓库,用户对SOC期望和厂家对SOC的厚望,就都集中在关联分析上,不仅是分析,还应该是深度分析。 2009年再次环顾SOC市场,觉得SOC在主业上,还有很多、很深的工作值得做,在这里进展的空间,也非常大。 虽然笔者2008年所谈过的SOC迷途( http://fwrh.blog.sohu.com/106841437.html )依然存在,经济形势又收紧了客户的预算,但随着客户的安全意识逐渐深入、安全技能掌握愈加熟练、安全产品部署愈加丰富完备这三大因素的成熟,相信SOC的深度关联分析有了很好的技术基础,下面几年的技术发展前景值得期待。
个人分类: 行业分析|4460 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 17:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部