科学网—标签

相关帖子	版块	作者	回复/查看	最后发表

Bearjazz 2019-3-26 19:01

DNA序列比对可能出现的问题编者信息熊荣川明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 如果比对出来的序列，保守位点较少（在 mega 软件中查看，序列顶端的 * 较少，如下图所示）说明序列存在一定的问题，需要进一步核对序列，找到原因后方能进行后续操作。第一种原因，可能存在重复序列，一些较长的序列不同的区域可能和自测序列都有一定的相似性，从而在“通过 blast 截取同源序列”的过程中，这些长序列被截取成了不同的片段。遇到这种原因，则删除多余的重复序列（通常是碱基数小的那一条）。第二种原因，可能是某些序列的方向和其它序列不一致。通常这种序列在 mega 软件中显得特别“突兀”。可以把这条“可疑”序列和其它的“正常序列”中的一条上传到 Genbank 中相互 Blast 后，验证方向是否一致。 Blast 后，核对两条序列起止数字是否都是终点大于起点，如果不都是终点大于起点，说明方向反了。对于这样的情况，需要将可以序列进行“反向互补操作”纠正其方向，才能进行后续分析。操作方法是，在 mega 中选中“可疑序列”，在“ Data ”菜单栏中选择“ Reverse complement ”。

个人分类: 我的研究|9411 次阅读|0 个评论

R语言分析DNA序列单倍型及其频次

Bearjazz 2014-11-11 11:07

#R语言分析DNA序列单倍型及其频次 # 作者信息熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz library(pegas) path = D:/ziliao/优先阅读/R语言学习/R语言分析DNA序列单倍型及其频次 setwd(path) fas.F - read.dna(file=seqdumpB.fas,format=fasta) h - haplotype(fas.F) net - haploNet(h) plot(net)

个人分类: 我的研究|9498 次阅读|0 个评论

R语言计算DNA序列的遗传距离

热度 1 Bearjazz 2014-11-10 17:10

# 作者信息熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz library(ape) path = ……/R语言计算DNA序列的遗传距离 setwd(path) fas.F = read.FASTA(seqdumpB.fas) mat = dist.dna(fas.F,as.matrix = T) write.csv(mat,file = genetic distance.csv)

个人分类: 我的研究|10404 次阅读|1 个评论

R语言批量读取DNA序列的地点信息

Bearjazz 2014-9-9 21:14

#R语言批量读取DNA序列的地点信息 # 作者信息熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz path = …… setwd(path) infile = sequence.gb F.gb = readLines(infile) indexA = grep(ACCESSION,F.gb) mat = matrix(NA,length(indexA),4) mat = F.gb mat = indexA indexB = grep(country=,F.gb) for(i in indexB){ for(j in 1:(length(indexA)-1)){ if(iindexA i indexA ) mat = F.gb else next } }

个人分类: 我的研究|3755 次阅读|0 个评论

R语言搜索DNA序列中的碱基组成非碱基符号

Bearjazz 2014-3-12 10:32

R 语言搜索 DNA 序列中的碱基组成非碱基符号 # 作者信息熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz # 预装函数 # 搜索 DNA 序列中的非碱基符号 # # 发表超过24小时，源代码不再公布。 # 使用方法 # 现在测序技术的发达，使得我们可以得到较长的序列，但是测序仪测出来的序列通常较短，小于 600bp ，因此往往通过拼接的方法得到长序列。拼接都是用相关的软件来完成的，这样就会在某些位点出现模棱两可的情况——一个位点由于测序信号都很弱或都很强，且碱基不一致。这个时候软件就使得该位点已包含所有可能性的简并碱基符号来代替具体碱基。当然，这是我们需要额外手工校对的地方，但是成千的上万的碱基，往往百密一疏。于是我们写下这个函数以检查序列的碱基组成，省去“肉眼”查找的繁重。 inputfilename = XCM001.fas # 导入 fas 格式序列， # 注意应为单行序列 check.nucl(inputfilename) # 运行函数，返回如下结果 T A C G

个人分类: 我的研究|4219 次阅读|0 个评论

Sequencher软件进行极速DNA序列拼接

Bearjazz 2014-1-4 17:41

Sequencher 软件进行极速 DNA 序列拼接作者：梁茜茜中国科学院成都生物研究所编辑：熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 1、打开软件，在 File 的 Import 中点击 Sequences 或者 Folder ofSequences 导入所需组装序列 2、导入后点击 AssembleAutomatically ，即组装成功。 3、双击 contig1 ，显示此界面。 4、点击左上角 Bases 。 5、任意点击一个碱基，再点击Show Chromatograms，即可看到峰图。 6 、根据峰图在键盘大写状态下即可进行修正。

个人分类: 我的研究|13414 次阅读|0 个评论

使用mega5统计DNA序列的碱基组成

Bearjazz 2013-11-8 21:50

熊荣川 xiong rongchuan 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz DNA序列有A,T,G,C四种碱基构成，生物信息学的相关研究常常需要统计序列的碱基构成，下图显示如何使用Mega5 统计DNA序列的碱基构成。首先需要将序列转化成meg格式，导入meg格式序列后进行如图操作。

个人分类: 我的研究|14443 次阅读|0 个评论

在DAMBE中进行DNA序列替换饱和性检验

热度 3 Bearjazz 2013-8-11 22:27

熊荣川 xiong rongchuan 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 首先进行饱和性检验，如下图其次进行转换/颠换率对遗传距离的作图，如下图结果如下：

个人分类: 我的研究|18847 次阅读|3 个评论

[转载]压力大容易导致未老先衰 DNA端粒加速缩短

crossludo 2012-5-26 12:36

压力大容易导致未老先衰 DNA端粒加速缩短：染色体末端端粒分裂次数体细胞分析 DNA序列老化耗损案例一：科学家们认为，压力可以缩短DNA上的端粒———这种在染色体末端发现的DNA序列，与人体老化息息相关。端粒在每次细胞分裂时会变短，也因此会限制了一个特定细胞继续分裂的次数。当孩子经受压力时，端粒可能在还非常年轻的时候就以一个更快的速度缩短。来自杜克学院的研究人员通过收集这些孩子的体细胞进行分析，发现负责指示细胞多久复原的DNA序列上发生了一些与普通孩子体细胞不同的物理变化，而这种变化意味着这些孩子的生命可能相对会缩短。研究人员又展开了一项双胞胎调查研究，跟踪了1100个在20世纪90年代出生过双胞胎的英国家庭。这些双胞胎现在已经18岁了，通过与孩子们的母亲进行详谈，研究人员明确了哪些人经历了何种形式的暴力，其中包括各种家庭暴力。研究者最后又分析了在孩子们5岁和10岁时分别收集的DNA样本，结果发现，遭遇过虐待的10岁孩子的DNA，显示出与老化相关的迹象，而有过两种或以上暴力侵犯史的孩子，其损耗的端粒明显比其他孩子多。 (本文来源：东方早报 ) 责任编辑：NN028 澳植物学家培育出能在盐碱地生存的杂交小麦 : 他们把编码这个从著名木乃伊冰人奥茨的肠道中发现的忍耐高盐土壤小麦TmHKT1;5-A基因的核酸注射到非洲爪蟾的卵子里结果显示，这个抗盐基因可以编码一个钠离子的通道，把卵细胞外的钠离子运输到细胞里面。人类作物的野生近亲很可能是一座基因的宝库。在漫长的育种过程中，人类的作物丢失了很多基因，对环境压力的抗性也越来越差。而试着从这些作物的野生对应种里找回那些失去的优秀基因，不失为一种可行的育种办法。澳确认滥用抗生素加速细菌进化产生超级抗药菌：当受到环境的压力时，细菌便会出现所谓的“SOS反应”（也称应急反应），修复DNA，诱导新的变异。此外，细菌也可通过整合子的“混合搭配”进行变异。一个细菌体内可能含有数百个整合子，绝大多数在任何给定时间都处于休眠状态，但在对压力做出反应时，沉睡的整合子便进入活跃状态。另一个导致细菌变异的因素是侧向基因转移，即遗传物质在细菌之间自由漂浮，个体基因以这种方式进行交换，例如“耐药基因”NDM-1。2010年，印度出现NDM-1，几乎所有普通抗生素都对它无可奈何。 “细菌始终面临着大量选择压力，细菌在对它们做出反应时发生进化。不过，这种进化造成的影响是否超过其他因素导致的进化仍旧是一个未知数。”

个人分类: 遗传进化|1594 次阅读|0 个评论

fastr格式DNA序列的多序列处理

Bearjazz 2012-4-7 09:30

fastr 格式 DNA 序列的多序列处理熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 为了在 R 语言环境中处理，之前我们定义了一种序列格式 fastr 格式，它是 fasta 的衍生格式（详见相关博文 http://bbs.sciencenet.cn/home.php?mod=spaceuid=508298do=blogid=553655 ）但是，之前我们处理的 fastr 格式都是单条序列格式，然而我们常常在实际运用中使用多序列的文件，怎样在 R 语言环境中一次性的自动将多序列的 fasta 格式 DNA 序列转化为 fastr 格式一直是这种格式推广的短板。这里我们发布几条 R 代码，解决以上问题。 setwd("D:/ziliao/zhuanye/R bear") 设置工作目录，输入 fasta 文件所在文件夹 data - readLines('data2.fasta') 导入序列，存为矩阵数据 data x=data 传导值给 x name - data 提取各条序列名称，保存在 name 向量中 x ="\n" 使用特定的字符来分割个条序列 y=x for (i in 2:length(x)) { y=paste(y, x , sep = "") } 将序列转化成整体单一字符 y - strsplit(y,'\n') 分割各条序列 y - unlist(y) 转化为向量格式这个时候各条序列就保存在 y 向量的不同单元格中了

个人分类: 我的研究|4601 次阅读|0 个评论

如何使用R语言搜索DNA序列中的非碱基符号

Bearjazz 2012-4-5 14:16

如何使用 R 语言搜索 DNA 序列中的非碱基符号熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 都知道在设计引物时，为了增加引物的广谱性，常常会使用简并引物。其实，在我们从 Genbank 中下载的很多序列常常有许多位置上并非碱基符号，有些时候这些符号也代表一定的简并信息。另外在并对完序列之后，许多位置上常常会出现“ - ”和“？”等符号。当我拿到一条序列时候，我们很想知道序列中有没有除了碱基以外的符号。下面我们就通过 R 语言中的 unique 函数来实现这一功能。 data - readLines("D:\\ziliao\\zhuanye\\R bear\\isk4.fastr") 导入 fastr 格式的序列 data - strsplit(data,'') 分割 data - unlist(data) 打散成为单字符元素的字符向量 unique(data) "C" "G" "T" "A" "-" "?" "N" 去掉重复，搜索到非碱基符号注：关于 fastr 格式，参考我们的博文 http://bbs.sciencenet.cn/home.php?mod=spaceuid=508298do=blogid=553655

个人分类: 我的研究|4768 次阅读|0 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: DNA序列

相关帖子

相关日志

关闭 安全验证

标签: DNA序列

相关帖子

相关日志

关闭安全验证