科学网

 找回密码
  注册
python httpx 异步爬虫
马省伟 2021-9-4 09:53
小麦多组学网站geneHub页面需要加一个外链,但外链地址与基因id有关。所以要首先拿到外链地址与基因id的对应关系。因此,需要写一个爬虫来获得这个信息。 因为小麦有12万以上的基因,所以如果一个一个顺序爬取,会耗费一定的时间。 正好前几天在公众号上看到使用python httpx的内容,所以就想着用httpx构造一个 ...
5315 次阅读|没有评论
翻译|三代测序在群体水平上的研究进展
马省伟 2021-7-3 10:03
对一个或多个物种的多个个体进行测序的目的是在种群水平上识别遗传变异,进一步解决进化、农业和医学等研究领域的问题。以往的包括全基因组关联研究等在内的群体水平上的研究 ,尚未完全解析人类特征和疾病背后的遗传因素。关于这种“遗传力缺失”的来源有很多猜测,如来源于结构变异和稀有变异。与常见的单核苷酸变 ...
6161 次阅读|没有评论
翻译:植物泛基因组综述(Plant pan-genomes are the new reference)
马省伟 2021-6-22 23:33
泛基因组肯定是未来之趋势,虽然不是每个人都能整整泛基因组,但整整某类基因或基因家族是否可以呢?比如,单参考基因组时代,不同物种中,都发了N多基因家族研究的文章?那么,泛基因组时代,能否从这个方面审视基因家族的研究呢? Main 泛基因组的概念最早是 2005 年在细菌中提出的,对几个菌株的测序显 ...
5078 次阅读|没有评论
GATK流程不用再分割小麦染色体 part2
马省伟 2021-6-11 16:36
鉴于上次发表的 GATK流程不用再分割小麦染色体 ,有些内容说的不是很清楚, 且科学网博客发表之后无法更改,遂再次更新一次。 对小麦来说,染色体较大,bam index不能使用.bai,所以要使用.csi。GATK支持.csi格式。 在运行过程中,HaplotypeCaller这一步,需要加入参数 -OVI False,即禁止gatk自动生成index文件 ...
5503 次阅读|1 个评论
NCBI上传fastq.gz以及bam文件有文件大小限制
马省伟 2021-6-10 09:11
NCBI上传fastq.gz以及bam文件有文件大小限制。 fastq.gz不能超过200G,bam不能超过500G。
3287 次阅读|没有评论
bwa samtools 衔接时的一些注意事项
马省伟 2021-6-9 20:26
每台服务器都有自己的脾气,硬件上CPU和内存不同,软件上系统环境不一样。 长时间使用一台服务器或电脑,写好的很多流程,软件参数几乎都是固定的,而且都能正常工作。一但不得不换一个服务器或者电脑,总需要大把时间去调试。 最近又碰到一个小问题,当然以前也许也碰到过,但由于没有记录,时间一长就给忘了。 ...
6645 次阅读|没有评论
基因注释小结
马省伟 2021-3-5 21:29
基因注释一般是指采用生物信息学的方法获得已组装好的基因组中基因的位置、结构等信息,一般包括从头注释、同源注释和基于转录组和蛋白质组的注释。基于转录组和蛋白质组的注释是目前最准确的方法,但受限于不可能获得所有时空下的转录组或蛋白质组,所以有必要用同源注释和从头注释的结果作为补充。基因注释是分子生物学 ...
14916 次阅读|没有评论
浅谈转基因生物的安全性
热度 1 马省伟 2021-1-17 16:28
浅谈转基因生物的安全性 贾海燕 马省伟 转基因生物安全性问题一直是当今社会大众谈论的热点。随着人类生活条件越来越好,人们对食品的安全性要求也不断地加强,由转基因生物技术衍生的食品安全性也就格外受到人们的关注。由于缺乏对转基因生物的一个比较科学的认识,人们就会不断地对其产生质疑,下面我就介绍一 ...
9776 次阅读|1 个评论 热度 1

本页有 2 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-6-6 11:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部