科学网

 找回密码
  注册

tag 标签: EMBL

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]DNA各种序列格式介绍
wbb121 2018-5-29 18:26
转载自 https://www.plob.org/article/1193.html 1. Plain 格式 A sequence in plain format may contain only IUPAC characters and spaces (no numbers!). Note: A file in plain sequence format may only contain one sequence, while most other formats accept several sequences in one file. An example sequence in plain format is : ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGC CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGA CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGC AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCG CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCAT TTTAATTACAGACCTGAA Plain sequence序列格式,只含有 IUPAC 字符和空格,不含有数字,并且一个Plain格式的文件只能含有一条序列。 2. EMBL 格式 A sequence file in EMBL format can contain several sequences. One sequence entry starts with an identifier line (“ID”), followed by further annotation lines. The start of the sequence is marked by a line starting with “SQ” and the end of the sequence is marked by two slashes (“//”). An example sequence in EMBL format is: ID AB000263 standard; RNA; PRI; 368 BP. XX AC AB000263; XX DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds . XX SQ Sequence 368 BP; acaagat gcc attgtccccc g gcc tcctgc tgctgctgct ctccggg gcc acggccaccg 60 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 120 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 180 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 240 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 300 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 360 gacctgaa 368 // EMBL 格式文件可以包含多条序列,每个序列条目都以”ID”开始,紧跟一些注释信息,序列的开始标记为”SQ”,结束标记为”//”。 3.FASTA格式 A sequence file in FASTA format can contain several sequences. Each sequence in FASTA format begins with a single-line description, followed by lines of sequence data.The description line must begin with a greater-than (“”) symbol in the first column. An example sequence in FASTA format is: AB000263 |acc=AB000263|descr=Homo sapiens mRNA ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCC CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAA CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCC AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGC CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATG TTTAATTACAGACCTGAA FASTA格式文件可以包含多条序列,每条序列之前都有以””开始的一行,该行包含一些序列的描述信息。 4.GCG格式 A sequence file in GCG format contains exactly one sequence, begins with annotation lines and the start of the sequence is marked by a line ending with two dot (“..”) characters. This line also contains the sequence identifier, the sequence length and a checksum. This format should only be used if the file was created with the GCG package. An example sequence in GCG format is: ID AB000263 standard; RNA; PRI; 368 BP. XX AC AB000263; XX DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds. XX SQ Sequence 368 BP; AB000263 Length: 368 Check: 4514 .. 1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 361 gacctgaa GCG格式文件只含有一条序列,以一些注释信息行开始,序列以”..”行开始,该行还包含序列的标识,以及长度等。 5. GenBank 格式 A sequence file in GenBank format can contain several sequences. One sequence in GenBank format starts with a line containing the word LOCUS and a number of annotation lines. The start of the sequence is marked by a line containing “OR IG IN” and the end of the sequence is marked by two slashes (“//”). An example sequence in GenBank format is: LOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999 DEFINITION Homo sapiens mRNA for prepro cortistatin like peptide, complete cds. ACCESSION AB000263 OR IG IN 1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 301 agaccttctcc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 361 gacctgaa // GenBank格式文件可以包含多个序列,每个序列条目都以”LOCUS”开始,紧跟多行注释信息,序列开始标记为”OR IG IN”,序列结束标记为”//”。 6.IG格式 A sequence file in IG format can contain several sequences, each consisting of a number of comment lines that must begin with a semicolon (“;”), a line with the sequence name (it may not contain spaces!) and the sequence itself terminated with the termination character '1′ for linear or '2′ for circular sequences. An example sequence in IG format is: ; comment ; comment AB000263 ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCG CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAG CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTC AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGG CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATG TTTAATTACAGACCTGAA1 IG格式序列文件可以包含多个序列,每个序列条目都以多个comment行开始,且comment行以”;”开始,comment行下面是包含序列名称的一行,序列以数字1结束,第2条序列以2结束,以此类推。 7. IUPAC 字符 To represent ambiguity in DNA sequences the following letters can be used (following the rules of the International Union of Pure and Applied Chemistry ( IUPAC )): A = adenine C = cytosine G = guanine T = thymine U = uracil R = GA (purine ) Y = TC (pyrimidine) K = GT (keto) M = AC (amino) S = GC W = AT B = GTC D = GAT H = ACT V = GCA N = AGCT (any)
个人分类: 生物数据|1484 次阅读|0 个评论
EMBL国际博士生项目答疑 (2016)
tsrabbit 2016-8-6 14:47
我在本周二(8月2日)收到了一封来自台湾清华大学学生的邮件,咨询了几个申请EMBL博士项目的问题。我马上对邮件进行了回复,但奇怪的是回复邮件一直被雅虎邮箱的服务器拒收。由于这些问题对其他申请者也有一定参考价值,我决定把回复发表在博客里,希望能够被这位台湾学生看到,另外也是对于我在6年前发表的“ EMBL国际博士生项目简介 ”一文的补充。 1.EMBL和一般的大學課程訓練差別在哪? 答:EMBL的博士課程的主體部分只有兩個月(而且多數是講座形式),其它很多大學的博士課程都至少有一年,所以EMBL的學生相對而言有更多時間可以放在研究課題上, 但這也要求學生有比較紮實的基礎和很強的自學能力。 2.EMBL的phd非大學機構那他所頒發的學歷也等同於其他一般大學的嗎?是被各國所認可的嗎? 答:這個問題我在我的博文裡有過回答:“EMBL還與歐洲的許多頂尖大學簽訂了合作協議,學生可以選擇獲得EMBL和合作大學的聯合博士學位(需要在相關大學完成註冊手續)。 例如,在EMBL英國分站攻讀博士的學生普遍都會選擇EMBL和劍橋大學的聯合博士學位。” 所以EMBL的學位在國際上是被認可的,不必擔心。 3.我知道EMBL申請難度十分高,不知道有什麼建議是我能在讀碩士班期間努力來增加錄取機會的嗎? 答:這個問題我在博文裡部分回答過。 “最好在申請之前先和自己感興趣的Team/GroupLeader(EMBL對PI的稱呼,相當於大學裡的教授職位)取得聯繫,如果可以聯繫去相關實驗室做碩士畢業論文(或其它短期研究 課題)的話,那是再好不過。這類實習過程能夠很好地為導師和學生提供雙向了解的機會,如果學生在實習期間表現良好,導師自然會更樂意為該生多方聯繫經費,支持他 /她的博士申請,以及入選之後的博士學習。從導師的角度來看,如果學生已經在自己的指導下順利完成短期研究項目,並且已經對實驗室的主要研究課題非常熟悉。那麼,這樣的 學生在博士學習開始後往往能夠迅速進入角色,作出不錯的研究成果。” 另外,在申請過程中加分的還有碩士階段的課程分數,英語能力考試分數,以及發表的學術文章這幾項,但我個人覺得很關鍵的一點就是你的學術背景和研究興趣要與你 希望申請的實驗室非常符合。 4.最後是關於學費生活費等金錢開銷大概是多少金額? 答:這個問題我在博文裡有過提及,當然是三五年前的情況了。 “EMBL的博士生工資在全球範圍來說都算是不錯的,在德國和意大利的學生每月可以拿到2000歐元左右,法國的學生則是1700-1800每月,而且免稅。”而且EMBL不收 學費。 不過,你可能要支付你所註冊的大學的少量註冊費,但一般也都不貴。 我在法國註冊的大學每年只收3-400歐元。 你拿到的獎學金足夠支付日常開銷而且能小有盈餘(法國Grenbole房租為4-500歐元,日常飲食社交等花銷5-600歐元也足夠了,我當時每個月可以存下 約7- 800歐元) 。 5.台灣的生技產業一直還在起步的階段,不知道歐洲現況是如何?從EMBL畢業後工作從事生物相關有沒有保障和加分的作用? 答:歐洲的生技產業相對比較成熟,而且EMBL的學生也有不少畢業後去工業界的,只要你從事的研究方向不是太冷門就可以。 我所在的法國分站就有好幾位學長學姐學弟(結構生物學方向)畢業後去了諾華(Novartis)等公司工作。 其实我觉得从哪里毕业倒不是最重要的,关键是你所学到的技术和思维方式能在生技公司有应用的前景。
个人分类: 游学法兰西|6137 次阅读|0 个评论
EMBL国际博士生项目简介
热度 3 tsrabbit 2010-12-16 16:13
我在EMBL的博士学习已经进入第三年,其间不时有同学发信给我询问申请EMBL国际博士生项目的相关事宜。我在一一解答他们疑问的同时,也萌生了写一篇相关简介来帮助更多同学了解和申请EMBL国际博士生项目的想法。 EMBL的英文全称是European Molecular Biology Laboratory(中文翻译为欧洲分子生物学实验室),由20个欧盟国家(也就是EMBL欧洲成员国)出资共同支持,是全球最好的分子生物学研究机构之一。在Thomson Reuters 集团给全球科研机构在分子生物学及遗传学的研究表现的最新排名中(根据1999年到2009年间所发表文献的单篇平均引用率),EMBL位列全球第四,欧洲第一 。EMBL在欧洲共有5个分部:在德国海德堡(Heidelberg)的总部,在英国Hinxton的欧洲生物信息学研究所(European Bioinformatics Institute)、以及位于法国格勒诺布尔(Grenoble)、德国汉堡(Hamburg)、以及意大利Monterotondo的分站 (图一)。EMBL海德堡总部的研究项目涉及的分子生物学领域比较广泛,从细胞生物学到发育生物学,不一而足。其它每个分站的研究各有侧重,比如位于法国格勒诺布尔和德国汉堡的分站侧重于结构生物学研究,位于英国Hinxton的分站则侧重于生物信息学研究,位于意大利Monterotondo的分站侧重于利用小鼠为模型生物来进行研究。 图一: EMBL欧洲各分部示意图 (Courtesy of Helke Hillebrand, EMBL) 申请EMBL国际博士生项目的竞争较为激烈,每年的申请者总数约为1000人,录取率一般为1:20。亦即EMBL每年在全球范围内招收的博士新生约为50人左右,其中来自EMBL欧洲成员国的新生占了绝大多数。不过,每年基本也都会有数名来自中国大陆的新生。以2010年的博士新生班为例,有三人来自中国大陆(另有两人为在中国出生,欧洲长大的第一代华人)。 中国学生由于普遍聪明勤奋,在EMBL的口碑很好。不过,由于EMBL本身招生政策所限,非EMBL欧洲成员国的学生在申请EMBL国际博士生项目时,通常需要由自己和导师另外寻找经费来支持他们的博士学习;而来自EMBL欧洲成员国的学生一旦入选,则可以自动获得由EMBL提供的至少为期3.5年的奖学金(Fellowship,EMBL的博士学习年限一般为3.5-4年)。以我自己的情况为例,我在申请EMBL国际博士生项目之前,导师已经和我所申请的EMBL格勒诺布尔分站达成协议:由分站先拨出一笔经费,为我在博士阶段的学习提供全额资金担保,在入选之后,导师将从他的科研经费中拨款来提供我的博士工资。我第一年的博士工资由导师联系到的Chromatin Plasticity Network (隶属于Marie Curie Research Training Network)提供。此后,我很幸运地申请到了由德国Boehringer Ingelheim Fonds提供的为期两年(期满后可以申请再延期一年)的博士生奖学金 ,从而彻底解决了我在EMBL攻读博士的经费问题。 由此,我个人对有意向申请EMBL国际博士生项目的同学的建议是:最好在申请之前先和自己感兴趣的Team/Group Leader(EMBL对PI的称呼,相当于大学里的教授职位)取得联系,如果可以联系去相关实验室做硕士毕业论文(或其它短期研究课题)的话,那是再好不过。这类实习过程能够很好地为导师和学生提供双向了解的机会,如果学生在实习期间表现良好,导师自然会更乐意为该生多方联系经费,支持他/她的博士申请,以及入选之后的博士学习。从导师的角度来看,如果学生已经在自己的指导下顺利完成短期研究项目,并且已经对实验室的主要研究课题非常熟悉。那么,这样的学生在博士学习开始后往往能够迅速进入角色,作出不错的研究成果。 和在北美攻读博士相比,EMBL的博士学制要短1-2年,在课业方面所花费的时间也较少:所有新生在被录取后都会在海德堡修读为期2个月的博士大课,在博士二年级的时候需要在EMBL的英国分站上为期约一周的生物信息学课程。这两门课程可以提供博士毕业所需要的一半学分,剩下的一半学分则由学生通过自由选课的方式来补上。学生在攻读博士期间参加workshop,在会议上作口头报告,都可以折算成一定的学分。EMBL还与欧洲的许多顶尖大学签订了合作协议,学生可以选择获得EMBL和合作大学的联合博士学位(需要在相关大学完成注册手续)。例如,在EMBL英国分站攻读博士的学生普遍都会选择EMBL和剑桥大学的联合博士学位。另外,EMBL的实验室规模也普遍较小,一个实验室的博士生数量一般不会超过四人,这样可以保证学生每周都有机会和导师面对面地进行学术交流。 EMBL对博士毕业没有硬性的文章发表要求,学生即使在攻读博士学位期间没有文章发表,也可以毕业。从我了解的过去几年的毕业生情况看来,每年都有毕业的学生在攻读博士期间没能发表文章;同时,也不乏有学生在CNS这类顶尖期刊上以第一作者身份发表论文的。学生在博士毕业后,视博士项目的研究进展情况,还可以选择留在原实验室做短期博士后(一般不超过6个月),一是可以为博士研究课题收尾,二是可以在此期间联系下一站博士后的位置。 此外,在EMBL读博的优点还有: EMBL的博士生工资在全球范围来说都算是不错的,在德国和意大利的学生每月可以拿到2000欧元左右,法国的学生则是1700-1800每月,而且免税。 每年有30天的带薪假期。 一年免费语言教程,可以在研究之余学习一门第二外语。 许多高水平的国际会议和学术讲座都在EMBL海德堡主站的ATC会议中心召开,其它分站的学生可以申请用远程视频方式进行实时收看。 总体来说,我觉得EMBL的国际博士生项目比较适合那些正在欧洲攻读硕士学位的中国学生申请。一是交通便利,申请去EMBL相关分站做研究课题和面试都很方便。EMBL对欧洲各国高等院校的评分系统也更了解,方便他们客观评价学生的申请材料。在欧洲之外攻读硕士学位的学生也有不少申请EMBL的,但由于许多PI对欧洲以外国家的大学系统缺乏了解,在客观评估学生的水平上往往有一定困难。二是攻读博士学位所需要的时间相对北美而言较短,不过这也有利有弊,需要根据自己的具体情况来仔细权衡。 最后,预祝各位申请EMBL国际博士生项目的同学好运! Thomson Reuters: Top 20 institutions in molecular biology and genetics Chromatin Plasticity Network Boehringer Ingelheim Fonds PhD Fellowship
个人分类: 游学法兰西|17121 次阅读|4 个评论
在德国的两个月游学生活
tsrabbit 2009-2-7 08:19
我在去年的9月15日收到EMBL总部发来的正式录取通知,成为EMBL格勒分站(1975年建站)有史以来的第一个中国籍博士生。并从去年10月13日至12月12日间,在EMBL海德堡总部修完了分子生物学的核心课程(必修课)。 EMBL的国际博士生项目每年大约从全球招收40-50名博士新生。由于EMBL在原则上只为拥有其成员国国籍的学生提供EMBL内部奖学金,所以班上的欧洲学生占了绝大多数。像我这样来自非成员国的博士新生,则需要导师另找资金来源来养活。导师当时帮我联系经费的时候颇费了些周折,好在格勒分站的站长Stephen博士特别关照,从分站的研究经费中特批了一笔款项来作为我的奖学金来源,这才解决了我和导师的后顾之忧。 在去年的10月11日,我和同一个实验室的另一位博士新生来自加拿大的Cristina(同时也有意大利护照,所以符合领取EMBL内部奖学金的资格),启程前往海德堡。从格勒去海德堡并不方便,我们先是搭乘大巴赶到里昂国际机场,然后坐德国汉莎航空(LUFTHANSA)的班机飞抵法兰克福国际机场,然后再搭乘事先订好的的士到达海德堡。我很幸运地被安排住在EMBL下属的ISG旅馆,和一个来自克罗地亚的男生Nenad合住一套宽敞的顶层公寓(penthouse)。Cristina则被安排到EMBL下属的另一处招待所(guesthouse),和班上的另一位中国学生(来自北大生科01级的王虹同学)成了室友。 由于EMBL并不是大学那样的教学单位,所以我们的课程也和普通的大学课程不大一样。我们没有固定的长期教师,也没有指定的课本,所有的课程都以讲座的形式,由EMBL及其他研究机构(如海德堡大学,德国马普所等)的PI(PrincipleInvestigator)和教授们负责讲授。根据每个PI的研究领域的不同,课程内容也被相应地划分为:Genomics,Evolution,DevelopmentalBiologyandBehaviour,ProteomicsandStructuralBiology, CellBiology,ChromatinandTranslation, DiseaseMechanismsandPathogens这七个主要模块。每个模块都包含讲座及实验室实习,最后通常由journalclub收尾。我们每天的日程安排基本上是早九晚六,课后还需要花相当一部分时间来阅读推荐的文献,为journalclub做准备。如果周末再赶上个把学术会议的话,那基本就没有时间休息了。为了鼓励EMBL各个分站之间的交流,在整个课程的中段,EMBL还安排了博士新生去EMBL其他分站短期访问的项目。我就在去年的11月19日到11月23日间,和其他14位同学去EMBL的汉堡的分站作了短期访问。剩下的同学们则分别去了EMBL的格勒分站或是Monterotondo分站(位于罗马附近)。 在课程进行到后半段的时候,由于前段时间课程的强度较大,而某些课程模块又和部分同学的专业方向相差较远(尤其是结构生物学这个模块,由于牵涉到较多的数理知识,不少人听得一头雾水),所以出勤率变得越来越低。最严重的是在最后的一个模块,某天上午,44人的大班只有12人出席。而当天的主讲人中。有一位还是特别从纽约飞回来赶着做这个讲座的。这使得主管这个模块的PI对此极为不快。 在紧张的学习之余,我也尽量抽空参加同学们的聚会,包括每周二的篮球比赛,室内攀岩,大小舞会等。海德堡老城区附近的大小酒吧也都留下了我们的身影和足迹。到课程末尾的时候,班上的同学间都已经建立了相当密切的友谊。由于每年EMBL的博士新生都会负责组织下一年的国际博士生研讨会(EMBLinternationalPhDsymposium),在海德堡学习时所建立的友谊也让大家在回到各自的分站之后仍然能够紧密协作,顺利完成这一活动的组织工作。 在课程的最后一天,所有的学生都领到了一张由EMBL颁发的证书,表明持证人已顺利通过了所有的课程,并拿到了相应的学分。这也给我在德国这两个月的游学生活划上了一个完满的句号。此后,就需要集中精力来应付博士课题中的诸多挑战了。
个人分类: 游学德意志|9294 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 16:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部