一篇Nature Method上一篇关于RNA-seq数据分析的文章,觉得很不错,里面还介绍了一些关于可变剪接的问题。下面列上列上的基本信息: Computational methods for transcriptome annotation and quantification using RNA-seq Manuel Garber, Manfred G Grabherr, Mitchell Guttman Cole Trapnell High-throughput RNA sequencing (RNA-seq) promises a comprehensive picture of the transcriptome, allowing for the complete annotation and quantification of all genes and their isoforms across samples. Realizing this promise requires increasingly complex computational methods. These computational challenges fall into three main categories: (i) read mapping, (ii) transcriptome reconstruction and (iii) expression quantification. Here we explain the major conceptual and practical challenges, and the general classes of solutions for each category. Finally, we highlight the interdependence between these categories and discuss the benefits for different biological applications. 全文链接:http://www.nature.com/nmeth/journal/v8/n6/full/nmeth.1613.html 复制代码 下面是在科学网上找到的一篇对该文章的点评和分析,附上全文,供大家参考阅读。 高通量RNA测序(RNA-seq)有望描绘出转录组的整体图像,实现样本内所有基因及其亚型的完整注释和定量。随着测序价格的不断下降,以及个人化测序仪的上市,更多的实验室有机会尝试这种新技术。 然而,测序之后的数据分析才是真正的挑战。在RNA-seq之后,还需要一些强大的计算工具,才能绘制出完整的转录组图谱。在这一期的《自然—方法学》(Nature Methods)上,来自MIT和哈佛Broad研究院的研究人员发表了一篇综述,介绍了转录组注释和定量的计算方法。 首先,他们介绍了一些方法,将读数与参考转录组或基因组直接比对。之后,他们讨论了鉴定表达基因和亚型的方法。最后,他们还介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。 由于RNA-seq数据生成的不断改善,现有计算工具的发展有着很大差异。在某些领域,如读数定位,有多种算法存在,但在差异表达分析上,解决方案才刚刚出现。作者们强调了这些方法的核心原理和每种方法的关键差异,以及它们在RNA-seq分析上的应用。他们还讨论了这些不同的方法如何影响结果以及数据的阐释。 为了方便读者参考,他们还将现有的方法列成了一张表,注明了它们的原理和用途。另外,他们精选了一些有代表性的方法,应用在已经发表的RNA-seq数据组中。此数据组包含了5800万个末端配对的读数。 数据比对是RNA-seq分析中的一项基本任务,然而也面临着一些挑战,比如数据量大,读数很短(36-125 bp),错误率可观,且许多读数跨越外显子-外显子交界。对于RNA-seq的比对方法,作者将其分成“unspliced read aligners”和“spliced aligners” 两类,并分别介绍。 转录组重建也是个很困难的任务,因为基因表达差异很大,且读数可能来源于成熟的mRNA,也可能来源于未完全剪接的前体RNA,这样就很难鉴定成熟的转录本。当然,读数短也为分析带来了困难。目前的转录组重建方法主要有两类,一类是基因组指导的,另一类是不依赖于基因组的。作者比较了这两类方法,并具体介绍了每一类下面的几种方法。 至于转录组的图谱分析,DNA芯片一直是首选方法。在使用RNA-seq来估计基因表达时,需要将读数适当地标准化,才能提取出有意义的表达预测值。作者介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。 作者还提到,随着测序技术的成熟,如读长不断增加,现有的计算工具需要发展,也能满足新的需求,同时新工具也会不断出现,满足新的应用。 http://seq.cn/forum.php?mod=viewthreadtid=2643
fastr 格式 DNA 序列的多序列处理 熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 为了在 R 语言环境中处理,之前我们定义了一种序列格式 fastr 格式,它是 fasta 的衍生格式(详见相关博文 http://bbs.sciencenet.cn/home.php?mod=spaceuid=508298do=blogid=553655 ) 但是,之前我们处理的 fastr 格式都是单条序列格式,然而我们常常在实际运用中使用多序列的文件,怎样在 R 语言环境中一次性的自动将多序列的 fasta 格式 DNA 序列转化为 fastr 格式一直是这种格式推广的短板。这里我们发布几条 R 代码,解决以上问题。 setwd("D:/ziliao/zhuanye/R bear") 设置工作目录,输入 fasta 文件所在文件夹 data - readLines('data2.fasta') 导入序列,存为矩阵数据 data x=data 传导值给 x name - data 提取各条序列名称,保存在 name 向量中 x ="\n" 使用特定的字符来分割个条序列 y=x for (i in 2:length(x)) { y=paste(y, x , sep = "") } 将序列转化成整体单一字符 y - strsplit(y,'\n') 分割各条序列 y - unlist(y) 转化为向量格式 这个时候各条序列就保存在 y 向量的不同单元格中了
G 是资深同行专业老友很多年了,常与立委有专业内外的交流。都是过来人,激烈交锋、碰撞出火是常有的事儿。 昨天给他邮去《迷思》系列三则,他即打电话说:“好家伙,你这是惟恐天下不乱啊。看了《迷思》,我就气不打一处来。你这是对中文NLP全盘否定啊,危言耸听,狂放颠覆性言论。偏激,严重偏激,而且误导。虽然我知道你在说什么,你想说什么,对于刚入门的新人,你的《迷思》有误导。” 听到他气不打一处来,我特别兴奋:“你尽管批判,砸砖。我为我说的话负责,每一个论点都是多年琢磨和经验以后的自然流露,绝对可以站住。对于年轻人,他们被各种’迷思‘误导很多了,我最多是矫枉过正,是对迷思的反弹,绝对不是误导。” 现剪辑摘录批判与回应,为历史留下足迹 。 内行看门道,外行看热闹,欢迎围观。 2011/12/28 G The third one is more to the point - 严格说起来,这不能算是迷思,而应该算是放之四海而皆准的“多余的话” Frankly, the first two are 标题党 to me. Most supporting evidence is wrong. Well, I think I know what you were trying to say. But to most people I believe you are misleading. No, I was not misleading, this is 矫枉过正 on purpose. At least I think you should explain a bit more, and carefully pick up your examples. Take one example. Tokenizing Peoples Republic of China is routinely done by regular expression (rule based) based on capitalization, apostrophe and proposition (symbolic evidences), but NOT using dictionary. that is not the point. yes, maybe I should have chosen a non-Name example (interest rate 利率 is a better example for both Chinese and English), but the point is that closed compounding can (and should) be looked up by lexicons rather than using rules. What you are referring to I guess is named entity recognition. Even that chinese and English could be significantly different. No I was not talking about NE, that is a special topic by itself. I consider that to be a low-level, solved problem, and do not plan to re-invent the wheel. I will just pick an off-shelf API to use for NE, tolerating its imperfection. I wouldn't be surprised if you don't do tokenization, as you can well combine that in overall parsing. But to applications like Baidu search, tokenization is the end of text processing and is a must-have. Chunking of words into phrases (syntax) are by nature no different from chunking of morphemes (characters) into words (morphology). Parsing with no word segmentation is thus possible. In existing apps like search engines, no big players are using parsing and deep NLP, yet (they will: only a time issue), so lexical features from large lexicons may not be necessary. As a result, they may prefer to adopt a light-weight tokenization without lexicons. That is a different case from what I am addressing here. NLP discussed in my post series assumes the need for developing a parser as its core. Your attack to tagging is also misleading. You basically say if a word has two categories, just tag it both without further processing. That is tagging already. That is not (POS) tagging in the traditional sense: the traditional sense of tagging is deterministic and relies on context. Lexical feature assignment from lexical lookup is not tagging in the traditional sense. If you want to change the definition, then that is off the topic. What others do is merely one step forward, saying tag-a has 90% correct while tag-b 10% chance. I did rule based parser before and I find that is really helpful (at least in terms of speed). I try the high chance first. If it making sense, I just take it. If not, I come back trying the other. Let me know if you don't do something like that. Parsing can go a long way without context-based POS tagging. But note that at the end I proposed 一步半 approach, i.e. I can do limited, simple context-based tagging for convenience' sake. The later development is adaptive and in principle does not rely on tagging. Note here I am not talking about 兼语词 which is essentially another unique tag with its own properties. I know this is not 100% accurate but I see it in chinese something like 动名词 in English. In fact, I do not see that as 兼语词, but for the sake of explanation of the phenomena, I used that term (logically equivalent, but to elaborate on that requires too much space). In my actual system, 学习 is a verb, only a verb (or logical verb). Then this touches grammar theory. While we may not really need a new theory, we do need to have a working theory with consistency. You may have a good one in mind. But to most people it is not the case. For example, I see you are deeply influenced by 中心词 and dependency. But not everyone even aware of that, not to mention if they agree with. Till now there is no serious competition, as really no large scale success story yet. We need to wait and see which 学派 eventually casts a bigger shadow. Good to be criticized. But I had a point to make there. 【相关博文】 中文处理的迷思之一:切词特有论 2011-12-28 中文处理的迷思之二:词类标注是句法分析的前提 2011-12-28 中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破 2011-12-29 相位问题是做结构分析的一个古典问题。理论上讲,这个问题不解决,结构分析事儿就是“未完成”。 作者: mirror 日期: 12/29/2011 10:46:20 但是做结构分析的人并不会因为“相位问题”未彻底解决而停止工作。他们有“蒙也 要蒙出来”的气势。过去不好 蒙 ,如今计算机发达了,也就不怕了。不但不怕,而且剥夺了研究通过实验的技术手段解相位人的“饭碗”。因此,镜某不大看好“ 中文处理的长足进步有待于汉语语法的理论突破 ”的说法。 大约计算机语言识别的事情也是如此。问题有两个侧面:响应时间和精确程度。也许还有语音语调等感情色彩的成分。只有到这个层次,才可称谓“ 自然语言 ”。也许感情符号也要象音乐中的音符那样,来表达对话的感情。毕竟有些话属于 能写出来 而 不能说出来 。比如人的称呼,在西方不是个问题。直呼其名就是了。而在东方,就不大好办了。在家里,不会有儿子直呼老爸名字的现象。还有一些比较禁忌的话题,当面说、对话就很困难了。但是不妨碍写出来。比如说“色情文学”。保不齐“色情文学”的计算机思考研究,在将来会很流行。也就是说,到了那个境界,就要思考机器的“感情”问题了。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 镜子真神人也,第一段说得非常到位:一个蒙字,极尽真准传神 作者: 立委 日期: 12/29/2011 12:45:07 Quote 过去不好蒙,如今计算机发达了,也就不怕了。 属于不可泄漏之天机啊。 至于上面的第二段,镜兄乘兴发挥,恣意挥洒,“老匠”立委就跟不上了。 附:“老匠” 之来历: kingsten_88 说: 2011年12月29号16:59 李老师看来真是老匠了,对中英语法分析的细节娓娓道来,让我想起了那一场场苦恼过的场景。李老师说出了中文无特性的真相,所有语言的语言现象都是类似的,只是或轻或重而已,这正好说明是理论不足,并非应用不足呢。 liwei999 回复: 十二月 30th, 2011 at 00:20 老匠了,老匠了。 老匠一词极为真准传神。 from 52nlp 【置顶:立委科学网博客NLP博文一览(定期更新版)】
转自: http://www.productivelife.cn/2009/04/gtd-reflection-4-habits.html 上篇我们谈到GTD改进后的四个工具,分别是工作篮,下一步行动列表,项目/清单,以及日历,并简要介绍了这四个工具。这些工具,你可以在读完上一篇文章之后就建立起来,但是要掌握这些工具,可能需要一些时间。我们需要时间去挑选让我们觉得舒服的实现工具,需要时间去熟悉和信任我们的系统,需要时间去改进调试直到最佳。 好,废话少说,让我们看一下这四个习惯: 1. 收集 正如本系列的第一篇 基本概念和习惯 中提到的,第一个习惯是你要 建立起对工作篮的信任,接到任何事务的时候首先放入工作篮 。我们前面讲到,你可能有多个工作篮,比如邮件的收件箱,比如桌面上装文件的工作篮等等。这里我们还是要讲一下作为GTD里面最重要的概念的这个工作篮。看看ZTD里面讲的吧: But we also need to look at a special kind of inbox your collection tool for your ideas, notes, information given to you on while youre on the road, tasks you remember you need to do, action items that come out of meetings. In short, everything that comes into your life thats not in a written or recorded form . 总之,不管是庞大的项目还是一闪而过的灵感,把它写下来,放到你的工作篮里吧。这样,你就不再需要耗费脑力去提醒自己还有这么一件事情要做。而且正如那句老话说的,好记性不如烂笔头,写下来忘记这件事的可能性就微乎其微了,何况你还会定期清理你的工作篮呢。 这个工作篮最好不要由多个工具组成 。比如你看了ZTD的介绍热血上涌,兴冲冲买了一个 Moleskine 笔记本;然后看了天方的 介绍 开始使用 Toodledo ;你还有一个iPhone,那么漂亮的 Things 怎么能不使用;其实你最习惯的可能是桌子上电脑边随手贴的即时贴过不了几天,你就会发现你陷入了同步不同工具的海洋,而这种分裂感让你感觉极不舒服,于是你把它归咎于GTD。于是你的GTD时间告一段落。可能有些夸张,但是绝对不是危言耸听。选择一个且只有一个工具作为你最重要的工作篮吧,这样至少能减轻您被撕裂的感觉。 随身携带这个工作篮 。因为我们可无法预测什么时候冒出来一个念头。比如上班的公交车上突然看见一幢建筑想起一个灵感,比如晚上关了灯你突然想起来明天要做的几件事从这个角度来看,可能手机上的应用是最合适的工具。但是并不是所有人都习惯用(已有的)手机输入。比如我就觉得用手机输入始终存在一点从想法到记录的文字之间的障碍,所以我还是比较倾向于使用纸笔工具。虽然纸笔工具在某些时候不算特别方便(比如走路时),但是也有一些特别的好处。也许用手机输入也需要一些时间去适应,或者我们也可以期望工具的进一步发展吧。 这个习惯虽然看起来简单,但是要真正达到传说中的黑带级恐怕并不容易: 当你已经处于黑带水平时,你可以像闪电一样从一只脚转换到另一只脚,并再次回到原位,比如,当你处理工作篮时,助手走进来,告诉你有一个情况需要你立刻处理一下。别着急!你的那份工作还在那里,连同其他所有需要处理的事件堆放在一起,当你回来时还可以随手捡起来。在你打电话的等候空隙中,可以扫一眼你的行动清单,了解一下打完电话后可以着手办理的下一步工作。当你等候会议开始时,可以下你随身携带的阅读/回顾文件袋。当你与老板的谈话打乱你原有的安排,让你去参加下一个会议前的时间缩短到12分钟时,你仍然可以不费力地把一段时间的功效发挥得淋漓尽致。 至于分清任务的轻重缓急,可以在这里进行,也可以在处理这一步进行。至于你是按时间管理四象限法来分,或者只是简单地标上重要和不重要,就看你自己了。因为如李笑来老师所说: 即便,你只用最简单的方法进行标注只标注重要和不重要。因为你必须分辨真的重要和显得重要,以及真的不重要和显得不重要。 2. 处理 有工作篮作为收集的工具了,是不是就一劳永逸了?当然不是。如果我们只是往里面塞东西,这个工作篮很快就会被塞得满满的。这时它就失去了作为大脑缓存的功能了。就像你的Windows开了无数个程序,结果把内存塞满了,这时你的机器就只能慢慢爬了。所以GTD中的处理这个环节相当重要。怎么处理?GTD中出名的横向流程就是从这里出来的: (图出自 这里 ,其实这一类流程图Google一下挺多的。以前也介绍过一个 中文的 。) 收集和处理是GTD赖以成功的两个部分,所以没有什么好改进的,这里只是重复一下GTD里面的话: 当你完成了加工处理工作篮的活动时,你将: 1、 丢弃你不再需要的一切; 2、 完成任何用不了2分钟就能搞定的事情; 3、 把任何可以委托他人处理的事情交代出去; 4、 为所有需要超过2分钟时间的工作注明提示信息,并分类纳入你的管理系统之中; 5、 根据获取的信息,明确你目前一些较为重要的工作和任务。 还有几个基本原则 1、 从最上面的一项开始处理。 2、 一次只处理一件事情。 3、 永远不要把任何事情再次放回工作篮 这里有一个问题,什么时候处理和清空你的工作篮?这是我当时读完GTD的一个疑问。后来自己实践以及读到一些相关内容之后发现,其实我基本只需要每天两次左右就差不多了,我是选择每天睡觉之前和到办公室之后。一般来说这两个时间段比较少其他事情的打扰。如果您特别忙的话,中午吃过午饭再清理一次应该基本就差不多了吧。而每次处理的时间大概15分钟也就足够了。 处理工作篮也同时是一个回顾和计划的过程。 我们说GTD 缺乏对目标的追问和回顾,以及没有分清事情的轻重缓急。处理就是每天的一个好时机。我们是需要分辨工作篮里的事项是不是可执行的,但是更重要的是,分清这件事到底是不是真的重要。这也是把进入我们工作和生活的事务与我们的目标相匹配并决定是说Yes还是说No的时候(昨天的每周文摘中我们也谈到了)。 另外,Lifehack的Back to Basic系列中也有一些关于 处理 的小提示,值得一看。其中讲到,如果清理工作篮时遇到某些项目因为缺乏信息、资源、紧急性或者授权而不能马上处理的,千万不要又把事情放到工作篮里,而是作为一个暂停的项目保存起来。 When an item hits your inbox that youre not able to deal with immediately, it becomes a project an outcome that will take several steps to accomplish. And the first step in that project is to solve the problem, to fill the lack thats preventing you from completing the task. 相比之下,这个习惯可能是四个习惯里面最容易养成的。 3. 执行 列好了下一步行动清单,接下来就是执行这个清单了。我们在 GTD的缺失和局限性 里讲到GTD中对于如何去做(尤其是一些需要较长时间集中精力的创造性活动)着墨并不多。但是完全按照清单心无旁骛地去完成事务,恐怕是几个习惯里面最难养成,也是最重要的一个习惯了。 ZTD提出的解决方案是抛弃下一步行动清单。而采用每天最多三个最重要事项(Most Important Things, MITs)的方法。至于其他的杂事,则放到一起找一个时间集中处理。其实放在一起还是一个今日事项,标出最重要的三项而已。至于叫什么我们不用太计较,有兴趣的同学可以尝试咯。 上周的 每周文摘 中正好谈到这个问题,总结起来不外乎几项: 明确目的,给自己点激励 放手去做,开始做最重要 减少干扰,尤其是来源于自己的干扰 给自己点奖励或者惩罚 而众多相关文章也给了我们一些执行过程中要注意的事项,比如: 不要尝试多任务,尤其是在执行重要任务的时候。 不停地在不同任务之间切换会降低效率,因为每次切换过来你的大脑都需要一定时间去熟悉那些内容。 李笑来老师 给出了一些原则: 同时做两件事儿的诀窍在于, 1) 其中一件事儿最好是机械的,少点技术含量的; 2) 另外一件事儿不是特别需要大量脑力支持的;3) 两件事儿都应该是确实有效用因而值得时间投资的。 如果有来自别人的打扰怎么办?我们之前有一系列 注意力相关的文章 ,有兴趣的话链过去阅读咯。 另外,ZTD建议,如果感觉到查Email或者上IM的压力,停下来,深呼吸,重新专注到目前的工作上,然后再开始手上的工作。也就是说,如果你内心那个让你分心的声音大到你已经无法专注于手上的工作,那么干脆先停一下,调整一下自己的注意力,然后再开始工作。 在四个习惯中,这个习惯可能是最难养成的。所以,给自己多一些时间来适应吧。 4. 回顾与计划 再好的系统如果疏于维护也会像没有人管的荒园,迅速地长满野草的。这就是我们要强调的GTD的第四个习惯:回顾与计划。其实GTD里面只是讲回顾,也就是上面那张图中的第四步。频率呢,则是每周一次,叫做每周回顾。不过经过我们前面的分析发现,GTD里面没有对于目标的追问和回顾,只是讲我们偶尔要上升到三万(或者五万?)英尺的高空,鸟瞰一下我们的生命(另一个比喻是在河里的鱼蹦出河面看到生命之河的流向?)。其实,每周回顾就是一个检查我们的目标,并且计划我们未来一周的短期目标的时间。不管你的目标是什么,以及你是否已经建立起个人领导系统(Personal Leadership System,来自 The Essential Missing Half of Getting Things Done )每周回顾都可以帮助你。 每周的回顾和计划是建立起你的目标和实践之间联系的枢纽 。 正如 李笑来老师所说 ,长期计划是需要通过实践才能习得的能力,而有一些时候计划是没有必要的,因为: 无论计划简单还是复杂,缺乏切实的行动就注定会失败或者失效。 很多的时候,没必要做计划的原因有两个:除了前面提到过的大多数计划其实非常简单之外,另外一个是初始状态下,我们往往实际上并没有能力去制定合理有效的计划。因为做任何事情,我们都可能要经历相同的过程:逐步熟悉,小心摸索,失败失败再失败,认真反思,卷土重来,直至成功。而在最初甚至连基本的认知都没有的时候,制定出来的计划十有八九只不过是空谈。 但是就像这句话说的: The future can be created, not simply exprienced or endured. 所以我们对于思考清楚的目标,还是有必要计划和回顾。ZTD的建议是每周列出下一周要完成的大石头,实际上也就是一周的短期目标,而数量则是4-6项比较好。ZTD的回顾内容如下: 回顾你的长期目标,中期目标和短期目标。 回顾你的笔记。 回顾你的日程表。 回顾你的清单。 设定你的短期目标和放置你的大石块。 (褪墨上有ZTD的全部翻译,有兴趣的同学可 从此 前往^^) 我们之前在 每周回顾:概念、要点、工具 里面也给出了我们阅读和思考的结果。另外,对于回顾和计划的内容,每个人都不尽相同,所以也需要我们在实践中不停地改进,就像《黑客帝国》中的母体利用锡安不断改进矩阵一样。当你某次回顾的时候发现你的每周回顾清单似乎缺了什么而有的回顾内容你已经好久没用过的时候,就是改进这个列表的时候啦。 四个习惯写完了,我觉得基本写出了我对GTD的理解以及从相关阅读中了解到的改进。当然,此系列文章会持续修改,欢迎朋友们分享在这个问题上的思考。另外,我想说的是,既然是习惯,那么就需要一些时间去养成。ZTD中讲最好一次养成一个习惯,而 养成任何非天生的习惯,都是需要挣扎才能做成的事情 ,所以,不要想一蹴而就或者去好高骛远,对自己多一些 耐心 吧。
输入:daofind后应输入的参数 Input image(s) : Output coordinate file(s) (default: image.coo.?) (default): FWHM of features in scale units (CR or value): FWHM (2.45) Standard deviation of background in counts (CR or value):STDDEV (3.3) Detection threshold in sigma (CR or value):? (20) Minimum good data value (INDEF) (CR or value): Maximum good data value (INDEF) (CR or value): 输入:phot后应输入的参数 Input image(s) : Input coordinate list(s) (default: image.coo.?) (default): default Output photometry file(s) (default: image.mag.?): default Centering algorithm (centroid) (CR or value): centroid Centering box width in scale units (CR or value): 2*FWHM (4.9) Sky fitting algorithm (mode) (CR or value): mode Inner radius of sky annulus in scale units (CR or value): R2=5*FWHM(常取2倍R1) (9.8) Width of the sky annulus in scale units(CR or value):Width=2*FWHM(常取1倍R1) (5) File/list of aperture radii in scale units (CR or value): R1=1.5*FWHM(imexam) (5) Standard deviation of background in counts (CR or value): STDDEV (3.3) Minimum good data value (INDEF) (CR or value): INDEF Maximum good data value (INDEF) (CR or value): INDEF {参考文献} 1. 郑伟康老师:IRAF测光步骤简介; 2. IRAF系统。