科学网

 找回密码
  注册

tag 标签: lift

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

利用liftOver进行不同版本的坐标转换
hayidahubei 2018-12-15 10:43
Here I want to show how to convert coordinates from mm10 to mm9 based on command line. And you also can do this using the web interface at http://genome.ucsc.edu/cgi-bin/hgLiftOver The operating system in my computer is Ubuntu 18.10 (64-bit). Liftover usage: liftOver input.bed map.chain output.bed unlifted.bed You need download two files from UCSC. The first one is “ liftOver ” , and the second one is ”map.chain”. You can download “ liftOver ” from http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/ , and download ”map.chain”( mm10ToMm9.over.chain.gz) from http://hgdownload.cse.ucsc.edu/goldenPath/mm10/liftOver/ . Then you can use the code listed above to convert the coordinate from mm10 to mm9 The code I used is showed below: liftOver ./ElementFromGtf/gene.bed /media/chunjie/hd2/Software/liftOver/mm10ToMm9.over.chain ./ElementToMM9/gene.bed ./ElementToMM9/unlifted.gene.bed
个人分类: 基因组注释信息|4916 次阅读|0 个评论
测量数据挖掘的效果
zzupc 2009-3-27 16:44
数据挖掘是昂贵的。它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建模、模型生成、结果分析等等。那么我们又如何确定所得结果是值得所有时间、金钱和努力? 我们将回答以下三个问题: 数据挖掘的目标是什么? 这个目标的完成度如何? 完成了这个目标,价值如何? lift 和 ROI 。 目标: 目标应该细化、清楚,以便于监督。切忌只有一个大而空的目标。 例如目标是:获得用户行为的了解、在数据中发现有用的模型、发现一些有意思得东西。这些都是大而空得目标。而另外一些目标如:发现那些用户不愿意续用某项服务;找出哪些产品的销量会受影响,当啤酒不再销售的时候。 描述型的目标和预测型的目标。 例如有两个从同一个数据库中生成的两个分类模型:模型 1 ,含有四条规则,每条含有四个是非字段。模型 2 ,含有 50 条规则,每条都含有很多字段。模型 1 对 70% 的数据进行了正确的分类;模型 2 对 72% 的数据进行了正确的分类。现在要问:哪个模型更好呢?答案取决于您的目标。如果是描述性的目标,也就是说只是想对数据有一个好的了解的话,那么显然模型 1 比模型 2 要更加的简单明了。而另一方面,如果是预测性的目标,目标是为了降低费用的支出的话,那么虽然只有 2% 的差别也有可能会有上百万美圆的差别,因此模型 2 就更受欢迎了。 3 衡量: 目标衡量要注意的四个问题: 模型的准确率是多少? 模型对于数据的描述程度有多好? 模型的预测有多少可信度 ? 模型是否容易理解? 整体或部分:一个模型的准确性和可理解性,可能在数据的整体或部分上是有一些区别的。两个整体准确性相同的模型可能在某个部分,它们的准确性会有不小的区别。 衡量描述型模型: MDL ( minimum description length )。我们用 MDL 来衡量描述性模型的好坏的标准就是: MDL 即整个模型的长度。 衡量预测型模型:通过对未知数据的预测准确率来衡量。 关于分类的衡量: 错误率 。对于分类或预测的任务,它的准确率可以用错误率来衡量。也就是模型在一个评估集上的预测的错误率是多少。 关于估值的衡量。如果处理的任务是估值的时候,这时的准确率就是估算值和实际值之间的差别。对于数据整体上的准确率可以有多种方法来衡量。比较常用的有标准方差( Standard Deviation )、可信度和支持度( Confidence and Support )、距离( Distance )。 衡量结果 : 以上的方法主要是对于某个模型的衡量,但是如何比较多个模型的好坏呢?这里我们提出一个 Lift 的概念用于衡量多个模型之间的差别。 提升度( lift ) = P ( classed / sample ) / P ( classed / population )。 我们举个例子来说明一下:对于一个分类算法来说,它要对一个估计集进行分类,也就是标上一个标记:如好、坏。现在假设估计集中有 5% 的真正 好 的记录,而在用分类算法标上 好 的记录中有 50% 的真正 好 的记录,那么这个算法的提高率就是 50/5=10 。但是是不是单纯只要提高率越高,这个模型就越好呢?这里还有一个问题就是 sample 的大小问题。当一个 sample 非常小的时候,它的 lift 也必然会相应的提高,所以我们也应当同时考虑 sample 大小的问题,因为 lift 回随着 sample 的增大而减小。 最后提一下的就是在真正的商业应用中,最重要的还是 ROI ( Return On Investment )的大小,上面的种种只是对实际情况的一种估计,在采取行动之后我们还必须对行动的效果进行不断的统计 。
个人分类: 学科前沿|5466 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 13:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部