科学网

 找回密码
  注册
科学网 标签 工具 相关日志

tag 标签: 工具

相关日志

图形展示工具的可视化研究
jojo199084 2014-1-1 22:27
本文主要以福州市五区八县2010年入室盗窃类案事件为例,利用Tableau 8.0工具进行犯罪可视化展示。 Tableau 8.0 工具中主要图表有:文本表、直方图、树地图、突出显示表、水平图、堆叠条、圆视图、并列圆、填充气泡图、趋势图、甘特图等等。文本表、直方图、水平图、堆叠条、圆视图、并列圆、趋势图、甘特图相对来说较简单、直观;树地图、突出显示表则主要通过色彩的深浅变化来反映数量的多少;填充气泡图则主要通过圆的大小来反映数量的多少。它们均可通过计算犯罪数量和犯罪率两种方式来进行统计分析。下面将选取一定的图形加入仪表板进行综合展示分析。 如图 1 所示文本表,可以看出不同季度、不同月份、不同星期的入室盗窃案的犯罪数量,如图 2 所示:从竖直条形图中可以看出2010年第三季度(绿色部分)入室盗窃的犯罪数量远远高于其他季度;从填充气泡图及树地图可以发现2010年9月份的入室盗窃的犯罪数量远远高于其他月份,主要通过填充气泡图中气泡的大小及树地图中颜色的深浅反映出犯罪数量的多少;而从趋势线很明显可以看出周五的入室盗窃数量特别多。 图1 文本表 图2 还可以通过两个时间维度相结合来分析入室盗窃数量的多少,如图 3 所示 图3 对于不同时间段本文一般用犯罪数量来统计,而对于不同辖区则通过犯罪数量和犯罪率结合统计更加准确直观。如图 4 所示:福清的犯罪数量远远高于其他地区,然而其犯罪数量也是在第三季度九月份的星期三达到最高值。 图4
2 次阅读|0 个评论
生物信息学资源与分析工具(2013.10.28)
jgu 2013-10-28 12:31
Resources and tools for bioinformatics study. Please contribute this document if you have new recommendations or some commments on current collections Some small tools are also provided under ./small_tools/, such as file merge, gene list merge, gene list comparison, etc. Created, Oct 6, 2011 Latest update, Oct 28, 2013 *************************************************************************** --------------------------------------------------------------------------- *************************************************************************** 1. Data resources 1.1 Protein-protein interaction HPRD (recommended for initial study; download the binary interaction file if you do not concern the quality; pay attention to the evidence codes, if you want to focus on the PPI detected by low-throughput experiments) BioGRID MINT IntAct MIPS BIND (Note: some protein-DNA interactions are also included) STRING (Note: they are many functional associations rather than physical interactions) 1.2 Pathways KEGG (You can download raw data files from its FTP site. Please look at the map_title.tab and hsa_gene_map.tab for GeneID mapping) BioCarta (No source file... Only include the core genes related to the signaling pathway) Reactome (Many more species avaliable) NetPath NCBI PID 1.3 Gene regulations TargetScan (predicted miRNA targets; tool is also avaliable) RNA22 (miRNA target prediction tool) miRBase (microRNA database) TarBase (experimentally verified microRNA target database) miR2Disease (a manually curated database, aims at providing a comprehensive resource of miRNA deregulation in various human diseases) TRED (transcription regulation database; curated from literature) TRANSFAC (TFBS PWMs; many useful information; Please pay attention to the quality of the PWMs;need license.....) JASPAR (Open-access PWMs) ENCODE (Huge number of data....) 1.4 Gene function Gene Ontology (A review paper is recommended: Rhee et al. Use and misuse of the gene ontology annotations. Nat Rev Genet 2008, 9:509-515.) NCBI Gene Database 1.5 Gene expression NCI-60 project (gene miRNA expressions from 60 cancer cell lines) Connectivity Map (gene expressions from many cell lines treated by different drugs under different dosages) NCBI GEO (you can download .CEL raw data for further processing) EBI ArrayExpress (I do not like the file format of ArrayExpress....) ENCODE (many resources including RNA-seq data) TCGA (http://cancergenome.nih.gov/ the cancer genome atlas) CCLE (http://www.broadinstitute.org/software/cprg/?q=node/11 cancer cell line encyclopedia) 1.6 Drug related DrugBank PubChem ATC code SIDER 1.7 Disease related HPO SIDER OMIM miR2Disease (a manually curated database, aims at providing a comprehensive resource of miRNA deregulation in various human diseases) TCGA (http://cancergenome.nih.gov/ the cancer genome atlas) CCLE (http://www.broadinstitute.org/software/cprg/?q=node/11 cancer cell line encyclopedia) 1.8 Standard vocabulary HNGC (mapping many IDs/Names to standard IDs; EntrezGeneID is recommended;http://www.genenames.org;a sample code is given ./id_mapper/) UMLS (Unified Medical Language System) MeSH (Medical Subject Headings) *************************************************************************** --------------------------------------------------------------------------- *************************************************************************** 2 Tools 2.1 Integrated portals and platforms UCSC Genome Browser (please learn how to use Table Browser and how to add Custom Track) IPA (Read documents from http://www.ingenuity.com/; a commercial integrated functional annotating systems) Expander Cytoscape (Network visualization and small scale network analysis) BioConductor (a R platform, including many packages for bioinformatics analysis; please read its documents) 2.2 Sequence analysis BLAST BLAT (compare similar and long sequence) Bowtie (recommended for deep sequencing analysis) ClustalX (local multiple alignment) Sim4 2.3 Literature mining Literature mining scripts written by Jun Yuan (Please refer to the dir ./literature_mining/) 2.4 Statistical packages fdrtool (calculate the q-values based on p-value, z-score, t-score and correlation) 2.5 Functional annotation or gene set analysis GSEA (gene set enrichment analysis package) DAVID web tools Ontologizer (gene set analysis for GOs with hierarchical information and visualization) 2.6 Gene regulation TargetScan (miRNA target prediction) RNA22 (miRNA target prediction;easy for use) DME/STORM (motif analysis package first written by Andrew Smith, recommended; many other tools in the same package) MEME (for small scale motif analysis, very slow) MINDy (modulator inference by network dynamics) miRHiC (regulatory inference from hierarchical gene co-experessed signatures) ARCANE (gene regulatory inference from large-scale gene expression data) 2.7 Microarray processing dChip (easy to use; please refer to the documents and some scripts under ./microarray_dchip/; Combat for adjusting batch effects) RMA (similar usage as dChip) SAM (Significance analysis of microarray, to detect differentially expressed genes; EXCEL plugin/R scripts; I recommend write your own code (t-test + fdr adjustment) to identify differentially expressed genes...) EDGE (Identify differentially expressed genes in time-course datasets; the sample size should be more than 10 according to my experience) STEM (Identify gene expression patterns from time-course datasets with limited number of time points; easy to use, java platform) FastDMA (analyzer for illumina humanmethylation450 beadchip) *************************************************************************** --------------------------------------------------------------------------- *************************************************************************** 3 Conferences and Journals 3.1.1 Bioinformatics 3.1.2 PLoS Computational Biology 3.1.3 BMC Bioinformatics/Genomics/Systems Biology 3.1.4 PLoS ONE 3.1.5 Nucleic Acids Research (Computational Biology/Webserver Issue/Database Issue) 3.1.6 Nature Biotechnology/Method (Computational Biolgy) 3.1.7 Quantitative Biology 3.2.1 ISMB/ECCB (Intelligent Systems for Molecular Biology) *** 3.2.2 RECOMB (Research in Computational Molecular Biology) *** 3.2.3 APBC (Asia Pacific Bioinformatics Conference) ** 3.2.3 InCOB (International Conference on Bioinformatics) ** 3.2.4 BIBM (IEEE International Conference on Bioinformatics and Biomedicine) 3.2.5 PSB (Pacific Symposium on Biocomputing)
个人分类: 科研笔记|4894 次阅读|0 个评论
死亡(八)自己的工具
热度 2 smallland 2013-9-29 16:54
死亡是别人的工具,也可以是自己的工具。解脱痛苦,只是负面工具之一。 正面的,前面多次说过,对于雄性,其竞争就不能惧怕死亡。所以,雄性是死亡性别。 古代的将军,最高境界之一,就是战死疆场, 革马裹尸 。如果削了他的职,让他回家种地,他就很不高兴。当然,这个境界,其实是有原始动力的,比如,建功立业、三妻四妾,等等。 据说当年的秦国,奖惩机制很刺激,战士上了战场就很卖命,不怕死,因为,一旦活下来,割了几个敌人头颅,就能换回物质利益和生殖利益。 作为自己的工具,当然不止这个。比如黑老大,就常常会展示自己是拼命三郎,不怕死。如果身上有刀伤,就更应该充分展示一下,以此威吓喽罗门。 有的普通人,也会用类似的手段:我死给你看,不信?看看吧。孩子,也会用。对父母说,我死给你看。父母说,去死吧。如果真的死了,父母会很伤心。孩子的工具生效了,自己却看不到效果。 这个为自己服务的工具,也只有人类才会。
2149 次阅读|2 个评论
死亡(六)工具
热度 1 smallland 2013-9-23 20:00
人类虽不是唯一学会使用工具的动物,但无疑是使用得最好的。任何东西都可能成为工具,死亡,也不例外。 9.11 后,有颇具正义感(引号)的国人,赞美,说,你看,那是什么样的仇恨啊!冒着必死的决心,稳健地操纵着飞机,撞向象征繁荣和腐朽的大楼。 那到底是什么样的仇恨呢?很可能,美国大兵没有占领其家园,也没有奸淫其妻女。那仇恨,很可能是驯化出来的(如何? TED 有个视频,大概题目是人肉炸弹是怎样炼成的,方法,很简单)。 这样的工具,我们应该不陌生。一个 15 岁的少女,坦然走向鬼子(忘记是什么鬼子了,还是什么狗子)的铡刀。这,也受到表扬,一个有影响力的人物就很赞许,说,很好啊,生的伟大,死的光荣。哪里光荣呢?一个未成年人,没有能力判别 x-ism 和真伪,肯定是谁教的好。 旧时日本武士,不为仇恨,也能死的很壮观。切腹,方法当然有龟腚。很可能,连肠道的内容物也切出来。但,他们认为,那样做很神圣,或者,他的家人也会很有面子 ---- 尽管血和未消化完或已经消化完的食物混合着。 近两天, al Shabaab 的领导,可能在舒适的环境中用着手机或电脑,在社交媒体上发布着实时信息,遥控着那些圣战者 --who ,冒着必死的决心,占领了超市,制造了血流,扣押了人质。他们必死。或许,他们认为这很神圣。也或许,他们相信天堂的 72 个处女在等着。不管他们怎么想,或许,这想法就是发 twitter 者告诉他们的。 如果这事发生在帝国主义领土上,也会有国人为此欢呼。
1714 次阅读|2 个评论
我的window效率软件汇总
热度 1 laplace 2013-8-18 10:07
工欲善其事必先利其器,面对一个好的软件,初期可能会有陌生感,但是只要踏出第一步,用上之,慢慢习惯之,价值和效率就会慢慢体现。所谓最高价值的产品,就在于买了它,它会随着时间的推移给你带来越来越多的价值,而不是像一根馒头,只能带来一次性的价值。所以从这个角度来说,面对一个不熟悉但是介绍上说很有价值的软件,还是很有必要勇敢的踏出第一步,去尝试一下,才会发现新的天地。 1、知识管理软件——evernote 这个就不展开说了,有一篇专门的博文,而且笔记软件或者知识管理软件的应用手法千差万别,没有统一的方法,只可个人不断积累经验。 2、知识管理软件——wiz(为知笔记) 官网: http://www.wiz.cn/index.html 3、文献管理软件——mendeley 官网: http://www.mendeley.com/ 抛弃了endnote转到该软件有一年多了,软件更新后有了越来越多的新功能,目前他被 Elsevier收购,有了干爹,用该软件更踏实了。 pdf全文检索,doi快速添加文献,云同步,网页快速导入文献,应用内可以直接检索mendeley文献数据库,用户之间协同处理文献,等等,优点多多,值得尝试。 对于刚进组的同学来说,尤其值得尝试。而对于老师来说,用这个软件作为公共的实验室文献管理平台,估计是最棒的了。 4、速度最快的文件搜索软件——search everything 推荐指数:五颗星! 官网: http://www.voidtools.com/ 善用佳软: Everything:速度最快的文件名搜索工具 强调两点(1)设置快捷键,tools——options——keys——new wi ndow hotkey——按F4,将F4设为快捷键,这样就任何使用都可以一键F4呼出搜索框,直接输入要搜索的关键词/文件类型等等,(可选 键盘流 操作:点击TAB找到相应文件,enter即可直达了)。(2)在search中有几个match,如果大家用这个软件发现没有搜到本应该出来的,注意是不是这儿筛选所致。 (3)用习惯这个软件之后,就会潜移默化的注意文件和文件夹的命名的规范性,这样就不会找不到文件了,至于存放位置就无所谓了。(4)只支持NFFS格式磁盘,如果某一个磁盘不能被检索,注意格式是否正确。(5)当然只要用上手了,相信大家都会自然而然的把各个设置摸索一遍的。 5、剪切板增强软件——CLCL 推荐指数:五颗星! 善用佳软: 剪贴板增强软件综述:CLCL,ClipX,Ditto等 虽然有各种剪切板增强软件,但是我还是最爱CLCL,平时随便ctrl+c和ctrl+v,需要粘贴之前的记录时,用alt+v呼出CLCL的复制记录,然后上下箭头找到记录按enter即可,又是流畅的鼠标流。 提醒一点:用CLCL复制非最新记录,可以将文字的格式除去,这样可以省好多麻烦。 6、截屏软件——FastStone Capture 你还在用qq截图吗?用这个软件,就能体会所谓的软件精细分工的意义,多少软件都自带截图功能,但是都没有这个只专注截屏的软件做得好。 7、同步盘——金山快盘,坚果云和dropbox 金山快盘:毫无疑问,它可能是目前用的最普遍的,我也在使用,将不需要过分安全储存的软件/图片等保存到快盘中,将其定位为“存储盘”。 坚果云:最推荐坚果云,增量同步功能会减少流量,只限制每月流量而不限制总容量的策略意味着无限的空间,可以同步电脑中的多个文件夹,更重要的是他的安全性绝对要甩开金山快盘好几条街,对安全的重视 甚至 要高过dropbox,后者只有危机之后才开始两步验证,前者早就实现了。我将该软件定位为“同步盘”。 dropbox速度慢,但是他的api连接了很多软件,所以,还是必须要用的。 8、浏览器——chrome 推荐指数:五颗星! 我该用何种赞美的语言去夸奖chrome,或许这么说,能够对得起他给我的价值:“有了chrome浏览器,我心情舒畅了,活得更长了”。因为软件赋予我们的效率,就相当于给予了我们时间。 使用chrome浏览器,一个重要的感悟就如同科研idea的启发“只有想不到,没有做不到”,任何的一个需要的功能,我们都可以早浩瀚的插件和应用市场中找到。 9、快速启动程序的软件:FARR(fast and run robot) 需求:快速启动程序。 看似不起眼的功能,却能节省大量的时间。 尤其是软件较多,寻找不遍的时候。当年每次都要在桌面上翻一阵,或者在开始-程序中浏览半天才能找到自己想要的软件的时候,那就要想想,这个软件的存在必要性了。 启动方式:ctrl+space(自己可以设置)快速呼出对话框,如下图所示,然后直接输入ever,wiz,qq,dr,360等软件的前几个字母,即可回车打开该软件, 又是流畅的键盘流。 历史记录自动更新。 高级设置:(1)可以设置扫描的文件夹及其优先级,例如可以加入存放绿色软件的文件夹(2)可以将常用的软件放在对话框的右边,如下图所示的wiz图标和飞信图标,不过这个没啥必要,因为这样就需要用到鼠标了。。。(3)只是用来启动软件,就有点小看这个软件了,虽然我确实只是用来启动软件的。使用大量的扩展,很多功能,有兴趣的可以自己去研究一下。 PS:(2013年8月18日星期日) 纠结再三,还是发了这个博文吧,或许我在软件上有点过分的追求,就像前几天遇到的一个追星族的狂热一样让人感觉可笑,所谓生活过度的工具化,只会导致本末倒置的结果。这个还是需要谨记的。 但求对看过这个博文的人有点价值吧。
个人分类: 生活点滴|2434 次阅读|1 个评论
当工具不再是工具--海德尔堡人的石斧
smallland 2013-8-16 11:26
古人类学者在研究几十万年前海德尔堡人(一说是现代人和尼安德特人的祖先)的石器时,发现了一个巨大的石斧。这石斧,做的很大,很精致,显然并不实用,就像普通士兵拿着关云长的大刀。因此,研究者说,这石斧,显然不是用来切肉的,而是给别人看的。也就是说,这是原始文化的发扬光大,主人通过石斧展示自己的智慧和能力。 因此,研究者接着说,当工具不再是工具,它就被赋予了原始的交流功能。 工具不再是工具?显然,说的是切肉的工具。其实,它依然是工具,展示自己的工具 -- 或许,通过这个工具,石斧的主人能获得雌性的青睐,能让他获得更多的交配机会(制作石斧显然是雄性的任务 )。 在动物进化过程中,许多“工具”最终进化成另外的工具,具有 性 选择的功能,鱼虫鸟兽都不乏典范。譬如,腿的功能是奔跑,追逐猎物、躲避敌害,等等。 而刘翔的腿,显然超越了原始的功能,或者说,原始功能已经毫无意义-- 不用去捉兔子,不用去捉小偷。有意义的是,他只要苦练, 通过展示自己的奔跑能力,获得另外的好处 。 当工具不再是工具,才是生物创造奇迹的时刻 ,才是文明物种的起点。 海德尔堡人
2457 次阅读|0 个评论
常用的专利分析工具
热度 3 dj2012 2013-5-26 12:01
分析软件名称 简 介 中国分析软件 PIAS 专利信息分析系统 该系统是由国家知识产权局知识产权出版社开发的专利分析系统。能够对专利信息进行二次加工,便于对技术发展趋势、申请人状况、专利保护地域等专利战略要素进行定性、定量分析。 该系统吸收并借鉴了国外成熟的分析理论和研究,从专利战略的多个视角透视专利技术,通过对大量专利文献数据的统计分析处理,形成各种直观、形象的数据图表,提供清晰、高校的信息情报,并且可以实现从国内外相关专利网站批量下载数据,并导入数据库内进行专利分析。 东方灵盾中外专利检索及战略 分析平台 该平台是北京东方灵盾科技有限公司自主开发的适用于社会大众不同专利检索和战略分析需求的系统软件。相比国内其它同类产品,该平台具有更加强大而个性化的检索和分析功能,能够更高效地满足用户对专利信息的查全、查准的需求,对检索结果进行准确的统计分析。该平台目前达到了国内领先水平,是东方灵盾为企业量身定制高质量专业专利数据库的有力工具。 该平台能够对技术发展趋势、专利保护地域、专利权人申请状况等专利战略要素进行多向位的统计分析。统计结果可以分别显示为一维、二维、三维的柱状图、饼状图、曲线图和表格形式,使用户能够方便直观地对各技术领域的发展趋势、竞争态势有一个综合了解,从而来更加深入地挖掘和有效利用专利信息的战略价值。 大为PatentEX专利信息创新平台 该平台具有高速下载、高稳定性、高易用性等特点,特别适用于企业、大学、研究机构等创新主体,用于建立本地主题数据库,监视竞争对手技术发展动向,跟踪行业新技术发展动态,挖掘现有人类智慧结晶,研发出世界范围内的优势专利,并通过对行业专利技术的分析,配合企业的经营战略,有效制定企业知识产权发展战略,形成企业的核心竞争力,达到进攻与防御的平衡。数据来源于中国、美国、欧洲官方免费专利数据库,也可扩展到日本、WIPO官方免费专利数据库。 该软件的分析功能有:技术生命周期分析,根据逐年专利申请件数和专利申请人(发明人)数量,生成技术生命周期分析图,直观揭示出技术发展的萌芽期、成长期、成熟期、衰退期;自定义矩阵分析:标引专利采取的技术手段与产生的功效,生成功效矩阵图,了解矩阵中的空白区、疏松区、密集区,以便于进行创新研发、规避风险、架构专利网或衍生新的专利;增长率分析:申请人、发明人、技术分类等年度申请量增减幅度分析,了解技术创新能力变化趋势;存活期分析:对行业、申请人、区域等专利法律状态、存活期进行分析,找出核心专利;引证分析:按专利的引证数量和相互引证关系生成引证图,分析技术演变过程;定量分析:对任意的专利著录项目或用户标引项目可进行简单统计分析和组合统计分析。 恒和顿HIT—恒库 HIT_ 恒库是恒和顿自主研发的,集专利信息检索、管理与分析为一体的专利分析系统。该系统的分析功能包括:授权信息统计;竞争对手当前的技术拥有情况;技术信息统计;专利引证分析;专利价值分析等。该系统对于专利著录项制作多种统计图表,还可以在图像中进行图像控制和其他操作,如颜色、数据、二维或三维、标题注释以及图例控制等。 根据用户需要,自动生成多种形式的统计报告,各种重要的统计信息和图表清楚地呈现在报告中,为用户提供极具价值的情报信息。原始文件可以转换为各种常用格式文件,方便使用和管理。 外国分析软件 Derwent Analytics Derwent Analytics 是一个对数据进行深度挖掘并展开可视化分析的软件。它具有界面友好和直观的特点,提供一种轻松的方法从Thomson Derwent专利数据库中的原始数据中,挖掘出更有意义的分析数据,为全面掌握行业动态提供有意义的依据。 自动汇总——Derwent Analytics会初步自动汇总、分析所输入的数据,按照不同的侧面分类快速显示所汇总的数据,初步给用户一个发展趋势的概况; 数据整理—— 数据分析的结果首先取决于数据的准确性与完整性:例如将已经合并的两家专利申请企业的专利清理、组合成一家合并后企业的总专利清单; 比较矩阵—— 将两种不同类型的数据生成比较矩阵,借此发现两种不同类型数据间内在的相互关系。例如将专利权属人(一般是公司)与专利发明人之间生成关系矩阵,了解同一个专利发明人是否曾经为多家公司做过专利发明; 数据图谱——将大量的数据汇总进行各种分析(如聚类分析、趋势分析等)并以二维和三维的方式图示的形式表示出来; 预置的分析模块(宏)——单击不同的分析模块,即可按照模块预定的分析功能自动分析所导入的数据,并最终生成分析报告; 工具包——用户可以利用工具包建立用户自己定义的词典等。 TDA Thomson Data Analyze (TDA) 是美国Thomson公司开发的专利分析工具,是Derwent Analytics的第二代产品。通过该软件可以对专利数据进行深度挖掘并展开可视化分析。TDA具有自动化程度高、界面友好、直观的特点,提供一种轻松的方法从Derwent世界专利索引和专利引文数据库中的原始数据中挖掘出游有用信息,为洞察技术发展趋势、掌握竞争对手的专利发展情况、找出多产的专利发明人及其供职的公司、发现行业近年新出现的技术、确定研究战略和发展方向等方面提供有价值的依据。在数据整理、比较矩阵、数据图谱、自动汇总等功能方面比较有优势。 Aureka Aureka 结合了世界主要的专利数据库、方便快捷的文件目录树、强大的搜寻引擎、独创的检索机制、先进的语意分析和文本聚类技术、无与伦比的可视化专利地图,可以更加轻松的管理知识产权,让专利与技术文献数据,自动解析成为结构化的知识,通过Aureka数据库可以进行:侵权研究;专利管理;掌握技术发展趋势;寻找合作伙伴;监控竞争对手等。 VantagePoint SearchTechnology 公司的产品Vantage-Point是一种数据挖掘工具,能深层次挖掘专利信息。主要是对数据域内的各种项目进行统计分析。如果该数据域里含有书面文本的话,该软件也能运用某些自然语言运算法则进行主题解析。系统采用多种算法如通过模型匹配、基础规则和自然语言加工技术等进行文本挖掘,系统使用的数据由用户直接从数据供应商处购买。 Patentlab- Ⅱ 该分析软件主要针对Delphion的专利进行分析。其功能较单一,主要是根据用户选定的指标生成二维、三维的直观图表。它的主要功能有:提供几种类型的HTML报告格式、Analysis Wizard为用户提供简便的专利数据分析、Patent Viewer为产看专利全文、ChartsGraphs提供可视化的图表分析能力,此外还提供了在线国际专利分类或美国专利分类的对照显示功能。 BizInt Smart Charts 该软件允许用户使用来自STN、Derwent、IFI以及Dialog上的化学文摘库的专利数据,并生成由其得到的信息图表。该系统可以简便地定制各种图表,并有多种存储和输出选择。 STN AnaVist STN AnaVist 是一个强大的交互分析和形象化的软件,提供各种科学文献和专利检索结果的分析工具并呈现研究模式与趋势。STN AnaVist 能分析从多学科 CAplusSM 数据库、专利数据库 USPATFULL 及 PCTFULL 里所搜索的结果。运用STN AnaVist可以分析专利,追踪竞争信息——找出您的竞争对手在做什么,发现现有技术的最新应用,决定研究趋势——了解研究领域是否为新兴领域、稳定成长的领域还是正在衰退,作为战略性商业决策支持。 Focust Focust 软件包含有检索模块、引文模块和分析模块。其分析模块提供诸如文本挖掘分析、高级可视化技术分析功能,以及灵活多样的专利文件管理,使分析方法灵活,结果更加可靠。文本挖掘分析,利用关键词建立专利文献聚类图形,用树状图形的形式帮助用户更好地了解专业术语。高级可视化技术分析功能允许用户定制二维或三维图表,分析相关专利情报。专利文件管理功能提供用户几种灵活的方式管理专利文献,方便专利分析。 Invention Machine Invention Machine 系列产品是由Invention Machine公司开发的一系列用于帮助进行计算机辅助发明设计的应用软件,其中在专利分析方面最相关的两个产品是Co-Brain和Knowledgist。这两个软件都用于实现从全文数据中提炼主题或功能或目的函数。
14122 次阅读|6 个评论
知识工具
热度 1 dj2012 2013-5-26 11:57
5493 次阅读|1 个评论
pixtool:栅格图像工具软件
liujs 2013-5-25 11:57
栅格图像工具软件是一组对sun栅格图像数据进行格式转换、自动剪裁、拼接、动画播放的工具集。共包含7个模块,1to8模块将一位面图像数据转为8位面格式;8to24模块将8位面图像转为24位图像数据;24tr8将24位图像转换为8位图像格式;rasrot模块对图像进行旋转、翻转等变换;pixcut根据给定的背景颜色自动对图像进行剪裁;pin24对两个图像进行拼接;xmvw模块对一组连续的图像进行动画播放。 软件可用于各种地球物理场图像及地质图像的后期处理、演示,用于揭示各种物理场值随时间和空间的连续变化。 软件著作权登记号:2013SR049712 pixtool-栅格图像工具软件使用说明.pdf
3356 次阅读|0 个评论
预测蛋白质相关信息的在线工具
Bearjazz 2013-5-16 15:15
熊荣川 xiong rongchuan 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 生物信息学可以根据已有的数据对蛋白质的信息进行预测. 再此介绍一个运行速度很快而且也比较权威的在线工具 ProtParam 网址: http://web.expasy.org/protparam/ 其网站上功能介绍如下: ProtParam ( References / Documentation ) is a tool which allows the computation of various physical and chemical parameters for a given protein stored in Swiss-Prot or TrEMBL or for a user entered sequence. The computed parameters include the molecular weight, theoretical pI, amino acid composition, atomic composition, extinction coefficient, estimated half-life, instability index, aliphatic index and grand average of hydropathicity (GRAVY) ( Disclaimer ). 只要在数据框中粘贴你的氨基酸序列并提交, 即可预测该该蛋白质的相关信息. 如等电点、分子量、分子式、不稳定系数(instability index, 40为稳定, 40为不稳定) 预测蛋白质功能作用位点的在线工具 http://myhits.isb-sib.ch/cgi-bin/motif_scan 在数据框中输入一定格式的氨基酸序列(具体可以先观察其带的例子),在数据框下面复选参考数据库,然后搜索. 可以查看类似蛋白激酶磷酸化位点之类的信息.
个人分类: 我的研究|10072 次阅读|0 个评论
选个好工具很重要(R)
seawan 2013-5-8 17:59
计算机编程搞多了,真是习惯势力严重。 最近花了很多功夫来编程, 用的是Java。。。 实际上是非常失策: Java中用于数据分析的模块还是没有其他一些环境多, 例如R。 例如,时间序列模式的运算,从Java中难以找到相应的模块,R中现成的。 重新来过吧。 ----- R还是开源的,很好。 http://www.r-project.org/
个人分类: 好工具|2191 次阅读|0 个评论
[转载]数字人文工具汇总
热度 2 limer 2013-5-5 11:11
DIGITAL HUMANITIES TOOLS DELICIOUS Delicious is a Social Bookmarking service, whereby one may save bookmarks online, share them with others, and see what other people are bookmarking. DIIGO Diigo is two services in one --a research/collaborative research tool, and a knowledge-sharing community/social content site. TWITTER Twitter is a real-time short messaging service that works over multiple networks and devices. In countries all around the world, people follow the sources most relevant to them and access information via Twitter as it happens-from breaking world news to updates from friends. WORDLE Wordle is a toy for generating word clouds from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text. You can tweak your clouds with different fonts, layouts, and color schemes. The images you create with Wordle are yours to use however you like. You can print them out, or save them to the Wordle gallery to share with your friends. WORDPRESS WordPress is a state-of-the-art publishing platform with a focus on aesthetics, web standards, and usability. WordPress is both free and priceless at the same time. More simply, WordPress is what you use when you want to work with your blogging software, not fight it. OPEN SOURCE SOFTWARE FEDORA Fedora is a Linux-based operating system that showcases the latest in free and open source software. Fedora is always free for anyone to use, modify, and distribute. It is built by people across the globe who work together as a community: the Fedora Project. The Fedora Project is open and anyone is welcome to join. KUALI Kuali is a growing community of universities, colleges, businesses, and other organizations that have partnered to build and sustain open-source administrative software for higher eduction, by higher education. Kuali software is released under the Educational Community License. MIT OPEN COURSE WARE MIT OpenCourseWare (OCW) is a web-based publication of virtually all MIT course content. OCW is open and available to the world and is a permanent MIT activity. PHILOMINE PhiloMine is a drop-in extension to current releases of PhiloLogic, to support a variety of machine learning, text mining, and document clustering tasks. It is designed to work with databases currently loaded under PhiloLogic without further modification. Like PhiloLogic, PhiloMine is a Free Software implementation designed to support research and development activities at the ARTFL Project and the Digital Library Developement Center and the at the University of Chicago. SILVERLIGHT Microsoft Silverlight helps you create rich web applications that run on Mac OS, Windows, and Linux, providing a new level of engaging, rich, safe, secure, and scalable cross-platform experience. SOFTWARE ENVIRONMENT FOR THE ADVANCEMENT OF SCHOLARLY RESEARCH The Software Environment for the Advancement of Scholarly Research (SEASR), funded by the Andrew W. Mellon Foundation, provides a research and development environment capable of powering leading-edge digital humanities initiatives. SOPHIE 2.0 Sophie 2.0 is open source software for writing, reading and visualizing rich media documents in an interactive, networked environment. The program emerged from the desire to create an easy-to-use application that would allow authors to combine text, images, video, and sound quickly and simply, but with precision and sophistication. Sophie's users are interested in creating robust, elegant, networked, texts and multimedia works without having programming knowledge or training in the use of more complex and costly tools such as Flash.Sophie 2.0 was initially designed and developed by the Institute for the Future of the Book. In 2008, the University of Southern California's School of Cinematic Arts assumed sponsorship of Sophie 2.0 and, with a generous grant from the The Andrew W. Mellon Foundation, is significantly revising and improving a new 2.0 version to be released in the Fall of 2009. The Sophie 2.0 Project is being developed by Astea Solutions AD and additional contributors using a Java code base contributed to the project by Astea Solutions. TEXT CODING INITIATIVE The Text Encoding Initiative (TEI) is a consortium which collectively develops and maintains a standard for the representation of texts in digital form. Its chief deliverable is a set of Guidelines which specify encoding methods for machine-readable texts, chiefly in the humanities, social sciences and linguistics. Since 1994, the TEI Guidelines have been widely used by libraries, museums, publishers, and individual scholars to present texts for online research, teaching, and preservation. In addition to the Guidelines themselves, the Consortium provides a variety of supporting resources, including resources for learning TEI, information on projects using the TEI, TEI-related publications, and software developed for or adapted to the TEI. THOUGHTARK An open source, free web application and collaborative space that utilizes the search behaviors of the users to determine the value of various bibliographic resources. RESEARCH ENVIRONMENTAL SYSTEMS RESEARCH Founded as the Environmental Systems Research Institute, ESRI is built on the philosophy that a geographic approach to problem solving ensures better communication and collaboration. Geographic information system (GIS) technology leverages this geographic insight to address social, economic, business, and environmental concerns at local, regional, national, and global scales. HISTORY ENGINE The History Engine is an educational tool that gives students the opportunity to learn history by doing the work-researching, writing, and publishing-of a historian. The result is an ever-growing collection of historical articles or episodes that paints a wide-ranging portrait of life in the United States throughout its history and that is available to scholars, teachers, and the general public in our online database. OPEN JOURNAL SYSTEMS Open Journal Systems (OJS) is a journal management and publishing system that has been developed by the Public Knowledge Project through its federally funded efforts to expand and improve access to research. OJS assists with every stage of the refereed publishing process, from submissions through to online publication and indexing. Through its management systems, its finely grained indexing of research, and the context it provides for research, OJS seeks to improve both the scholarly and public quality of refereed research. PHILOLOGIC PhiloLogic™ is the primary full-text search, retrieval and analysis tool developed by the ARTFL Project and the Digital Library Development Center (DLDC) at the University of Chicago. This is a Free Software implementation of PhiloLogic for large TEI-Lite document collections. The wide array of XML data specifications and the recent deployment of basic XML processing tools provides an important opportunity for the collaborative development of higher-level, interoperable tools for Humanities Computing applications. The sophistication and power of the TEI-XML encoding specification supports the development of extremely rich textual data representations. WORLDCAT WorldCat connects you to the collections and services of more than 10,000 libraries worldwide. CITATION MANAGEMENT CONNOTEA Connotea: Free online reference management for clinicians and scientists. ZOTERO Zotero is a free, easy-to-use Firefox extension to help you collect, manage, and cite your research sources. It lives right where you do your work-in the web browser itself. ANALYTICAL RESEARCH METADATA OFFER NEW KNOWLEDGE (MONK) MONK is a digital environment designed to help humanities scholars discover and analyze patterns in the texts they study. The MONK project has been generously supported by the Andrew W. Mellon Foundation, from 2007-2009, and InCommon integration has been supported in 2009 by the CIC Library Directors. All code produced by the project is open source. MONK has a publicly available instance with texts contributed by Indiana University, the University of North Carolina at Chapel Hill, the University of Virginia, and Martin Mueller at Northwestern University. NEOFORMIX Discovering and Illustrating Patterns in Data: Blog editor who enjoys discovering the patterns in the apparent chaos of real life data and exploring new techniques for communicating in a visually compelling manner. Includes analytical project results, reviews of tools or techniques, and links to related resources. NVIVO Different than statistical or quantitative software, which analyze data using numbers, QSR software helps you to access, manage, shape and analyze detailed textual, audio and visual information. The NVivo 8 software product allows you to import, sort and analyze audio files, videos, digital photos, Word, PDF, rich text and plain text documents. WOLFRAM|ALPHA Wolfram|Alpha's long-term goal is to make all systematic knowledge immediately computable and accessible to everyone. We aim to collect and curate all objective data; implement every known model, method, and algorithm; and make it possible to compute whatever can be computed about anything. Today's Wolfram|Alpha is the first step in an ambitious, long-term project. Enter your question or calculation and Wolfram|Alpha uses its built-in algorithms and a growing collection of data to compute the answer. COURSE SUPPORT DEVELOPMENT CENTER FOR DIGITAL STORYTELLING An international not-for-profit community arts organization rooted in the craft of personal storytelling. We assist youth and adults around the world in using media tools to share, record, and value stories from their lives, in ways that promote artistic expression, health and well being, and justice. MOODLE Moodle is a Course Management System (CMS), also known as a Learning Management System (LMS) or a Virtual Learning Environment (VLE). It is a Free web application that educators can use to create effective online learning sites. Moodle.org is our community site where Moodle is made and discussed. Please explore and join in! PACHYDERM 2.0 Multimedia authoring for peanuts. Pachyderm is an easy-to-use multimedia authoring tool. Designed for people with little multimedia experience, Pachyderm is accessed through a web browser and is as easy to use as filling out a web form. Authors upload their own media (images, audio clips, and short video segments) and place them into pre-designed templates, which can play video and audio, link to other templates, zoom in on images, and more. Once the templates have been completed and linked together, the presentation is published and can then be downloaded and placed on the authora€™s website or on a CD or DVD ROM. Authors may also leave their presentations on the Pachyderm server and link directly to them there. The result is an attractive, interactive Flash-based multimedia presentation. PREZI Prezi is a living presentation tool... visualization and storytelling without slides. SAKAI The Sakai Collaboration and Learning Environment is developed by a community that strives to enable exceptional teaching, learning and research. Sakai collaborators - ranging from educators to engineers - share in their successes and challenges, honing the community's collective expertise to drive rapid development of this enterprise-ready platform. While Sakai is typically used for teaching and learning (similar to products like Blackboard and Moodle) we call it a Collaboration and Learning Environment (CLE) because it embraces uses beyond the classroom. Sakai is distributed as free and open source software under the Educational Community License. VISUAL UNDERSTANDING ENVIRONMENT The Visual Understanding Environment (VUE) is an Open Source project based at Tufts University. The VUE project is focused on creating flexible tools for managing and integrating digital resources in support of teaching, learning and research. VUE provides a flexible visual environment for structuring, presenting, and sharing digital information. WILLAMETTE INSTRUCTIONAL SUPPORT ENVIRONMENT WISE, the Willamette Instructional Support Environment, is a learning and collaboration system that provides course sites for official university courses and project sites for committee work, student organizations, collaborative research projects and other university-related activities. MULTIMEDIA THEORA Theora is a free and open video compression format from the Xiph.org Foundation. Like all our multimedia technology it can be used to distribute film and video online and on disc without the licensing and royalty fees or vendor lock-in associated with other formats. Theora scales from postage stamp to HD resolution, and is considered particularly competitive at low bitrates. It is in the same class as MPEG-4/DiVX, and like the Vorbis audio codec it has lots of room for improvement as encoder technology develops. Theora is in full public release as of November 3, 2008. UNESCO UNESCO : For Young Creators. A selection of free editing software for use in creative projects. Tools for editing audio, images and web pages.
4354 次阅读|3 个评论
awk-use skills-1
dwd0826 2013-4-28 21:53
AWK的功能是什么?与sed和grep很相似,awk是一种样式扫描与处理工具。但其功能却大大强于sed和grep。awk提供了极其强大的功能:它几乎可以完成grep和sed所能完成的全部工作,同时,它还可以可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上,awk的确拥有自己的语言:awk程序设计语言,awk的三位创建者已将它正式定义为:样式扫描和处理语言。 awk是一个简单的工具,当然这是相对于其强大的功能来说的。的确,UNIX有许多优秀的工具,例如UNIX天然的开发工具C语言及其延续C++就非常的优秀。但相对于它们来说,awk完成同样的功能要方便和简捷得多。这首先是因为awk提供了适应多种需要的解决方案:从解决简单问题的awk命令行到复杂而精巧的awk程序设计语言,这样做的好处是,你可以不必用复杂的方法去解决本来很简单的问题。例如,你可以用一个命令行解决简单的问题,而C不行,即使一个再简单的程序,C语言也必须经过编写、编译的全过程。其次,awk本身是解释执行的,这就使得awk程序不必经过编译的过程,同时,这也使得它与shell script程序能够很好的契合。最后,awk本身较C语言简单,虽然awk吸收了C语言很多优秀的成分,熟悉C语言会对学习awk有很大的帮助,但awk本身不须要会使用C语言――一种功能强大但需要大量时间学习才能掌握其技巧的开发工具。 使用awk的第三个理由是awk是一个容易获得的工具。与C和C++语言不同,awk只有一个文件(/bin/awk),而且几乎每个版本的UNIX都提供各自版本的awk,你完全不必费心去想如何获得awk。但C语言却不是这样,虽然C语言是UNIX天然的开发工具,但这个开发工具却是单独发行的,换言之,你必须为你的UNIX版本的C语言开发工具单独付费(当然使用D版者除外),获得并安装它,然后你才可以使用它。 基于以上理由,再加上awk强大的功能,我们有理由说,如果你要处理与文本样式扫描相关的工作,awk应该是你的第一选择。在这里有一个可遵循的一般原则:如果你用普通的shell工具或shell script有困难的话,试试awk,如果awk仍不能解决问题,则便用C语言,如果C语言仍然失败,则移至C++。 awk的调用方式 前面曾经说过,awk提供了适应多种需要的不同解决方案,它们是: 一、awk命令行,你可以象使用普通UNIX命令一样使用awk,在命令行中你也可以使用awk程序设计语言,虽然awk支持多行的录入,但是录入长长的命令行并保证其正确无误却是一件令人头疼的事,因此,这种方法一般只用于解决简单的问题。当然,你也可以在shell script程序中引用awk命令行甚至awk程序脚本。 二、使用-f选项调用awk程序。awk允许将一段awk程序写入一个文本文件,然后在awk命令行中用-f选项调用并执行这段程序。具体的方法我们将在后面的awk语法中讲到。 三、利用命令解释器调用awk程序:利用UNIX支持的命令解释器功能,我们可以将一段awk程序写入文本文件,然后在它的第一行加上: #!/bin/awk -f 并赋予这个文本文件以执行的权限。这样做之后,你就可以在命令行中用类似于下面这样的方式调用并执行这段awk程序了。 $awk脚本文本名 待处理文件 awk的语法: 与其它UNIX命令一样,awk拥有自己的语法: awk 参数说明: -F re:允许awk更改其字段分隔符。 parameter: 该参数帮助为不同的变量赋值。 'prog': awk的程序语句段。这个语句段必须用单拓号:'和'括起,以防被shell解释。这个程序语句段的标准形式为: 'pattern {action}' 其中pattern参数可以是egrep正则表达式中的任何一个,它可以使用语法/re/再加上一些样式匹配技巧构成。与sed类似,你也可以使用,分开两样式以选择某个范围。关于匹配的细节,你可以参考附录,如果仍不懂的话,找本UNIX书学学grep和sed(本人是在学习ed时掌握匹配技术的)。action参数总是被大括号包围,它由一系统awk语句组成,各语句之间用;分隔。awk解释它们,并在pattern给定的样式匹配的记录上执行其操作。与shell类似,你也可以使用“#”作为注释符,它使“#”到行尾的内容成为注释,在解释执行时,它们将被忽略。你可以省略pattern和action之一,但不能两者同时省略,当省略pattern时没有样式匹配,表示对所有行(记录)均执行操作,省略action时执行缺省的操作――在标准输出上显示。 -f progfile:允许awk调用并执行progfile指定有程序文件。progfile是一个文本文件,他必须符合awk的语法。 in_file:awk的输入文件,awk允许对多个输入文件进行处理。值得注意的是awk不修改输入文件。如果未指定输入文件,awk将接受标准输入,并将结果显示在标准输出上。awk支持输入输出重定向。 awk的记录、字段与内置变量: 前面说过,awk处理的工作与数据库的处理方式有相同之处,其相同处之一就是awk支持对记录和字段的处理,其中对字段的处理是grep和sed不能实现的,这也是awk优于二者的原因之一。在awk中,缺省的情况下总是将文本文件中的一行视为一个记录,而将一行中的某一部分作为记录中的一个字段。为了操作这些不同的字段,awk借用shell的方法,用$1,$2,$3...这样的方式来顺序地表示行(记录)中的不同字段。特殊地,awk用$0表示整个行(记录)。不同的字段之间是用称作分隔符的字符分隔开的。系统默认的分隔符是空格。awk允许在命令行中用-F re的形式来改变这个分隔符。事实上,awk用一个内置的变量FS来记忆这个分隔符。awk中有好几个这样的内置变量,例如,记录分隔符变量RS、当前工作的记录数NR等等,本文后面的附表列出了全部的内置变量。这些内置的变量可以在awk程序中引用或修改,例如,你可以利用NR变量在模式匹配中指定工作范围,也可以通过修改记录分隔符RS让一个特殊字符而不是换行符作为记录的分隔符。 例:显示文本文件myfile中第七行到第十五行中以字符%分隔的第一字段,第三字段和第七字段: awk -F % 'NR==7,NR==15 {printf $1 $3 $7}' awk的内置函数 awk之所以成为一种优秀的程序设计语言的原因之一是它吸收了某些优秀的程序设计语言(例如C)语言的许多优点。这些优点之一就是内置函数的使用,awk定义并支持了一系列的内置函数,由于这些函数的使用,使得awk提供的功能更为完善和强大,例如,awk使用了一系列的字符串处理内置函数(这些函数看起来与C语言的字符串处理函数相似,其使用方式与C语言中的函数也相差无几),正是由于这些内置函数的使用,使awk处理字符串的功能更加强大。本文后面的附录中列有一般的awk所提供的内置函数,这些内置函数也许与你的awk版本有些出入,因此,在使用之前,最好参考一下你的系统中的联机帮助。 作为内置函数的一个例子,我们将在这里介绍awk的printf函数,这个函数使得awk与c语言的输出相一致。实际上,awk中有许多引用形式都是从C语言借用过来的。如果你熟悉C语言,你也许会记得其中的printf函数,它提供的强大格式输出功能曾经带我们许多的方便。幸运的是,我们在awk中又和它重逢了。awk中printf几乎与C语言中一模一样,如果你熟悉C语言的话,你完全可以照C语言的模式使用awk中的printf。因此在这里,我们只给出一个例子,如果你不熟悉的话,请随便找一本C语言的入门书翻翻。 例:显示文件myfile中的行号和第3字段: $awk '{printf%03d%s,NR,$1}' myfile 在命令行使用awk 按照顺序,我们应当讲解awk程序设计的内容了,但在讲解之前,我们将用一些例子来对前面的知识进行回顾,这些例子都是在命令行中使用的,由此我们可以知道在命令行中使用awk是多么的方便。这样做的原因一方面是为下面的内容作铺垫,另一方面是介绍一些解决简单问题的方法,我们完全没有必要用复杂的方法来解决简单的问题----既然awk提供了较为简单的方法的话。 例:显示文本文件mydoc匹配(含有)字符串sun的所有行。 $awk '/sun/{print}' mydoc 由于显示整个记录(全行)是awk的缺省动作,因此可以省略action项。 $awk '/sun/' mydoc 例:下面是一个较为复杂的匹配的示例: $awk '/ un/,/ oon/ {print}' myfile 它将显示第一个匹配Sun或sun的行与第一个匹配Moon或moon的行之间的行,并显示到标准输出上。 例:下面的示例显示了内置变量和内置函数length()的使用: $awk 'length($0)80 {print NR}' myfile 该命令行将显示文本myfile中所有超过80个字符的行号,在这里,用$0表示整个记录(行),同时,内置变量NR不使用标志符'$'。 例:作为一个较为实际的例子,我们假设要对UNIX中的用户进行安全性检查,方法是考察/etc下的passwd文件,检查其中的passwd字段(第二字段)是否为*,如不为*,则表示该用户没有设置密码,显示出这些用户名(第一字段)。我们可以用如下语句实现: #awk -F: '$2== {printf(%s no password!,$1' /etc/passwd 在这个示例中,passwd文件的字段分隔符是“:”,因此,必须用-F:来更改默认的字段分隔符,这个示例中也涉及到了内置函数printf的使用。 awk的变量 如同其它程序设计语言一样,awk允许在程序语言中设置变量,事实上,提供变量的功能是程序设计语言的其本要求,不提供变量的程序设计语言本人还从未见过。 awk提供两种变量,一种是awk内置的变量,这前面我们已经讲过,需要着重指出的是,与后面提到的其它变量不同的是,在awk程序中引用内置变量不需要使用标志符$(回忆一下前面讲过的NR的使用)。awk提供的另一种变量是自定义变量。awk允许用户在awk程序语句中定义并调用自已的变量。当然这种变量不能与内置变量及其它awk保留字相同,在awk中引用自定义变量必须在它前面加上标志符$。与C语言不同的是,awk中不需要对变量进行初始化,awk根据其在awk中第一次出现的形式和上下文确定其具体的数据类型。当变量类型不确定时,awk默认其为字符串类型。这里有一个技巧:如果你要让你的awk程序知道你所使用的变量的明确类型,你应当在在程序中给它赋初值。在后面的实例中,我们将用到这一技巧。 运算与判断: 作为一种程序设计语言所应具有的特点之一,awk支持多种运算,这些运算与C语言提供的几本相同:如+、-、*、/、%等等,同时,awk也支持C语言中类似++、--、+=、-=、=+、=-之类的功能,这给熟悉C语言的使用者编写awk程序带来了极大的方便。作为对运算功能的一种扩展,awk还提供了一系列内置的运算函数(如log、sqr、cos、sin等等)和一些用于对字符串进行操作(运算)的函数(如length、substr等等)。这些函数的引用大大的提高了awk的运算功能。 作为对条件转移指令的一部分,关系判断是每种程序设计语言都具备的功能,awk也不例外。awk中允许进行多种测试,如常用的==(等于)、!=(不等于)、(大于)、(小于)、=(大于等于)、=(小于等于)等等,同时,作为样式匹配,还提供了~(匹配于)和!~(不匹配于)判断。 作为对测试的一种扩充,awk也支持用逻辑运算符:!(非)、(与)、||(或)和括号()进行多重判断,这大大增强了awk的功能。本文的附录中列出了awk所允许的运算、判断以及操作符的优先级。 awk的流程控制 流程控制语句是任何程序设计语言都不能缺少的部分。任何好的语言都有一些执行流程控制的语句。awk提供的完备的流程控制语句类似于C语言,这给我们编程带来了极大的方便。 1、BEGIN和END: 在awk中两个特别的表达式,BEGIN和END,这两者都可用于pattern中(参考前面的awk语法),提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。任何在BEGIN之后列出的操作(在{}内)将在awk开始扫描输入之前执行,而END之后列出的操作将在扫描完全部的输入之后执行。因此,通常使用BEGIN来显示变量和预置(初始化)变量,使用END来输出最终结果。 例:累计销售文件xs中的销售金额(假设销售金额在记录的第三字段): $awk 'BEGIN { FS=:;print 统计销售金额;total=0} {print $3;total=total+$3;} END {printf 销售金额总计:%.2f,total}' sx (注:是shell提供的第二提示符,如要在shell程序awk语句和awk语言中换行,则需在行尾加反斜杠) 在这里,BEGIN预置了内部变量FS(字段分隔符)和自定义变量total,同时在扫描之前显示出输出行头。而END则在扫描完成后打印出总合计。 2、流程控制语句 awk提供了完备的流程控制语句,其用法与C语言类似。下面我们一一加以说明: 2.1、if...else语句: 格式: if(表达式) 语句1 else 语句2 格式中语句1可以是多个语句,如果你为了方便awk判断也方便你自已阅读,你最好将多个语句用{}括起来。awk分枝结构允许嵌套,其格式为: if(表达式1) {if(表达式2) 语句1 else 语句2 } 语句3 else {if(表达式3) 语句4 else 语句5 } 语句6 当然实际操作过程中你可能不会用到如此复杂的分枝结构,这里只是为了给出其样式罢了。 2.2、while语句 格式为: while(表达式) 语句 2.3、do-while语句 格式为: do { 语句 }while(条件判断语句) 2.4、for语句 格式为: for(初始表达式;终止条件;步长表达式) {语句} 在awk的 while、do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出。break中断当前正在执行的循环并跳到循环外执行下一条语句。continue从当前位置跳到循环开始处执行。对于exit的执行有两种情况:当exit语句不在END中时,任何操作中的exit命令表现得如同到了文件尾,所有模式或操作执行将停止,END模式中的操作被执行。而出现在END中的exit将导致程序终止。 例:为了 awk中的自定义函数 定义和调用用户自己的函数是几乎每个高级语言都具有的功能,awk也不例外,但原始的awk并不提供函数功能,只有在nawk或较新的awk版本中才可以增加函数。 函数的使用包含两部分:函数的定义与函数调用。其中函数定义又包括要执行的代码(函数本身)和从主程序代码传递到该函数的临时调用。 awk函数的定义方法如下: function 函数名(参数表){ 函数体 } 在gawk中允许将function省略为func,但其它版本的awk不允许。函数名必须是一个合法的标志符,参数表中可以不提供参数(但在调用函数时函数名后的一对括号仍然是不可缺少的),也可以提供一个或多个参数。与C语言相似,awk的参数也是通过值来传递的。 在awk中调用函数比较简单,其方法与C语言相似,但awk比C语言更为灵活,它不执行参数有效性检查。换句话说,在你调用函数时,可以列出比函数预计(函数定义中规定)的多或少的参数,多余的参数会被awk所忽略,而不足的参数,awk将它们置为缺省值0或空字符串,具体置为何值,将取决于参数的使用方式。 awk函数有两种返回方式:隐式返回和显式返回。当awk执行到函数的结尾时,它自动地返回到调用程序,这是函数是隐式返回的。如果需要在结束之前退出函数,可以明确地使用返回语句提前退出。方法是在函数中使用形如:return 返回值 格式的语句。 例:下面的例子演示了函数的使用。在这个示例中,定义了一个名为print_header的函数,该函数调用了两个参数FileName和PageNum,FileName参数传给函数当前使用的文件名,PageNum参数是当前页的页号。这个函数的功能是打印(显示)出当前文件的文件名,和当前页的页号。完成这个功能后,这个函数将返回下一页的页号。 nawk 'BEGIN{pageno=1;file=FILENAME pageno=print_header(file,pageno);#调用函数print_header printf(当前页页号是:%d,pageno); } #定义函数print_header function print_header(FileName,PageNum){ printf(%s %d,FileName,PageNum); PageNum++;return PageNUm; } }' myfile 执行这个程序将显示如下内容: myfile 1 当前页页号是:2 awk高级输入输出 1.读取下一条记录: awk的next语句导致awk读取下一个记录并完成模式匹配,然后立即执行相应的操作。通常它用匹配的模式执行操作中的代码。next导致这个记录的任何额外匹配模式被忽略。 2.简单地读取一条记录 awk的 getline语句用于简单地读取一条记录。如果用户有一个数据记录类似两个物理记录,那么getline将尤其有用。它完成一般字段的分离(设置字段变量$0 FNR NF NR)。如果成功则返回1,失败则返回0(到达文件尾)。如果需简单地读取一个文件,则可以编写以下代码: 例:示例getline的使用 {while(getline==1) { #process the inputted fields } } 也可以使getline保存输入数据在一个字段中,而不是通过使用getline variable的形式处理一般字段。当使用这种方式时,NF被置成0,FNR和NR被增值。 用户也可以使用getlinefilename方式从一个给定的文件中输入数据,而不是从命令行所列内容输入数据。此时,getline将完成一般字段分离(设置字段变量$0和NF)。如果文件不存在,返回-1,成功,返回1,返回0表示失败。用户可以从给定文件中读取数据到一个变量中,也可以用stdin(标准输入设备)或一个包含这个文件名的变量代替filename。值得注意的是当使用这种方式时不修改FNR和NR。 另一种使用getline语句的方法是从UNIX命令接受输入,例如下面的例子: 例:示例从UNIX命令接受输入 {while(who -u|getline) { #process each line from the who command } } 当然,也可以使用如下形式: command | getline variable 3.关闭文件: awk中允许在程序中关闭一个输入或输出文件,方法是使用awk的close语句。 close(filename) filename可以是getline打开的文件(也可以是stdin,包含文件名的变量或者getline使用的确切命令)。或一个输出文件(可以是stdout,包含文件名的变量或使用管道的确切命令)。 4.输出到一个文件: awk中允许用如下方式将结果输出到一个文件: printf(hello word!)datafile 或 printf(hello word!)datafile 5.输出到一个命令 awk中允许用如下方式将结果输出到一个命令: printf(hello word!)|sort-t',' awk与shell script混合编程 因为awk可以作为一个shell命令使用,因此awk能与shell批处理程序很好的融合在一起,这给实现awk与shell程序的混合编程提供了可能。实现混合编程的关键是awk与shell script之间的对话,换言之,就是awk与shell script之间的信息交流:awk从shell script中获取所需的信息(通常是变量的值)、在awk中执行shell命令行、shell script将命令执行的结果送给awk处理以及shell script读取awk的执行结果等等。 1.awk读取Shell script程序变量 在awk中我们可以通过“'$变量名'”的方式读取sell scrpit程序中的变量。 例:在下面的示例中,我们将读取sell scrpit程序中的变量Name,该变量存放的是文本myfile的撰写者,awk将打印出这个人名。 $cat writename : # @(#) # . . . Name=张三 nawk 'BEGIN {name='Name'; printf(%s撰写者%s,FILENAME,name);} {...}END{...}' myfile . . . 2.将shell命令的执行结果送给awk处理 作为信息传送的一种方法,我们可以将一条shell命令的结果通过管道线(|)传递给awk处理: 例:示例awk处理shell命令的执行结果 $who -u | awk '{printf(%s正在执行%s,$2,$1)}' 该命令将打印出注册终端正在执行的程序名。 3.shell script程序读awk的执行结果 为了实现shell script程序读取awk执行的结果,我们可以采取一些特殊的方法,例如我们可以用变量名=`awk语句`的形式将awk执行的结果存放入一个shell script变量。当然也可以用管道线的方法将awk执行结果传递给shell script程序处理。 例:作为传送消息的机制之一,UNIX提供了一个向其所有用户传送消息的命令wall(意思是write to all写给所有用户),该命令允许向所有工作中的用户(终端)发送消息。为此,我们可以通过一段shell批处理程序wall.shell来模拟这一程序(事实上比较老的版本中wall就是一段shell批处理程序: $cat wall.shell : # @(#) wall.shell:发送消息给每个已注册终端 # cat /tmp/$$ #用户录入消息文本 who -u | awk '{print $2}' | while read tty do cat /tmp/$$$tty done 在这个程序里,awk接受who -u命令的执行结果,该命令打印出所有已注册终端的信息,其中第二个字段是已注册终端的设备名,因此用awk命令析出该设备名,然后用while read tty语句循环读出这些文件名到变量(shell script变量)tty中,作为信息传送的终结地址。 4.在awk中执行shell命令行----嵌入函数system() system()是一个不适合字符或数字类型的嵌入函数,该函数的功能是处理作为参数传递给它的字符串。system对这个参数的处理就是将其作为命令处理,也就是说将其当作命令行一样加以执行。这使得用户在自己的awk程序需要时可以灵活地执行命令或脚本。 例:下面的程序将使用system嵌入函数打印用户编制好的报表文件,这个文件存放在名为myreport.txt的文件中。为简约起见,我们只列出了其END部分: . . . END {close(myreport.txt);system(lp myreport.txt);} 在这个示例中,我们首先使用close语句关闭了文件myreport.txt文件,然后使用system嵌入函数将myreport.txt送入打印机打印。 写到这里,我不得不跟朋友们说再见了,实在地说,这些内容仍然是awk的初步知识,电脑永远是前进的科学,awk也不例外,本篇所能做的只是在你前行的漫漫长途中铺平一段小小开端,剩下的路还得靠你自己去走。老实说,如果本文真能给你前行的路上带来些许的方便,那本人就知足了! 如对本篇有任何疑问,请E-mail To:Chizlong@yeah.net或到主页http://chizling.yeah.net中留言。 附录: 1.awk的常规表达式元字符 换码序列 ^ 在字符串的开头开始匹配 $ 在字符串的结尾开始匹配 . 与任何单个字符串匹配 与 与A-C及a-c范围内的字符匹配(按字母表顺序) 与除 关联。与A、B、C中的任一字符匹配,且其后要跟D、E、F中的任一个字符。 * 与A、B或C中任一个出现0次或多次的字符相匹配 + 与A、B或C中任何一个出现1次或多次的字符相匹配 ? 与一个空串或A、B或C在任何一个字符相匹配 (Blue|Black)berry 合并常规表达式,与Blueberry或Blackberry相匹配 2.awk算术运算符 运算符 用途 ------------------ x^y x的y次幂 x**y 同上 x%y 计算x/y的余数(求模) x+y x加y x-y x减y x*y x乘y x/y x除y -y 负y(y的开关符号);也称一目减 ++y y加1后使用y(前置加) y++ 使用y值后加1(后缀加) --y y减1后使用y(前置减) y-- 使用后y减1(后缀减) x=y 将y的值赋给x x+=y 将x+y的值赋给x x-=y 将x-y的值赋给x x*=y 将x*y的值赋给x x/=y 将x/y的值赋给x x%=y 将x%y的值赋给x x^=y 将x^y的值赋给x x**=y 将x**y的值赋给x 3.awk允许的测试: 操作符 含义 x==y x等于y x!=y x不等于y xy x大于y x=y x大于或等于y xy x小于y x=y x小于或等于y? x~re x匹配正则表达式re? x!~re x不匹配正则表达式re? 4.awk的操作符(按优先级升序排列) = 、+=、 -=、 *= 、/= 、 %= || = = == != ~ !~ xy (字符串连结,'x'y'变成xy) + - * / % ++ -- 5.awk内置变量(预定义变量) 说明:表中v项表示第一个支持变量的工具(下同):A=awk,N=nawk,P=POSIX awk,G=gawk V 变量 含义 缺省值 -------------------------------------------------------- N ARGC 命令行参数个数 G ARGIND 当前被处理文件的ARGV标志符 N ARGV 命令行参数数组 G CONVFMT 数字转换格式 %.6g P ENVIRON UNIX环境变量 N ERRNO UNIX系统错误消息 G FIELDWIDTHS 输入字段宽度的空白分隔字符串 A FILENAME 当前输入文件的名字 P FNR 当前记录数 A FS 输入字段分隔符 空格 G IGNORECASE 控制大小写敏感0(大小写敏感) A NF 当前记录中的字段个数 A NR 已经读出的记录数 A OFMT 数字的输出格式 %.6g A OFS 输出字段分隔符 空格 A ORS 输出的记录分隔符 新行 A RS 输入的记录他隔符 新行 N RSTART 被匹配函数匹配的字符串首 N RLENGTH 被匹配函数匹配的字符串长度 N SUBSEP 下标分隔符 34 6.awk的内置函数 V 函数 用途或返回值 ------------------------------------------------ N gsub(reg,string,target) 每次常规表达式reg匹配时替换target中的string N index(search,string) 返回string中search串的位置 A length(string) 求串string中的字符个数 N match(string,reg) 返回常规表达式reg匹配的string中的位置 N printf(format,variable) 格式化输出,按format提供的格式输出变量variable。 N split(string,store,delim) 根据分界符delim,分解string为store的数组元素 N sprintf(format,variable) 返回一个包含基于format的格式化数据,variables是要放到串中的数据 G strftime(format,timestamp) 返回一个基于format的日期或者时间串,timestmp是systime()函数返回的时间 N sub(reg,string,target) 第一次当常规表达式reg匹配,替换target串中的字符串 A substr(string,position,len) 返回一个以position开始len个字符的子串 P totower(string) 返回string中对应的小写字符 P toupper(string) 返回string中对应的大写字符 A atan(x,y) x的余切(弧度) N cos(x) x的余弦(弧度) A exp(x) e的x幂 A int(x) x的整数部分 A log(x) x的自然对数值 N rand() 0-1之间的随机数 N sin(x) x的正弦(弧度) A sqrt(x) x的平方根 A srand(x) 初始化随机数发生器。如果忽略x,则使用system() G system() 返回自1970年1月1日以来经过的时间(按秒计算)
2105 次阅读|0 个评论
[转载]一网打尽13款开源Java大数据工具,从理论到实践的剖析
evonchang 2013-4-28 20:29
大数据几乎已成为所有商业领域共有的最新趋势,然而大数据究竟是什么?是噱头、泡沫,又或是真如传言一样的重要。 事实上,大数据是个非常简单的术语——就像它所说的一样,是非常大的数据集。那么究竟有大多?真实的答案就是“如你所想的那么大”! 那么为什么会产生如此之大的数据集?因为当今的数据已经无所不在并且存在着巨大的回报:收集通信数据的RFID传感器,收集天气信息的传感器,移动设备给社交网站发送的GPRS数据包,图片视频,在线购物产生的交易记录,应有尽有!大数据是一个巨大的数据集,包含了任何数据源产生的信息,当然前提是这些信息是我们感兴趣的。 然而大数据的含义绝不只与体积相关,因为大数据还可以用于寻找新的真知、形成新的数据和内容;我们可以使用从大数据中提取的真知、数据和内容去使商业更加灵活,以及回答那些之前被认为远超当前范畴的问题。这也是大数据被从以下4个方面定义的原因: Volume(体积)、Variety(多样)、Velocity(效率)以及Veracity(Value,价值) ,也就是大数据的4V。下面将简述每个特性以及所面临的挑战: 1.Volume Volume说的是一个业务必须捕获、存储及访问的数据量,仅仅在过去两年内就生产了世界上所有数据的90%。现今的机构已完全被数据的体积所淹没,轻易的就会产生TB甚至是PB级不同类型的数据,并且其中有些数据需要被组织、防护(窃取)以及分析。 2.Variety 世界上产生的数据有80%都是半结构化的,传感器、智能设备和社交媒体都是通过Web页面、网络日志文件、社交媒体论坛、音频、视频、点击流、电子邮件、文档、传感系统等生成这些数据。传统的分析方案往往只适合结构化数据,举个例子:存储在关系型数据库中的数据就有完整的结构模型。数据类型的多样化同样意味着为支持当下的决策制定及真知处理,我们需要在数据储存和分析上面进行根本的改变。Variety代表了在传统关系数据库中无法轻易捕获和管理的数据类型,使用大数据技术却可以轻松的储存和分析。 3.Velocity Velocity则需要对数据进行近实时的分析,亦称“sometimes 2 minutes is too late!”。获取竞争优势意味着你需要在几分钟,甚至是几秒内识别一个新的趋势或机遇,同样还需要尽可能的快于你竞争对手。另外一个例子是时间敏感性数据的处理,比如说捕捉罪犯,在这里数据必须被收集后就完成被分析,这样才能获取最大价值。对时间敏感的数据保质期往往都很短,这就需求组织或机构使用近实时的方式对其分析。 4.Veracity 通过分析数据我们得出如何的抓住机遇及收获价值,数据的重要性就在于对决策的支持;当你着眼于一个可能会对你企业产生重要影响的决策,你希望获得尽可能多的信息与用例相关。单单数据的体积并不能决定其是否对决策产生帮助,数据的真实性和质量才是获得真知和思路最重要的因素,因此这才是制定成功决策最坚实的基础。 然而当下现有的商业智能和数据仓库技术并不完全支持4V理论,大数据解决方案的开发正是针对这些挑战。 下面将介绍大数据领域支持Java的主流开源工具 : 1.HDFS HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。 2.MapReduce Hadoop MapReduce是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接 大型集群中 上万个节点(商用硬件)。 3.HBase Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。 4.Cassandra Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。 5.Hive Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个 逻辑 变得低效和繁琐 时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。 6.Pig Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。 7.Chukwa Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。 8.Ambari Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。 9.ZooKeeper Apache ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、命名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 10.Sqoop Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。 11.Oozie Apache Oozie是一个可扩展、可靠及可扩充的工作流调度系统,用以管理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs(DAGs)。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发,周期一般决定于时间(频率)和数据可用性。Oozie与余下的Hadoop堆栈结合使用,开箱即用的支持多种类型Hadoop作业(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp)以及其它系统作业(比如Java程序和Shell脚本)。 12.Mahout Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例: 推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。 聚集:收集文件并进行相关文件分组。 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。 频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。 13.HCatalog Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括: 提供一个共享模式和数据类型机制。 提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。 为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。 原文链接: What is Big Data – Theory to Implementation (编译/仲浩 审校/包研)
3700 次阅读|0 个评论
[转载]在Word2007中把公式编辑器加入快速访问工具条
热度 1 ronaldpan 2013-4-25 22:21
Creating a Quick Access Toolbar button in Word 2007 to open Equation Editor 公式编辑器的使用 Build Equations with Microsoft Equation Editor
2025 次阅读|1 个评论
工具
metanb 2013-4-20 00:16
科研和教学不应该沦为晋升的工具。
个人分类: 魔鬼辞典|1470 次阅读|0 个评论
[转载]ZZ微软新工具让你的 Excel “活起来”
热度 1 wmornlight 2013-4-13 10:05
Excel 和 3D 能扯上什么关系呢? 据 TNW 消息 ,微软今天发布了一款叫做 GeoFlow 的插件,它是结合 Excel 和 Bing 地图所开发出来的 3D 数据可视化工具。这个工具可以以加载项的形式运行,目前支持 Excel 2013 或 Office 365 ProPlus。 GeoFlow 的概念最早于 2011 年 6 月被提出,微软也曾在 2012 年 11 月的 SharePoint 大会上推出过 GeoFlow。GeoFlow 可以帮助用户创建和浏览时间敏感型数据并与之交互,而这些数据也可以应用到数字地图上。同时,用户也可以使用 GeoFlow 将数据转换为 3D 图像的形式与他人分享。 按照微软的说法,我们可以把 GeoFlow 理解为 WorldWide Telescope 项目的更新版。它可以帮助信息工作者通过详细的 3D 数据图来搜寻和分享全新的数据视角。 据介绍,GeoFlow 目前支持的数据行规模最高可达 100 万行,并可以直接通过 Bing 地图引擎生成可视化 3D 地图。数据可以通过三维垂直或二维贴片的方式呈现,并且同时支持 Execl Data Model 和 PowerPivot 两种模型,还可实现对 Bing Maps 的区域可视化。目前,GeoFlow 支持包括立柱型、二维斑块以及“气泡图”在内的多种可视化类型。 来自微软研究院的 Curtis Wong 指出,他们是在构建一个巨大的“虚拟望远镜”,若想达到这个目的则先要构建一个“可视化宇宙”的引擎。他还表示 GeoFlow 将为全球公司带来动态、交互式的数据可视化功能。 微软在 Excel 的官方博客中解释了 GeoFlow 的工作方式。以德州达拉斯居民家庭能源使用数据为例,GeoFlow 先将这些用户的位置在地图上标记出来,而 Excel 则会将这些家庭的房屋面积和市价用三维图像显示出来。 随着时间的变化,这个“地图”也会实时改变。用户若想将数据分享给他人,只需在 GeoFlow 中截取“画面”,然后创建一个“场景导游”最后导出就可以了。 目前 GeoFlow 只支持 Office Professional Plus 2013 和 Office 365 ProPlus。
个人分类: Tools|1878 次阅读|1 个评论
[转载]22款免费的数据分析工具推荐
evonchang 2013-4-12 16:20
2011年4月20日的电脑世界沙龙上,介绍了22款免费的数据分析相关工具,他们有关于数据清洗的、有关于数据展现的还有关于数据分析的;他们或是来自IBM,谷歌。雅虎这样的互联网企业,或是出自麻省理工,斯坦福这样的高校,有在线的也有离线的。如果你正为一些地理分析图片而赶到焦虑,或是为做不出漂亮的社交网络关系图而烦恼,或许下面这些工具可以帮到你。 数据清理类工具 DataWrangler Google Refine 统计分析类工具 The R Project for Statistical Computing TimeFlow 数据展现类工具 Google Fusion Tables Impure Tableau Public Many Eyes VIDI Zoho Reports 代码帮助类工具 Choosel Exhibit 地图相关数据展示工具 Quantum GIS (QGIS) OpenHeatMap OpenLayers 文本类相关处理工具 IBM Word-Cloud Generator 社交网络类工具 Gephi NodeXL
3048 次阅读|0 个评论
天文时序分析的好工具-Period04
deliangwang 2013-4-3 07:36
PERIOD04是专用于天文时间序列的统计分析的软件。该工具可以提取单个频率到多个频率,并提供一个灵活的接口进行多频拟合。 软件网址: http://www.univie.ac.at/tops/Period04/
个人分类: 编程笔记|4606 次阅读|0 个评论
[转载]OVF 工具
icttanghongwei 2013-3-30 08:21
使用OVFToolkit构建虚拟工具: http://www.ibm.com/developerworks/cn/linux/l-ovf-toolkit/
个人分类: 云计算|1367 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 19:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部