科学网—标签 - 数据可视化

相关帖子	版块	作者	回复/查看	最后发表

iggcas010 2018-5-31 22:27

不要说数据可视化的优点，以及为了展示给老板看。本文参考维基百科： https://en.m.wikipedia.org/wiki/Anscombe%27s_quartet 下图是著名的安斯库母四重奏，它们具有相同的统计值，但不同的x，y，然而结果用简单的线性回归建模却得到同样的结果，事实上，拟合的结果的准确性是值得商榷的，有的效果可以，有的却是错误的。 Property Value Accuracy Mean of x 9 exact Sample variance of x 样本方差 11 exact Mean of y 7.50 to 2 decimal places Sample variance of y 4.125 plus/minus 0.003 Correlation between x and y 0.816 to 3 decimal places Linear regression line y =3.00+0.500 x to 2 and 3 decimal places, respectively Coefficient of determination of the linear regression 线性回归的确定系数 0.67 to 2 decimal places 好好看看，第二个图和第四个图是不是直接错误，第三个图勉强算对，但不准确，有个离群值明显可以舍去。第一个图是正确的。由此可见，在数据探索中，有必要进行简单的验证，查看数据是否可以用已有的模型，模型重要，但数据质量更重要。

2572 次阅读|0 个评论

[转载]39个大数据可视化工具数据研究必备

rbwxy197301 2018-1-6 10:01

39个大数据可视化工具数据研究必备数据可视化无处不在，而且比以前任何时候都重要。无论是在行政演示中为数据点创建一个可视化进程，还是用可视化概念来细分客户，数据可视化都显得尤为重要。以前的工具的基本不能处理大数据。本文将推荐39个可用于处理大数据的可视化工具（排名不分先后）。其中许多工具是开源的，能够共同使用或嵌入已经设计好的应用程序中使用，例如Java，JSON，SVG，Python，HTML5，甚至有些工具不需要任何编程语言基础。其他的则是商业智能平台，能够进行复杂的数据分析并生产报告，并配有多种方式实现数据可视化。无论你是需要对数据进行分析并且决定用最好的方式向你的客户或同事进行展示，还是你心里有一个视觉化布局但需要将此概念应用到生活中，该表单中总会有一款工具能够满足你的需求。 1.Polymaps 需要在地图上展示复杂的数据集？Polymaps是一个免费的Java库，也是SimpleGeo和Stamen的开发的一个联合项目。这种复杂的地图叠加工具可以加载多种规模的数据，提供多级别缩放功能，大到国家，小到街景。主要特点：使用可缩放矢量图形（SVG）展示国家、州、城市、社区和街景基本的CSS规则控制设计图片是球形墨卡托瓦格式费用：免费 2.NodeBox // @Nodebox 实验媒介研究小组（Experimental Media Research Group）开发的一组开源工具，NodeBox的兼容性是跨平台图片库或Mac的app都能创建Python编码的2D界面。主要特点：与标准设计应用程序集成跨平台，基于节点的图形用户界面（GUI） NodeBox1 – Python编码、2D界面的Mac应用程序导入多种类型的数据，包括Excel 动画效果运用最少的编程技能建立一个生产设计费用：免费 3. Flot JQuery的一个Java绘图库，Flot是一个基于浏览器的应用程序，并且能够兼容大多常见的浏览器，包括IE、Chrome、Firefox、Safari和Opera。Flot对于数据观点支持多种可视化选择，交互式图表、堆叠式图表、平移和缩放，以及通过各种插件实现各种特定功能。主要特点：支持线性、图片，用任何组合填充区域在同一个数据序列里运用组合展示元素绘图分类以及文本数据增加DOM操作标准的HTML 产生切换系列交互式视觉效果直接的画布准入绘制自定义形状费用：免费 4.Processing // @ProcessingOrg Processing创建之初为教计算机基础知识在视觉环境的一种手段，但现在由学生、设计师、研究者、艺术家和业余爱好者使用，用于创造学习模型和实际产品的原型。用户可以创建简单或复杂的图像，动画，和相互作用。主要特点： 2D、3D和PDF格式输出交互作用程序 Open GL一体化超过1000个库的附加功能创建交互、文本、动作和动画 5. Processingjs Processing的姐妹站点，Processing.js这个工具可以处理复杂的数据视觉化、图形、图表或是其他视觉效果，并是网页可用的形式，并不需要任何扩展程序或插件。这就意味着你可以运用标准Processing语言写代码并且插入到你的网站，而且Processing.js并不需要额外的编码需求来实现其功能。主要特点：允许Processing代码可以在任何HTML5浏览器运行动画和交互式可视化效果融入任何web 页没有额外的编码需要费用：免费 6. Tangle Tangle是一个Java库和工具，不仅仅是视觉化，还允许设计师和开发者创建reactive程序，对数据的关系可以提供深层理解。例如，一个网页端的转换计算器能够转换货币或测量。主要特点：允许读者来改变参数基于定义的变量、格式和分类运用Tangle类创建图表和其他可视化效果能够创建动态的展示同时使用多种变量建立控件和视图费用：免费 7. D3.js 一个强调网页标准的用来创建数据可视化Java库。使用HTML、SVG和CSS，可以让使用者以数据驱动的方式去操作DOM，能够满足现在浏览器的兼容性并且不受专用框架的限制。主要特点：绑定任意数据到DOM 创建交互式SVG条形图从数据集里产生HTML表格多种组合和插件来增强兼容性内置的可重复使用的组件以便于编码费用：免费 8. FF Chartwell // @FontFont FF Chartwell将简单数字串转换会可编辑的数据可视化，并进一步的自定义使用OpenTy功能。它是能够用于标准设计套件，例如Adobe CreativeSuite，简单化图表的设计。主要功能：使用简单的数据串来产生图表有利于创建一个大信息图元素没有编码功能节省时间与设计应用程序一体化多种可视化类型费用：所有功能-$119 单个功能-每个$25 （条形、垂直图、线形图、饼图、雷达图、环形图、玫瑰图） 9. Google Maps // @GoogleMaps 谷歌地图提供一些APIs给开发者，例如谷歌地球、谷歌地图图像和谷歌地方信息。这些工具能够使开发者为任何应用程序或网站建立交互式视觉地图程序。主要特点：将地图嵌入网页中提出有关机构、感兴趣的地方和其他位置的数据能够使网站访问者在你的网站限制范围内使用谷歌地球。 10. SAS VisualAnalytics // @SASsoftware SAS可视化分析工具为了更加全面的分析能够探索各种尺寸的数据集可视化。拥有直观的平台和自动化预测工具，SAS视觉分析允许甚至可以让无技术基础的用户来探索数据和潜在机会之间更加深层次的关系。主要特点：在前置或公共或私人云上部署拖放图表自动为数据选择最好的布局弹出提示区识别潜在的重要的相关性场景分析能够在变量变化基础上进行预测存储视图为报告、图片或SAS移动端用户易于使用数据来整合行为元素费用：完整功能免费演示版（不同环节之间不能储存报告）按要求报价 11. Raphael 一个Java库用来在网页上创建矢量图形，Raphael使用SVG和VML，因此每一个被创建的图表同时也是一个DOM对象，Raphael的目标是能够矢量图表作品能够跨浏览器兼容。主要特点：网页上包括Raphael.js功能创建多种多样的图形、表格和其他数据可视化多图表能力费用：免费 12. Inkscape // @Inkscape Inkscape提供的功能类似于Corel Draw和Illustrator软件，然而它的开源编辑器是矢量图形。Inkscape支持许多先进的SVG功能，因此能够轻易使用，并鼓励开发者在社区环境里合作。主要特点：类似标准软件处理复杂的图表任务内置的SVG格式创建网站原型导入和显示位图的功能文件储存为矢量图费用：免费 13. Leaflet // @LeadletJS 一个开源Java库，Leaflet是用来创建移动友好性、交互式地图的工具。由VladimirAgafonkin和一个团队贡献开发而成，Leaflet设计的目标是简洁性、表现性和易用性。主要特点：所有主要桌面和移动浏览器上能工作各种扩展功能的插件一体化的互动功能多重可用地图层 CSS3功能提供流行型的用户交互作用消除移动设备上敲打延迟费用：免费 14. Crossfilter Crossfilter使我们能够在浏览器里探索大量多元数据集，也是Java库，能够处理超过一百万记录的数据集。Crossfilter使用语义版本控制并且易于使用值、目标和其他元素和命令来自定义的创建数据可视化。实际上，它使Square Register的商家有权利操纵销售和购买数据。主要特点：使用语义版本控制探索大量多元数据快速增量过滤和减少提高实时直方图的表现力费用：免费 15. Open Layers 3 可以用OpenLayers在任何网页里插入一个动态地图。它执行Java API用于建立网页端地理学的应用程序，并且不需要服务端依赖关系能在大多数现在的网页浏览器工作。它是一个开源软件，结合了最新的HTML5和CSS功能，提高了3D功能。主要特点：在大多数现代网页浏览器里工作（平铺和矢量图册）不需要服务端依赖创建个性化嵌入的、动态的地图缩放功能、地理位置和其他函数功能开箱移动支持费用：免费 16. Kartograph Kartograph即使Python库也是Java库，迎合了想要创建友好型Illustrator SVG地图和交互式地图的开发者，并且能够在各主要浏览器上运行。主要特点：两个库：Python和Java Kartograph.js能在几分钟内创建交互式地图独立运作，不需要服务器 Kartograph使用简单型的Visvalingam创建紧凑型SVGs 地图上的数据集层能进行多层级可视化费用：免费 17. Microsoft Excel Microsoft Excel因为它的数据处理和分析功能而广泛闻名，但是它经常用于创建强大的数据可视化。Excel的最新版本塞满了可视化工具，包括被推荐的图表，不同方法迅速分析并展现数据，有多重控制选择来改变和布局可视化。主要特点：在同一个程序里运行数据分析并且创建可视化数据多种展现的方式进行比较改变平铺、布局和其他格式选择 Excel推荐数据最好的可视化方式能够兼容Microsoft Office产品费用： Office 365 Home– 每年$99.99或每月$9.99 Office 365 Personal –每年$69.99或每月$6.99 Office Home Student 2016 – 永久购买$149.00 Office 365 Business Essentials – 每个用户每月$50（每年义务） Office 365 Business –每个用户每月$8.25（每年义务） Office 365 Business Premium – 每个用户每月$12.50（每年义务） 18. Modest Maps 对于想要将交互地图放进应用程序的开发者而言，Modest Maps是一个免费的而且能够扩展的库，由Stamen, Bloom,和MapBox合作开发。主要特点：用于为基础构建映射工具用于少数扩展程序，例如MapBox.js,HTMAPL和Easey 保护基本控制的设计费用：免费 19. CartoDB CartoDB允许你在数分钟内上传并视觉化数亿个数据值。它还具有地理空间分析功能探索、改进，并从您的数据获得的见解。主要特点：探索数据并获取见解直接在地图上编辑数据与PostGIS 兼容的更强大的分析先进版本的CartoCSS▏支持栅格数据和矢量数据费用：免费—无限数据集/4层地图层，，250MB矢量数据，每月1000条推特基础版-每月$149，无限数据集/5层地图层，500MB矢量数据，每月10000条推特，同步表格，私人地图，可移除标识专业版-每月$449，无限数据集/6层地图层，1.5GB矢量数据，每月250000条推特，同步表格，私人地图，可移除标识企业版-每月$825，无限数据集/6层地图层，5GB矢量数据起步，每月250000推特，同步表格，私人地图，可移除标识 20. Google Charts Google Charts提供大量数据可视化格式，从简单的散点图到分层树地图。可视化效果是完全个性化的，你可以通过动态数据进行实时连接。主要特点：谷歌利用同样的图表将多个图表组装成直观的仪表板兼容多个浏览器多个平台可使用（IOS和安卓设备）从各种图表中选择费用：免费 21. Gephi // @Gephi Gephi是能在Windows、Linus和Mac OS系统上运行的开源应用程序。该平台允许用于可视化和探索数据，包括复杂的线性分析、社会网络分析等其他深入了解数据关系的模型。主要特点：插件更加个性化深层数据分析来检测关系内置的 3D 渲染引擎实施视觉化动态过滤有内置的直观的工作量组织界面费用：免费 22. Flare Adobe Flash Player里可以运行的创建数据可视化的Action库，Flare是一个开源应用程序，由一些知名组织和出版商使用，来创建强大的可视化图，包括Slate、IBM VisualCommunication Lab和ABC News。主要特点：处理复杂、交互式图表支持数据管理、视觉编码、动画和交互作用各种可视化表格从时间线到多层图表来说明关系费用：免费 23. Envision.js 用Envision.js库创建快且交互式HTML5可视化，能够展示实时数据、时间序列、财务可视化、AJAX驱动财务图表和自定义可视化，包括分形。主要特点：内置各种图表和图形的模板将可视化效果、交互作用和自定义组件一体化自定义图表层类型费用：免费 24. Miso 开发中的一个开源工具，Miso合并数据集、故事版和d3图表来创建交互式故事和数据可视化效果。Miso是The Guardian和Bocoup的联合项目，得到GlobalDevelopment、The Bill和Melinda GatesFoundation的支持。主要特点：高质量交互式故事数据可视化内容 Java 客户端的数据管理和转换库运用D3.js创建可重复使用图表费用：免费 25. The R Project R Project是在UNIX、Windows和Mac OS上运作的统计计算软件。设计的目的是用于统计计算和统计制图，它考虑了不同应用的S语言，也包含了一些本身的S代码，在R里没有改变，虽然也有一些显著的不同。主要特点：数据处理、计算和图表展示用于即时分析的集成工具条件、循环、用户定义的递归函数和输入/输出设备定义新功能来增加兼容性费用：免费 26. Tableau Public // @Tableu Tableau是一个简单的、使用友好的用来迅速创建交互式可视化数据，并将它们嵌入你网站的工具。设计的目的是能由开发者、或无开发经验的人使用，例如博主、记者、研究员、律师、教授和学生。主要特点：可以网上使用，或者下载并处理可视化桌面端完整版应用程序图片可以在公共服务器进行储存存储数据空间有50MB（免费计划）拖拉式界面，不需要编程技巧费用：公共版本-免费个人版本-每个用户$999 专业版本-每个用户$1999 27. Timeline JS // @knightlabTimeline JS3 Timeline JS作为开源工具能够从多重资源中提出媒介，运用40中不同语言建立交互式时间轴。内置支持Twitter, Flickr,Google Maps, YouTube, Vine和其他应用程序，Timeline JS拥有大量功能，能够进一步的拓展进行自定义安装来兼容JSON。主要特点：运用GoogleSpreadsheet数据建立时间轴上传电子表格，并生成嵌入代码从第三方apps在时间轴里嵌入音频、视频 WordPress插件从JSON数据库中填补数据费用：免费 28. Quadrigram //@quadrigam Quadrigram使用户能够创建自定义可视化效果，运用他们的数据和来自内置里图表、图形等各种组件来quadrification 和叠流。基于可视化编程语言（VPL），Quadrigram是能从多个数据源提取并创建不断变化的原型和数据可视化效果。主要特点：完整的交互式可视化库建立动画、仪表盘或更多其他的草图想法和创建快速原型基于云计算的快速数据处理集成R 和 Gephi 的服务端利用多个公开发布的数据集费用（价格转换自欧元）：学术版-每月$6.43（1个用户，100MB存储量）个人版-每月$20.38（1个用户，3GB存储量）专业版-每月$63.27（3个用户，10GB存储量）工作版-每月$267.02（20个用户，100GB）企业版-联系报价 29. Prefuse Prefuse是一个数据可视化工具，IBM视觉传播实验室用于该公司Many Eyes工具来创建可视化效果。Prefuse软件包为Java提供了可视化框架，而Prefuse Flare工具包为Action和Adobe FlashPlayer提供了可视化和动画化工具。主要特点：数据建模、数据交互化和可视化为各种视觉布局进行数据结构优化支持动画化、动态搜索和数据库连接使用Java 2D图片库 30. Many Eyes Many Eyes是由IBM研究所和IBM Cognos软件小组的试验成果。该工具提供了一个平台，用于创建各种可视化效果说明数据点关系，比较的值集，创建线性和堆栈图、分析文本，或查看整个饼图或树图中的各个部分。主要特点：多种方式展示数据上传供公众使用的数据集运用Java和Flash展示数据通过用户打分收集反馈完全的控制或删除你的数据集和可视化图使用其他用户现存的数据集或者你自己的数据费用：免费 31. Cytoscape // @Cytoscape Cytoscape能够合成不同属性的数据形成可视化的复杂网络。针对特别领域分析的功能，例如生物信息学、语义网和社交网络分析，Cytoscape具有这些功能，并能创建邻人着迷的图表来表示数据之间的关系。主要特点：问题领域的应用先进的分析及应用程序进行建模人力策划数据集进行可视化可视化社交网络中的人际关系与其他工具一起联合使用（例如R、NetworkX）费用：免费 32.NetworkX NetworkX基于Python编程语言，能够创建图表、有向图和多种多媒体格式合成的重图。Python是用于创建多种交叉兼容的数据可视化的多平台语言。主要特点：学习结构、动态和复杂网络功能节点能够包含任何媒介类型，例如图像和XML 边缘能够包含任何数据，例如加权或时间序列多种图表类型生成器，包括经典的曲线图、随机图和合成网络费用：免费 33. Arbor.js Arbor由网络工作者和jQuery一起建立的，能够运用画布、SVG或是HTML定位元素来创建数据可视化的工具。Arbor旨在帮助开发者创建强调他们数据集唯一性而不是需要各种布局的物质性。主要特点：能够处理实时色彩和价值充斥力导向布局图增加了抽象性实际屏幕绘图由用户做出费用：免费 34.iCharts // @iCharts iCharts是基于网络端的应用程序能够在网页上生成引人注目的数据可视化工具。这种云本地应用程序工具是“是为企业云应用内置的唯一数据可视化平台”。将图表和图形集成到网站/应用程序或通过社交媒体或iCharts图表频道分发完成可视化。主要特点：运用公司的logo进行品牌视觉化为了更好的发现增加标签或描述启用第三方网站重新嵌入可视化来扩大范围数据是实时的创建交互式、探索性图表领先一代的激活自制表格分析报告在图表视图、共享和嵌入费用：基础版-免费（仅限公共图表）网络套装可视化报告和分析-每个用户每月$64.95 销售团队可视化报告和分析-测试版本请电联 35. Databoard 来自谷歌的工具，Databoard是Think平台的一部分，主要面向企业主。探索见解直接来自谷歌调查研究，来迅速的查找数据并且创建自定义的信息图表来嵌入网站或在社交网络上分享。主要特点：探索谷歌数据调查研究直接生成图表元素通过合成多种元素建立自制图表主要专注移动数据费用：免费 36. Q Research Software // @qstatistics 对于研究和数据可视化而言都是一个强大的数据库，Q Research软件时一个用于准备市场研究报告的工具，全是有价值的见解和可视化效果。以图表格式、CSV文件和PDF文档输出到Word、Excel和PowerPoint，并且从一大堆工具/元素中选择进行自制可视化效果。主要特点：可编辑的Office图表多种图表类型（线性、气泡、饼图、列图等）直方图和散点图利用实时数据更新图标创建变量值，应用过滤器，进行统计检验强大的分析包括对应分析、logit分析、潜在类别分析、回归分析、Max-diff分析，随机参数分析、Kruskal Shapley、TURF分析等费用： 30天免费试用期标准授权许可 – 每年$1,499（所有功能）可转让授权许可-每年$4,497（在多台计算机上安装） 37. Dapresy // @dapresy 专为研究分析师设计，Dapresy允许用户运用简易使用的拖拉界面建立为他们的幻灯片和仪表盘建立信息图表。Dapresy是一个综合性平台能够处理整个报道过程，从数据分析到视觉上具有吸引力的展示工具和仪表板。主要特点：简单的引入实地文件，Dapresy能够处理数据图、表、交叉分析表和综合统计分析为市场仪表板建立动态元素从200张幻灯片里打包数据为较少动态Dapresy幻灯片灵感创意箱费用：电话联系报价 38. Visualize Free 基于商用可视化的工具InetSoft，Visualize Free是一款免费的替代方案，使您可以通过几个简单的点击来对多个数据集和变量进行筛选，确定趋势和处理数据。主要特点：用Excel或CSV格式上传你的数据拖放元素来建立可视化效果沙箱技术用于数据分析公众或私人分析费用：免费 39. Jolicharts // @Jolicharts Jolicharts将图表和表格嵌入你的应用程序里，能够兼容多种数据源并处理连接多种数据源的复杂性。利用集成的弹性计算能力，Jolicharts能轻易处理大数据。主要特点：拖放界面创建令人惊叹的仪表板输出仪表板XLS、PDF或JPG格式过滤器来确保各个用户的数据基于Rest端的API能够兼容任何应用程序云端应用保证你的数据和可视化的可获得性 HTML5仪表板能在任何设备上获得数据费用（欧元转换的价格）：永远免费计划-免费（50MB数据存储量，单一用户，展示不受限制，每个展示有一个数据源）专业版-每月$31.13（10GB数据存储量，增加到5个用户，展示/数据源不受限制）企业版-每月$74.06（250GB数据存储量，增加到5个用户，用户/展示/数据源不受限制）这份清单包含了最后欢迎的大数据可视化分析的工具。 End. 转载请注明来自36大数据（36dsj.com)： 36大数据 » 39个大数据可视化工具数据研究必备

个人分类: 研究方法|2348 次阅读|0 个评论

大数据及数据可视化的学与思——2017年6月月报

windflyhuang 2017-6-27 15:46

引言忽如一夜春风来，千树万树梨花开，大数据的理念就这短短的几年间，成为了炙手可热的关键词，上到学术前沿，下到茶后闲谈，大数据都是大家热衷的谈资，也成为科技创新的热点。这个月，参加了两次发改委举办的湖东讲坛，第一次是电子科技大学大数据研究中心的周涛教授，周教授年仅 28 岁成为了博导，在他研读期间看清形势，从物理转向了计算机科学，深入研究网络科学中的复杂网络，一进场看上去其貌不扬，当他侃侃而谈时，才发现看问题如此透彻，对追求真理如此挚爱，虽然是一个理工男，但确是饱读诗书，才华横溢。这种连吃菜都能联想到数学的天才，当然不是我们这些智商普通的人所能比的，但是其身上散发出对科学无比的热爱，和对事业无比的执着，值得我们去学习。第二次是上海财经大学庆祝百年校庆联合上财福建校友会与省发改委联合举办的百年校庆高峰论坛，上海财经大学交叉科学研究院院长葛冬冬教授发表的题为大数据、人工智能以及相关行业投资分析的演讲。其中讲到数据化智能决策，将从数据采集与管理，到寻找数据的规律，到决策建模与分解，这一过程就是将实际中的决策问题转化为数学模型，并用高效的优化算法求解。葛教授从各大案例出发，介绍了大数据和人工智能的算法决策模型在智慧供应链布局上的应用，包括智慧选址、路径规划、智能选品、库存优化、收益管理、销售预测和生产计划管理，最后葛教授介绍了将建立的数学模型和目标以及约束封装成一个“黑匣子”——求解器。后面是一位有名的国泰证券分析师 -—— 林隆鹏，讲述了他在股市十年多的摸爬滚打，也讲述了中国股市近 20 年来波澜壮阔的跌宕起伏，揭露了广大中国股民的心理 “ 没做股票，人生没有乐趣；做了股票，人生就一下子丢失了乐趣 ” ，最后他总结的九字真言 “ 看大势，抓热点，选龙头 ” 让我若有所思，启发我应该看清潮流和热点，结合自身基础和背景，寻找自己的兴趣点和能够有所突破的点，然后稳扎稳打，提升能力。看大势——登峰览阅众山小最近在看一本有关于人工智能的哲学意味的书，里面有一句话让我印象深刻： “ 当人们看到太多相同的时候，也许我们很无知；当人们看到太多不同的时候，也许我们视野不够大；当人们同时看到不同和相同的时候，也许这恰是我们的智慧原点。 ” ，虽然不可能成为潮流的引领者，但是通过掌握大势，然后去突破，在这个产业转型的大变革时代，还是可以有所作为的，雷军曾经说过“站在风口上，猪都可能会飞”，所以了解大势很重要。在移动互联网时代，小米、 UC 、网上购物、外卖、手机电子支付这些都成为了风口上的猪，当共享经济来临时， mobike 和 OFO 异军突起，还未盈利，在资本市场上却被很多天使投资所青睐，马云在 2016 年乌镇云栖大会上表示新零售的时代即将来临，而这个新零售主要是打通线下实体店和线上网店，更加注重用户体验，满足用户多方面的需求，建立用户与品牌之间的良性互动，提出的这个观点主要是针对零售消费领域。 2017 年小米公司布局新零售，让其不断下跌的销售量强势暴涨。百度公司 CEO 李彦宏在西安举办的 2016 亚布力中国企业家论坛夏季峰会上说：“我认为互联网的下一幕就是人工智能的时代”，柯洁今年 5 月 24 日在乌镇与 AlphaGo 进行对弈最终以 0:3 完败，我在网上看了全程直播，深深感受到了人工智能的强大，心中新生一丝忧虑，我这水平会不会以后被人工智能所代替，成为一名没有用途的失业者，的确应当思考。周教授在讲座上提出，人工智能的确会让一部分人失业，同时又会创造出新的职业，未来在创造决策性劳动、情感关怀类劳动和过渡阶段性劳动方面还是不容易被人工智能所代替，目前在互联网领域，比较知名的有百度公司的 “ 小度 ” ， “ 阿里 ET” ，科大讯飞的语音识别系统等等，越来越多的系统或者机器人，不仅仅掌握了人类听说读写的能力，现在也有了一些思考决策的能力。狄更斯的著作《双城记》里面的开头 “ 这是最好的时代，这是最坏的时代 ” ，人工智能给我们带来了机遇和便捷，也给我们带来了风险和冲击，作为当代青年，更应该乘风破浪，涌上潮头，认清大势所趋，把握机遇与挑战，做点不一样且有价值的事情，才不负韶华，不负时代。探方向——不畏浮云遮望眼以上是通过了解国内外科技前沿发展动向，梳理出现在国内外大数据与人工智能发展趋势和一些热点。然而想想，即使你一览众山，但群山不属于你；即使你胸怀天下，天下不属于你。对于无数的还没入门菜鸟来说，大数据与人工智能就像眼前的浮云，眼前的海市蜃楼，雄伟壮阔却是虚幻，常常会出现这样的问题， “ 大数据和人工智能是什么？ ” ， “ 大数据和人工智能给我们带来什么？ ” ， “ 我们该如何掌握大数据和人工智能？ ” 。这些问题可能就是一千个人眼里有一千个哈姆雷特，对于一个 GISer 来说，在我看来大数据就是在拥有大量的数据的基础上对数据进行处理分析然后能够更加快速和精确的获得结果的理论和技术，人工智能在我眼里应该就是利用现有的理论与技术来模仿人类听说读写记以及思考决策等方面能力的科学，而大数据和人工智能的用处基本上可以覆盖人类所有的劳动范畴，只是使用大数据和人工智能或多或少而已。而掌握大数据和人工智能，对于不同身份者来说，可以从不同角度和不同深度去解读大数据和人工智能。对于管理者或者创业者来说，了解大数据和人工智能，这样有利于战略选择，节省成本，提高效率，有助于产业的升级，寻找新的增长点，重新让企业或者单位焕发新机。而对于技术人员来说，要学会如何去使用现有的大数据和人工智能技术为相关领域提供技术解决方案，深入掌握大数据和人工智能的理论算法，了解大数据和人工智能涉及到的方方面面，包括机器学习、深度学习、概率统计、大数据挖掘等数学相关知识，包括现有大数据与人工智能的解决方案以及工具 API 和开发环境。作为一名对人工智能感兴趣的技术 GISer ，在不断学习人工智能相关知识和技术之外，更应该将人工智能与行业相结合，去发现新的问题，寻找新的解决方案。先前与老师的相互交流过程中，我逐渐对网络关系数据挖掘产生兴趣。在用关系图的方式对先前做的统计图表以及工具的可视化过程中，我先后浏览了一遍图论、图数据库等相关知识，然后学习 D3 和 echarts 等可视化技术，也思考着关系图或者力导向图在电子政务结合 GIS 方面可以有哪些应用场景，才发现人事地物情应该更像是复杂的网络关系，利用网络结构去组织数据，然后在网状关系数据结构上进行数据挖掘，找出具体场景下数据之间存在的关系与规律。学知识——书山有路勤为径关系图中直接涉及到的是图论的基本知识，图论已有二百多年历史 ( 以 Euler 研究歌尼斯堡七桥问题为发端 ) 。近四十年来发展十分迅速，成为一个新兴的数学分支。由结点和连结两个结点的连线所组成的对象称为“图”，三元组 (V(G),E(G),M(E,V)) 称为图。其中 V(G) 为点的集合 ( 非空集 ) ， E(G) 是边集， M(E,V)= 边与点连接关系。图可以分为有向图和无向图（关系图），有向图是节点之间有单向边，具有明显的方向性，无向图是节点之间有双向边，没有方向性，两者都可以通过邻接矩阵和关系矩阵来数学表示，这种计算方法有助于计算机运算和储存。可以利用矩阵代数的运算求图的度、路径、回路以及其它性质。树作为无向图中的一种，应用于很多领域，尤其在计算机科学和管理科学中，在求连通图的一棵生成树的许多方法中包括广度优先和深度优先。解决图的最短路径问题的算法包括弗洛伊德算法（解决多源最短路径），迪杰斯特拉算法（解决单源最短路径）和 Bellman-Ford 算法 ( 解决负权边，解决单源最短路径 ) 。复杂网络图复杂网络图是一种特殊图，复杂网络图是由一个一个对象组成的点状网络拓扑结构。其中每个点 (Node) 代表一个对象，可以是个人，也可以是一个团队或是一个组织，对象与对象之间可能存在各种相互依赖的关系，在拓扑网络中以点与点之间的边 (Tie) 表示。而复杂网络图关心的正是点与边之间依存的社会关系。复杂网络图的几个重要参数：度（ degree ） —— 一个节点有 n 条边即度数为 n ；接近度（ closeness ）—— 若一个节点与其他节点的几何距离之和（如最短路径之和）相对较小，我们认为该节点的接近度偏高；中间状态（ betweenness ） —— 在整个网络中，一个点在其他两两节点之间的最短路径上多次出现，我们说这样的点具有较高的中间状态值；中央性（ centrality ） —— 以上 3 个参数都是用于度量中央性的。简单来说，中央性指的是一个节点对于整个网络的重要程度。桥（ bridge ） —— 如果一条边删除后会增加整个网络图中的连通分支的数量，我们称这条边为桥。构建复杂网络图的方式有关系图和力导向图，关系图只是简单描述节点与节点之间是否存在某种关系，而力导向图可以描述每一个节点与有关系节点之间的某种排斥力度关系。基于力导向 (Force-directed) 的算法作为弹簧理论算法的一类典型，被广泛应用于描述社交网络等关系型信息图。它的原理其实非常易懂，我们可以把整张网络想象成一个虚拟的物理系统。系统中的每个节点都可以看成是一个带有一定能量的放电粒子，粒子与粒子之间存在某种库仑斥力，使它们两两相互排斥。同时，有些粒子间被一些“边”所牵连，这些边产生类似弹簧的胡克引力，又紧紧牵制着“边”两端的粒子。在粒子间斥力和引力的不断作用下，粒子们从随机无序的初态不断发生位移，逐渐趋于平衡有序的终态。同时整个物理系统的能量也在不断消耗，经过数次迭代后，粒子之间几乎不再发生相对位移，整个系统达到一种稳定平衡的状态，即能量趋于零。此刻，最终的这幅理想的社交网络图也基本绘制完成。力导向图核心算法： 1. 随机分布初始节点位置； 2. 计算每次迭代局部区域内两两节点间的斥力所产生的单位位移（一般为正值）； 3. 计算每次迭代每条边的引力对两端节点所产生的单位位移（一般为负值）； 4. 步骤 2 、 3 中的斥力和引力系数直接影响到最终态的理想效果，它与节点间的距离、节点在系统所在区域的平均单位区域均有关，需要开发人员在实践中不断调整； 5. 累加经过步骤 2 、 3 计算得到的所有节点的单位位移； 6. 迭代 n 次，直至达到理想效果。练技术——觉知此事要躬行纸上得来终觉浅，绝知此事要躬行。在了解了相关基础理论知识后，为了将上次统计图表和工具进行可视化表达，开始学习 D3 ，大致阅览了一下《精通 D3.JS 》 , 前面九个章节都是 D3 的基础理论知识，后面的布局和地图基本上涵盖了前面的所有知识要点的应用，所以重点在力导向图、弦图、直方图和地图的可视化编码。在完成统计图表和工具过程中， D3 的力导向图会让布局可以拖动导致布局会乱， D3 的力导向图无法支持固定位置，所以后面又学习了 echarts 的关系图的制作，学习案例之后模仿着完成了统计图表和工具 V1.0 。然后因为对大数据感兴趣，为了访问更加方便，便买了一个阿里云 ECS 服务器，然后配置服务器后将网站部署到服务器。以下所有详细操作可访问技术博客查看。（1）统计图表与工具关系图（ Echarts 关系图）制作这份图的前提之下，先做了一份 gexf 格式的数据，这种格式数据结构就是网状节点，结构中主要分成两部分，一部分是节点（ node ），包括 id ，节点位置、颜色渲染、节点种类、节点属性、节点值，另外一部分是 edge ，包括 id ， source （源点）、 target （目标点）和 value （值）。然后制作图格式数据之后，就可以使用 Echarts.JS 中进行配置项设置，使用的是 setoptions — series—type ： ”graph” 。效果图：访问地址： http://106.14.147.72/Graphtest/graphnetwork.html 博客地址： http://blog.csdn.net/u010473077/article/details/73770268 （2） D3 弦图 demo 弦图主要是用来表示一组元素之间的联系，弦图分为两部分，外部的节点和内部的弦。从一个元素到另外一个元素绘制弧，表示两个元素相关，弧的宽度表示权重，这就是弦。弦图的绘制，主要包括创建弦图布局对象、确定初始数据然后转换数据、添加节点和弦、添加文字、添加交互效果等。访问地址： http://106.14.147.72/Graphtest/chord-interactive.html 博客地址： http://blog.csdn.net/u010473077/article/details/73795200 效果图：（3） D3 力导向图地图 demo 力导向地图 demo 是为了探索新式地图和如何将力导向图或者关系图与地图相结合制作出不一样可视化效果的图示， demo 将为后面进行的地图上的网络拓扑图制作奠定基础，和探索新式地图奠定基础。具体过程参看本人技术博客。访问地址： http://106.14.147.72/Graphtest/forcemap.html 博客地址： http://blog.csdn.net/u010473077/article/details/73799083 （4）阿里云 ECS 服务器网站部署在制作了一些 demo 之后，为了方便查看和访问，也为了更好地学习云计算平台，所以买了阿里云云翼计划的 ECS 服务器，将所有 demo 放入了阿里云服务器上。具体操作过程查看本人技术博客。博客地址： http://blog.csdn.net/u010473077/article/details/73774143 下一步——脚踏实地可视化基于前面所进行的学习和所作的工作，对下一个月的计划如下：（1）继续学习 d3 和 echarts 关系图和地图相关的技术，优化统计图表以及工具可视化 v1.0 ；（2）梳理人事地物情网状数据，并尝试进行可视化表达；（3）探索图数据库对网状数据结构的存储；（4）阅读相关文献，找到复杂网络在电子政务方面数据挖掘的新的突破点。 2017 年 6 月月报 2017 年 6 月 27 日完成

个人分类: 月报|0 个评论

[转载]【数据处理方法】数据处理分析实验室

JerryYe 2017-5-11 10:27

UCSD数据分析实验室

个人分类: 数据处理方法|1847 次阅读|0 个评论

[转载]这 14 个案例，可能是过去一年表现最棒的数据可视化作品

rbwxy197301 2016-11-6 18:34

英国 Kantar “信息之美” 2016 年度奖项（Kantar Information is Beautiful Awards）公布，这是今年获奖的作品及网站。数据、信息可视化越来越流行。一张图不仅让枯燥的数据和信息变了模样，还可让洞察见解跃然纸上，轻松传达复杂观点。越来越多媒体、研究机构开始尝试这种这种生动有效的叙事方式。这两天，英国 Kantar “信息之美” 2016 年度奖项（Kantar Information is Beautiful Awards）公布，今年获奖的这 14 个作品及网站，也许代表了这一年在数据可视化领域表现最棒的作品。这一奖项开始于 2012 年，由 Information is Beautiful 网站的记者、数据观察员 David McCandless、市场调研机构 Kantar 当时的创意总监 Aziz Cami 创立，面向全球各地的学生、个体从业者、媒体以及非政府组织等。《空中的间谍》（Spies in the Skies）这一系列作品出自美国新闻网站 Buzzfeed 的两名编辑 Peter Aldous 和 Charles Sefie，凭借《空中的间谍》，两人斩获了 “最美奖” 和 “数据新闻金奖” 两项大奖。它详细展现了美国联邦调查局和国土安全局通过飞机在美国各大城市进行空中监视的情况。Buzzfeed 通过分析航班实时追踪网站 Flightradar24 从 2015 年 8 约中旬到 12 月末的飞行器位置数据，绘制出了这张飞行轨迹图，且可以拖动时间进度条的变化，查看单架飞机的航线以及每天的具体情况。关于政府的这些空中监察活动，到底是在维护国家安全履行公职，还是在窥探民众的隐私，Buzzfeed 希望借力这张图揭示更多包括飞行轨迹、活动范围及监察时间等信息，也算是对政府安全行动提出的一次质问。（完整图片点击这里查阅）《地球温度时间表》（Earth Temperature Timeline）这是毕业于美国克里斯托弗新港大学物理学专业的学生 Randall Munroe 的作品，他曾就职于美国宇航局的兰利研究中心。《地球温度时间表》收获了 “数据可视化金奖” ，它的时间跨度从最后一个冰河时代跨越至今天，详细介绍了地球的温度是如何变化的，运行的时间轴像是一幅长长的画卷，并对今后几年地球温度将发生哪些变化做出了一些可能性的预测。（完整图片点击这里查阅）《失踪移民地图》（The Missing Migrants Map）这个记录失踪移民的项目，是由国际移民组织（IOM）的全球移民数据分析中心（GMDAC）与媒体与通讯事业部（MDC）共同发起的，制作图表的是 Valerio Pellegrini 和 Michele Mauri。它拿下了今年的 “信息图表金奖” ，详细记录了自 2013 年以来难民向欧洲迁移过程中的死亡数据。（完整图片点击这里查阅）《数字美食》（Data Cuisine）这个项目赢得了 “The Dataviz 项目金奖” 及 “杰出个体奖” 两个奖项，获奖者是 Moritz Stefaner，他是一名专注于研究数据可视化的独立设计师，客户中不乏像是国际足联，Skype、经济合作与发展组织、马克斯-普朗克学会以及世界经济论坛这样的公司或是组织。《数字美食》是他用艺术与设计的手法展示美味佳肴的制作过程的一种尝试。从某种特别的味道和口感，到不同的温度与肌理，甚至于装盘时体现出来的每一个小小的烹饪细节，用 2D 或 3D 的方式，展现出各种不同的具体形象。《航运地图》（ShipMap） Duncan Clark 和 Robin Houston 凭借这个项目将 “互动金奖” 收入囊中。这张交互式地图可以帮助你了解自 2012 年以来全球商业航运的大致信息，除了总体观感之外，你还可以通过这张地图查阅特定时间见在海上运行的船只类型、以及运行过程中的海洋深度、航运活动中船只产生的二氧化碳排放量等等。为其提供数据支持的是伦敦大学学院能源研究所。（完整交互式地图点击这里查阅）数据流网站（Flowing Data）拿下 “ Dataviz 网站金奖” 的是数据可视化网站 Flowing Data 。 Flowing Data 由数据统计师 Nathan Yau 打理，最开始是他的博士论文项目，之后慢慢发展成一个网站。这个网站持续更新原创或整合的数据可视化内容，是跟踪可视化领域主要趋势和事件的好方式。数据美国网站（Data USA）这是来自美国麻省理工学院媒体实验室的主任 Cesar Hidalgo 联合德勤与 Datawheel 两家公司，创建的数据美国（Data USA）网站，收获了今年的 “商业项目金奖” 。这个网站基于政府机构的数据，能可视化地展现与工作、健康、技能和教育相关的问题，为决策制定者和广大公众提供信息与资源。 The Sum of the Parts 《南华早报》的数据图设计师 Alberto Lucas Lopez 收获的是 “社会奖金奖” 。 The Sum of the Parts 以信息图表的形式跟踪了过去 20 年中国的经济增长态势，且能将每个区域的详细情况一一分解展示。《洛杉矶和芝加哥的收入差距》（Income Inequality in LA and Chicago）赢得 “学生金奖” 的是来自奥地利的 Herwig Scherabon，他目前工作生活在英国。建筑学习背景对他在数据可视化和信息化设计方面的尝试帮助不小。通过这张信息图，他力图展示洛杉矶和芝加哥这两座城市在收入方面的不平等现状，这些矩阵建筑物的高度对应于每个区域的收入水平。 Terre Urbaine Terre Urbaine 拿到的是 “最佳非英语语言奖” ，视频用可视化数据的形式，跟踪了这些年来的城市化现象。 Terre urbaine (extrait) by universcience Polygraph 网站他们斩获了今年的 “工作室年度大奖” 。在其官方介绍中，Polygraph 网站将自己定位为“一个可以刺激诸如水冷却器等复杂话题讨论的出版物”。他们擅长于通过数据、动画等，做一些围绕流行文化的数据导向调查，比如音乐品位的评估、好莱坞演员的性别和对电影的影响、最永恒经典的歌曲等。 FiveThirtyEight 网站这个网站收获了 “优秀团队奖” 。它是专注于做民意调查分析、政经新闻和体育报道的数据新闻网站，由数据分析师 Nate Silver 于2008年建立，属于娱乐与体育节目电视网 ESPN。其过往代表作包括 Uber 对纽约交通的影响探究，恐怖事件发生频率分析等。以下是两个收获“明日之星”奖项的作品《英国医学杂志》（BMJ）信息图表 The Olympic Feathers 这里记录了自从第一届奥运会以来 5100 枚金牌获得者的信息，创造者是 Nadieh Bremer。图片来源： Creative Review 、 Kantar Information is Beautiful Awards 、 Behance 视频来源： Buzzfeed 、 Terre Urbaine 转自：http://www.360doc.com/content/16/1105/23/535749_604246498.shtml

个人分类: 文章转载|1612 次阅读|0 个评论

[转载]数据可视化技术指南

rbwxy197301 2016-4-23 22:24

美国立法程序大数据是时下热议的话题，伴随着大数据，同样已经激增的数据可视化方法和呈现形式，让大家意识到数据量的庞大，并不是所有的数据可视化技术是相同的。数据可视化是一种强大的机制，用来呈现数据并运用进步的技术所创造的独特方法来实现。简单的饼图时代已经走远，因为互动性和独特性的可视化技术正成为科技最前沿，人们也越来越意识到他们喜欢什么和不喜欢什么。下面的指南将有助于你理解数据可视化的重要性，在行业中所使用的不同呈现方法及最常用的工具，你还将了解优秀的数据可视化背后的关键理念及应当避免的错误。在这篇文章中，你将学习 1）什么是数据可视化 2）为什么数据可视化很重要 3）数据可视化使用的方法 4）数据可视化背后的关键理念 5）数据可视化中避免犯的严重错误。什么是数据可视化？数据可视化是关于图形或图形格式的数据展示。在一个被关注的连贯而简短的报告中体现大量的信息。虽然数据可视化可以处理书面信息,焦点往往是使用图片和图像信息传达给观众。此外，数据可视化不仅限于涉及到数据的使用。也可能是可视化各种各样的信息 – 你可以将自己的想法与猜想与他人交流。如今，可以添加各种技术应用到数据可视化,甚至是选择交互式的可视化方法。信息的视觉化表达是一种古老的分享创意与体验的方法。图表和地图是一些早期数据可视化技术的重要例证。为什么数据可视化很重要？如上所述，人类已经使用数据可视化技术很长一段时间了，图像和图表已被证明是一种有效的方法来进行新信息的传达与教学。有研究表明，80％的人还记得他们所看到的，但只有20％的人记得他们阅读的！它甚至可以把思想和事件传给后代。技术的发展进一步提高了数据可视化带给人们的机遇。也许使用数据可视化的最重要的好处是它能够帮助人们更快地理解数据。你可以在一个图表中突出显示一个大的数据量，并且人们可以快速地发现关键点。在书面形式，它可能需要数小时来分析所有的数据及联系。此外，这种展示巨量数据的能力是另一个数据可视化的优点。一张图表可能会突出显示一些不同的事项，人们可以在数据上形成不同的意见。这自然能为商业开辟新的途径。人们或许能从数据中发现一些意想不到的东西。数据的可视化展示,提高了解释信息的能力。从海量的数据和信息中寻找联系并不容易，但是图形和图表可以在几秒内提供信息。一望便知，可提供所需的信息。以上所述,能提高在工作场所或教育机构的沟通和有效性。数据可视化被普遍认为是一种简单而有效的方法来概括数据，因此它是可以提高人们的共享信息和学习的一种方法。下面的视频是一个数据映像极好方式的范例（视频） http://v.qq.com/page/u/3/w/u0169rczh3w.html 不同的数据可视化方法技术的发展已导致数据的大爆炸。这反过来又促使数据展示方式的激增。一般来说，大多数据可视化分为2种不同的类型：探索型和解释型。勘探类型帮助人们发现数据背后的故事，而解析数据方便给人们看。此外，有不同的方法可用于创建这2种类型。最常见的数据可视化方法包括： 2D区域 -此方法使用的地理空间数据可视化技术，往往涉及到事物特定表面上的位置。2D区域的数据可视化的例子包括点分布图，可以显示诸如在一定区域内犯罪情况。时态 -时态可视化是数据以线性的方式展示。最为关键的是时态数据可视化有一个起点和一个终点。时态可视化的一个例子可以是连接的散点图，显示诸如某些区域的温度信息。多维 -可以通过使用常用的多维方法来展示目前2维或高维度的数据。多维可视化的一个例子可能是一个饼图，它可以显示诸如政府开支。分层 -分层方法用于呈现多组数据。这些数据可视化通常展示的是大群体里面的小群体。分层数据可视化的例子包括一个树形图，可以显示语言组。网络 -在网络中展示数据间的关系,它是一种常见的展示大数据量的方法。网络数据可视化方法的一个例子是冲积图，可以显示医疗业变化的信息。以上提到了大量的选择，在它可以提供巨大机会的同时，令人头痛的是为你的数据展示选择正确的方法。还有一些用于数据可视化的工具。这些工具方便收集数据及简化数据的使用方式。一些常用工具包括： Google charts：谷歌的产品在数据行业是众所周知的，Google charts是一个方便的工具，特别是对于初次使用的用户。 Datawrapper –这是一个在线工具，它可以帮助你创建交互式数据可视化。 RAW –它的优点是有很多现成的模板框架让你清晰、快捷的呈现信息。该平台开源，能够自定义布局，以及使用其他的设计。 Infogram -新手用户的另一个伟大工具。它允许用户创建不同的图表和信息图，而且系统易于使用。这些都不是唯一可用的工具，你可以找到其他一些免费和付费软件。为确保你所使用的软件适合你的数据可视化目标，需要多多对比。数据可视化背后关键概念看过数据可视化的人都明白设计的好坏。如果这些信息不是以正确的、恰当的方式呈现，那么数据可视化的好处就很容易消失，特定项目需要特定的方法。无论你的信息是关于什么的，使用数据可视化时要牢记一些理念。以下是优秀数据可视化技术背后核心理念的集合。了解你的受众呈现数据前首要做的是思考谁将查看这些数据，为找到合适的数据可视化方法，了解你的受众非常关键。尽管数据可视化通常是一种简化数据的方法，受众可能仍然存在不同的知识背景，需要为此做好准备。如果你的数据可视化的目标是专业受众，那么你可以使用更适合的方法以及使用专业术语来解读数据。另一方面，普通受众可能需要相同的数据提供更加清晰的解释方式。同样重要的是要知道受众对数据的预期。他们想要的关键点是什么？你需要清楚呈现到数据中。此外，还需要明白，你的数据意图。足够的了解数据除了知道你的目标受众，您还需要了解数据的内涵。如果你不完全明白你的数据，那么你将无法有效将其传达给受众。你也无法从数据中提取所有信息，所以需要找到关键信息，并以一致的方式呈现它。还需要确定数据的正确性，不是虚构的 – 错误的数据不要可视化！如果你正确地理解它，你也可以从数据中得到独特而有趣的信息。讲故事你的数据可视化还应当力求传达一个故事。你不希望这些数据是一组信息仅仅呈现自己，而是有使用数据背后的信息。这可能是关于引入不同的叙述，并为观众描绘的特定图像。使用一个故事，往往意味着受众从数据中获得更多的洞察力。它可以帮助受众了解及深入新的信息。事实上，数据可视化技术是个讲故事的好工具。俗话说：“图像可以讲述一千个故事”是有道理的，你应该用它来做为你的优势。通过数据集讲故事并不困难，因为你可以用颜色，字体及陈述做为你讲故事方法的一部分。为了使数据可视化讲故事的更加精彩，理解数据这点是至关重要的。保持简单近年来，数据可视化已经发展了很快，正如上面所说，有很多工具和系统供你使用。接触不同的独特方法并不意味着你需要使用它们。此外，大量的数据不应该机械地认为所有的信息是必不可少的。总之，你需要保持你的数据可视化方法简单明了。你不要为了它而想着包含太多的数据信息或使用过多不同的技术。如果你考虑通过镜头讲故事的，重要的是要了解你的视觉中的每个元素应该是故事必不可少的一部分。如果数据或元素，如某些事物的图片，没有添加任何重要的故事，那么你不应该把它包含在你的报告中。拥有过多元素的可视化实际上会损坏成品并会偏离数据。你还需要记住数据可视化的好处是直观地呈现大量的数据。如果你的可视化看起来费劲，那么你需要回去看看是否使用了错误的数据呈现方法或包含了太多冗杂的信息。正确认识平台需求最后，一个成功的数据可视化技术也关注技术方面。现在，人们通过不同的平台查看和访问信息，重要的是你要记住这点。就像你需要知道目标受众，你也需要考虑人们阅读你的数据可视化的方式。你需要让你的可视化方便地平台移植，如移动手机，平板电脑或计算机。如果你的用户只通过手机浏览数据，那么你自然会受益于移动手机创建可视化的方法，而不是用笔记本电脑创建数据。除了考虑该平台的界面选项外，你还需要考虑可访问性问题。如果您的数据可视化允许有视觉障碍的人进行适当的缩放，可以大大提高用户体验。你也可以考虑不同的颜色选择供色盲者。可访问性是提高用户体验，确保你的数据可视化可用于所有受众。避免可视化数据的严重误区以上的关键方法可以帮助你建立一个数据可视化策略，你也需要清楚一些常见的错误。错误信息上述提到数据中的错误会误导受众。你需要确保那些正在看你数据的人，看到的信息正确。这是你的工作，以确保人们可以从你的图表和图像中使用数据，而不需要再次检查信息。不完全信息除了确保所有的信息是正确的，您还需要提供完整的数据。观察者必须在其全部信息中找到相关数据，不要使用数据可视化来欺骗或呈现不完整的信息。数据可视化可以而且应该讲述一个故事，但故事需要有完整和正确的信息，而不是一份报告中看起来合适的数字。简单的数据虽然你需要确保你的数据是在用一个简单的方式呈现，这并不意味着你应该简化它。首先，你需要记住受众–如果你展示给数据的专业人士就不要使用常见的简单语言。另一方面，如果受众对它没有什么意识，就不要用专业术语来填充文字。除此之外，你也不能期望你的受众在没有借住清晰描述可视化的情况下就能清楚地了解数据之间的联系。你不能因为它似乎显而易见而省略信息-记住，你的受众只会看到你目前的数据，而不是过去使用过的完整数据集！不合适的可视化当你呈现数据，你需要仔细思考这些数据。当谈到如字体，颜色和图像，背景是非常重要的。例如，如果你是呈现由于特定的疾病而导致死亡的信息，一个色彩鲜艳，令人愉快的图像似乎是不合适的。不恰当的可视化涉及到所使用的技术，使它难以查看和理解数据。例如，你可以使用气泡来代表你的部门不同的消费水平，但如果不考虑尺寸的差异，气泡就会误判和不准确。遗忘注释过度简化也可能导致缺失注释。当你呈现数据时，很容易假设受众知道图像的每一个方面是什么。简单的添加的注释可以提高用户体验，并确保受众知道你的数据中的所有数据关键点。作为一个例子，你可能有一个图表显示你的企业在过去十年销售自行车量。如果数据中有一个大的下降或是上升，一个注释解释了这个突然变化背后的原因，将确保观众得到这个额外的信息。最后的思考希望上面已经解释清楚了数据可视化重要性的基本点。有许多不同的方法和程序可以帮助你以一种独特而引人注目的方式呈现你的数据。重要的是理解,在所有酷炫古怪的方法下面，数据可视化是围绕数据–你需要找到一种方法，以正确的，清晰和直达主题的方式概括信息。当你找到正确的方法，数据可视化不仅丰富而且美观。 36大数据专稿，本文由36大数据翻译组-eRS_Juzen 翻译，转载必须获得本站、原作者、译者的同意，拒绝任何不表明译者及来源的转载！原文标题：Winning Data Visualisation Techniques 本文转自： http://www.36dsj.com/archives/34895

个人分类: 研究方法|1604 次阅读|0 个评论

[转载]2015大数据可视化与机器学习

alaclp 2015-11-24 09:10

IEEE Visualization Conference 2015 - Increasing Influence of Machine Learning IEEE Visualization Conference 2015 - Increasing Influence of Machine Learning ML Blog Team 11 Nov 2015 9:00 AM Comments 0 Likes This post is authored by Yiwen Sun, Data Scientist at Microsoft. I attended the IEEE Visualization Conference 2015 in Chicago recently and jotted down a few points related to machine learning. For those of you who are unfamiliar with this conference, it’s the largest annual gathering of practitioners, academics and researchers looking to make data visually understandable and usable. Conference paper talks are organized into three tracks: Visual Analytics Science and Technology (VAST), Information Visualization (InfoVis), and Scientific Visualization (SciVis). Co-located are three IEEE symposiums: Large Data Analysis and Visualization (LDAV), Visualization for Cyber Security (VizSec), and the very first Symposium of Visualization in Data Science (VDS). Over 1500 attendees participated this year, including leading companies in Business Intelligence and Advanced Analytics including Bloomberg, Google, IBM, Tableau, and, of course, Microsoft. One big impression I got is that ML and Data Visualization are getting coupled more tightly. Over half of the papers address ML techniques in their data processing step. For example, the best paper for VAST “ Reducing Snapshots to Points: A Visual Analytics Approach to Dynamic Network Exploration ” utilizes vectorization, normalization, and dimensionality reduction to project high-dimensional dynamic network data onto two dimensions, then visualize them using two juxtaposed views: one showing network snapshots and the other showing the evolution of the network. This enables users to differentiate regular, stable states from anomalies more easily. Below is a summary of ML techniques highlighted in four major application areas: In network or spatial data visualization, clustering and classification have been widely used to reduce clutter and identify regions of interest. For example, in the paper “ MobilityGraphs: Visual Analysis of Mass Mobility Dynamics via Spatio-Temporal Graphs and Clustering ”, hourly Twitter user movement data in Greater London area are spatially aggregated into regional clusters and color-coded by temporal clusters. (Image from Interactive Graphics Systems Group at Technical University of Darmstadt) For time-series data visualization, a big challenge is to present large dataset on the limited display space without over-plotting. An effective approach is to aggregate the data points into segments of time, and create a hierarchy of multi-focus zoomed line chart, as illustrated in the paper “ TimeNotes: A Study on Effective Chart Visualization and Interaction Techniques for Time-Series Data ” (Image from TimeNotes ) In textual data visualization, text mining techniques such as entity extraction, topic identification and sentiment analysis become essential. In the paper “ Exploring Evolving Media Discourse Through Event Cueing ”, multiple mining results, such as entities in Wordle, sentiment scores over timeline, are linked together to enable and enhance the analysis of media discourse. (Image from VADER Lab at Arizona State University) Anomaly detection, though not a standalone research area for visualization, has been studied by different research groups, to assist human judgement with automated analysis results. In “ Visualization and Analysis of Rotating Stall for Transonic Jet Engine Simulation ” the authors applied Grubbs’ test to identify outliers in blade passages as the early sign of turbine engine’s rotating stall. In “ TargetVue: visual analysis of anomalous user behaviors in online communication systems ”, TLOF (time-adaptive local outlier factor) model was used to identify sudden changes of user behaviors based on a set of features extracted for each user from the online communication data. The VAST Challenge was another highlight – this is an annual contest that began in 2006 and is designed to reflect real-world analytics challenges and encourage research into novel data processing, visualization and interaction methods. This year’s challenge was to analyze individual and group movement in an amusement park over a weekend which involves a criminal investigation. Popular languages used for data processing and ML were Python and R, both of which are currently supported by Azure Machine Learning . Overall, the conference was a great place to learn about the very latest in all things visualization, and to interact with experts in the domain. Yiwen 0 Comments 来源：http://blogs.technet.com/b/machinelearning/archive/2015/11/11/ieee-visualization-conference-2015-increasing-influence-of-machine-learning.aspx

个人分类: 大数据|888 次阅读|0 个评论

[转载]《数据可视化》本科课程学习附属材料即将完整发布

rbwxy197301 2013-7-22 22:19

作者：wchen 日期：2013 年 7 月 5 日没有评论预期建设内容包括： 1. 《数据可视化的基本原理与方法》一书中的所有彩图，打包下载 2. 面向本科的数据可视化课程的课件，共15个课件，分章下载； 3. 本科课程项目作业中的样例数据； 4. 精彩视频、可视化作品、优秀大程作业分享； 5. 课堂实录视频； 6. 勘误表与意见反馈；参考教材：陈为，张嵩，鲁爱东. 数据可视化的基本原理与方法. 科学出版社，2013年6月. ISBN 978-7-03-037488-2。下载地址（请收藏 http://www.cad.zju.edu.cn/home/vagblog/ 并关注新浪微博：浙大可视化小组）： http://www.cad.zju.edu.cn/home/vagblog/?page_id=1302 课件已经可以下载，后面还可能会有更新；其它资料后期会更新。转自： http://www.cad.zju.edu.cn/home/vagblog/

个人分类: 信息资源建设|2904 次阅读|0 个评论

[转载]2013年暑期数据可视化教学研讨会

热度 2 rbwxy197301 2013-6-14 22:00

2013 年暑期数据可视化教学研讨会通知大数据的分析、挖掘与可视化是信息技术发展的迫切需求。面对当前科学可视化、信息可视化、可视分析研究和应用的新形势，浙江大学 CADCG 国家重点实验室在 7 月 22 日至 7 月 25 日在杭州浙江大学紫金港校区举办 2013 年暑期数据可视化教学研讨会，研讨会将以科学出版社 2013 年新版数据可视化教材为基础，从人、数据、可视化流程等三个层面讲述数据可视化的基础理论和概念，并针对实际应用中遇到的不同类型的数据，包括时空数据，地理信息数据、高维非空间数据、层次和网络数据，介绍相应的可视化方法。研讨会将邀请国内外著名可视化专家授课，并围绕《数据可视化》课程建设、课程安排、内容展示等话题进行探讨。热诚欢迎高校和科研机构的青年教师和科研人员、相关方向或行业的高年级研究生参加。研讨班免费，可帮助安排住宿。请有意参加的老师和同学于 6 月 30 日之前将所附回执发送到马晓红（ xiaohongma.1112@gmail.com 、 13735526911 ）处。拟邀请授课的专家有：屈华民副教授香港科技大学袁晓如研究员北京大学刘世霞研究员微软亚洲研究院巫英才副研究员微软亚洲研究院张小龙副教授美国宾夕法尼亚州州立大学刘颖研究员英特尔北京研究院崔为炜副研究员微软亚洲研究院陈莉副教授清华大学张加万教授天津大学陈为教授浙江大学林海教授浙江大学陶煜波博士浙江大学报名回执姓名性别单位职称从事行业（数据 / 分析 / 科学计算 / 信息 / 网络等）是否需预订住宿（含具体要求）联系方式（ Email 和手机）其他要求说明： 1. 参会人员往返交通及住宿费用自理。 2. 参会人员可交纳 300 元会议资料费，包括科学出版社新版教材《数据可视化的基础理论与方法》（ 2013 年 6 月） 1 本、课件 USB （包含课件、数据资料、案例、视频）及会议简餐等。 3. 若单独购买教材《数据可视化的基础理论与方法》（ 2013 年 6 月），每本 30 元（无发票）。 4. 住宿协议价参考：紫金港大酒店（申花路 798 号） 288-328/ 天（含早餐），预约电话： 0571-88969999 ；香树 e 家（申花路 800 号）， 258-288 元 / 间，预定电话 0571-28006000 ；威斯 . 希顿大酒店（古墩路 707 号）， 218-278 元 / 间，预定电话： 0571-28291111 等等。 2013 年暑期数据可视化教学研讨会日程（拟） 7 月 21 日周日下午 14 ： 00 起外地代表请到紫金港大酒店大厅报到 7 月 22 日周一第 1 讲：数据可视化简介第 2 讲：视觉感知与视觉通道第 3 讲：数据基础第 4 讲：数据可视化基础 7 月 23 日周二第 5 讲：统计图形可视化第 6 讲：时空数据可视化 I 第 7 讲：时空数据可视化 II 第 8 讲：地理空间数据可视化 7 月 24 日周三第 9 讲：高维非空间数据可视化 I 第 10 讲：高维非空间数据可视化 II 第 11 讲：层次和网络数据可视化 I 第 12 讲：层次和网络数据可视化 II 7 月 25 日周四第 13 讲：文本数据可视化第 14 讲：可视化交互与评估第 15 讲：跨媒体数据可视化与可视化工具第 16 讲：交流讨论（每天上、下午各安排 2 次课，每节课 90 分钟。）浙江大学 CADCG 国家重点实验室 2013 年 6 月 9 日因为是免费的，所以给大家推荐一下。

个人分类: 文章转载|2411 次阅读|4 个评论

与大数据结缘

热度 1 Babituo 2013-6-9 15:18

个人理解大数据的意义应该在于：小数据是“井”；大数据是“天”。小数据管理看不到天，要看也只是坐井观天。大数据管理才有上天观天的机会。小数据是盲人；大数据是鹰眼人。小数据看不到整头大象，只能发现局部特征；小数据只能盲人摸象；大数据可将整体尽收眼底，能发现整体特征；大数据可看到大象跳舞。

个人分类: 数据可视化|2877 次阅读|2 个评论

数据可视化方法小结

lidongxuan 2013-3-7 15:42

一、三个概念数据可视化（ Data Visualization ）、信息可视化（ Infographics ）、信息图形、科学可视化数据可视化和信息可视化是两个相近的专业领域名词。狭义上的数字可视化指的是讲数据用统计图表方式呈现，而信息图形（信息可视化）则是将非数字的信息进行可视化。前者用于传递信息，后者用于表现抽象或复杂的概念、技术和信息。而广义上的数据可视化则是数据可视化、信息可视化以及科学可视化等等多个领域的统称。科学可视化侧重于利用图像帮助人们理解那些采取错综复杂而又往往规模庞大的数字呈现形式的科学概念或结果。二、六个步骤 1. 将指标图形化设计表示质量特征的符号 2. 将指标值图形化在表示质量特征符号的基础上表达数量感 3. 将指标关系图形化借助已有场景 \ 构建场景 4. 将时间和空间可视化地图 + 时间轴 + 交互 5. 将数据进行概念转换对比 + 比喻 6. 让图表 “ 动 ” 起来详情参见博文： http://www.civn.cn/p/11931.html 三、十种形式 visualizing.org 中对可视化形式的不完全分类包括：表现形式适用数据 Time series 表示时间序列 Histogram 经典柱状图 Hierarchy 层级数据 Flow 一系列相互关联的对象，表示流向 Network 点线相连表示相互关联的对象 Hierarchy 多维层级数据 Table 直观表示二维关系数据 Tree Map 矩形式树状图散点图以点的大小表示同类数据的不同等级数量特征 Matrix 四、若干工具 http://selection.datavisualization.ch/ 列举了一些可视化工具 http://www.ctocio.com/hotnews/8874.html 博文对 20 大可视化工具进行了点评除此之外前面的博文还提到过一些优秀的数据可视化网站可供膜拜。五、一些思路 1、运用联想思维，通过对比比喻的方法设计表示方法、符号、要素关系场景，从而增强可视化作品的易感受性及创新性； 2、设计扁平化是 2013 年新的设计趋势，设计扁平化即抛弃繁琐费时的光晕、阴影等特效，提倡“光滑、简洁、快、现代”的设计理念。简洁的作品也能够有效的展示复杂的问题，重点强调展示数据。六、开始尝试可以利用下面网站发布的免费数据尝试数据可视化：基础矢量数据： http://data.geocomm.com/ http://datamirror.csdb.cn/index.jsp http://freegisdata.rtwilson.com/ http://www.diva-gis.org/gdata http://exoplanets.org/ http://gadm.org/ http://www.emapzone.com/open/index.html http://nfgis.nsdi.gov.cn/nfgis/chinese/c_xz.htm 专题数据： http://cdc.cma.gov.cn/home.do http://www.data.ac.cn/index.asp http://www.fas.harvard.edu/~chgis/data/chgis/downloads/v4/datasets/index.html

19 次阅读|0 个评论

《IDL程序设计—数据可视化与ENVI二次开发》正式出版

dongyanqing 2012-10-15 22:19

《 IDL 程序设计 — 数据可视化与 ENVI 二次开发》已由高等教育出版社正式出版交互式数据语言 IDL （ Interactive Data Language ）是一门适用于应用程序开发和可视化分析应用的编程语言，它功能强大，简单易学。作为第四代语法简单、面向矩阵运算的计算机语言， IDL 拥有图像处理、交互式二维和三维图形技术、面向对象编程方式、 OpenGL 硬件加速、复杂数据可视化表达、集成数学分析与统计软件包、信号分析、跨平台应用开发（ Windows 、 Unix 、 Linux 和 Macintosh 等）、兼容 ODBC 数据库和方便的与其他常用语言互调用等功能。自 1977 年发布以来， IDL 语言在地球科学（包括气象、水文、海洋、土壤和地质等）、医学影像、图像处理、 GIS 系统、软件开发、高校教学、测试技术、天文、航空航天，信号处理、防御工程、数学统计及分析和环境工程等领域，得到了广泛而又深远的应用。例如美国国家航空和航天管理局（ NASA ）在太空飞船中使用 IDL 研究紫外线放射现象，利用 IDL 编写系统来辅助监测海洋和大气，并在互联网上为科学家提供遥感数据共享的平台； Los Alamos National Lab 的生物专家利用 IDL 开发了 MRIViewer 用于观察人大脑的核磁共振图；宾夕法尼亚大学地球科学系使用 IDL 开发了 World Topography Viewer 实现 DEM 构建、飞行观察等功能。 1998 年， IDL 被誉为 NASA 最近 40 年来的“里程碑技术”。 1994 年，使用 IDL 语言编写的遥感软件 ENVI 正式发布。 ENVI 具有完整、丰富的遥感图像处理功能，并提供完善的 IDL 二次开发函数接口。笔者从 2007 年开始接触 IDL ，由于 IDL 相关教材极少，每一个小问题都需要仔细翻看帮助文档、编写测试代码或与他人探讨分析，学习起来非常困难。随着对 IDL 的熟悉和使用的深入，笔者有了编写一本详细而且实用教材的想法。本书内容以 IDL8.2 语言的基本知识点和应用为主线，综合笔者在学习和使用 IDL 中的心得，结合 IDL 授课过程中的素材资料及学员们的反馈信息，分析了常见错误。同时对 IDL 中直接图形法中的常用函数、对象图形法中的对象类、数学与统计扩展函数、 ENVI 二次开发函数等进行了归纳列表。全书分为 20 章，分为三大部分：第 1 章至第 12 章是 IDL 语言的基础部分，介绍了 IDL 语言的编程环境，代码编写方式，基础语法，数据的输入与输出，直接图形法、对象图形法、快速可视化与智能化编程工具，界面构建与事件处理，图像处理与分析等基础内容。第 13 章至第 18 章介绍了 IDL 中的数学分析函数库，数据库、小波分析、信号处理、医学应用以及混合编程等扩展应用内容。第 19 章和第 20 章则重点介绍了遥感图像处理软件 ENVI 的功能扩展与二次开发。在读者学习本书中的示例代码时，可以手工输入，也可以使用随书附赠光盘中示例代码文件。示例代码中，“ ; ”为注释符，当前行中 “ ; ”后面内容均为注释；“ $ ”为续行符，“ $ ”后面的代码需要与当前行代码一起执行。代码前若为 IDL 则代码是在 IDL 下运行的；若为“ ENVI ”则需要在 ENVI+IDL 环境下运行。光盘中除了包含书中所有的示例源代码之外，还提供了一些完整的应用程序源码，便于读者进一步学习，拓展 IDL 编程的思路。

8454 次阅读|0 个评论

class实现数据可视化

zgyin 2012-10-8 03:37

上面是实现数据块可视化的脚本，命名为 helloz ，然后把这个脚本放到目录/usr/local/bin下面去，可以实现数据快的可视化，我从紫台毫米波射电天文数据库下载了源3C396的13CO（1-0）的谱线，放在了/root目录下面，然后执行脚本 helloz ，输入时间081118，输入e。这样可以看到在/root目录下看到生成了以下五个文件图像保存在081118.ps中

3066 次阅读|0 个评论

视觉的冲击——令人叹为观止的可视化

热度 2 flysky97 2012-7-22 00:40

令人叹为观止的可视化（强烈推荐—顺便秀秀俺的朋友网络）文 /齐云龙几乎每一篇 SCI 论文里都少不了统计数据和图表……我们看到，高档的论文里对数据图表制作的要求也越来越严格，而样式也越来越趋于多样化。今天，按谢龙博主博文科学网之美—— 你也可以可视化自己的朋友网络尝试了将自己的博客好友也进行了整理（程序只抓取了一级朋友网络），亲身体验到，原来通过电脑进行“可视化”的操作，竟然是如此之简单！（在此对谢龙同学的辛勤劳动和无私奉献表示感谢！）截止目前，我本人在科学网博客好友共 84 位，所成的图看起来像一大束美丽的玫瑰花（可惜相互的连线没有采用彩色，另外整体布局似乎还不够太均匀）…… 通过这张图也可以做一个大致的分析——通常情况，对于陌生的朋友我一般较少主动加人好友，而所加的好友也来自不同的领域和地域，所以图中有很多的单线——这意味着我的好友之间有很多相互并不相识，也并未互加好友（呵呵，说明本人绝对没有拉帮结伙的倾向）…… 而在连线密集的部分，可以看到科学网上明星：比如“ 王德华、王琛柱、唐常杰、杨晓虹、张志东、梁进、蒋继平、颜宁、曾新林、陈儒军等老师，还有边一、雷栗这些才子、才女…… 但是，像科学网上分级最前的，俺倒是自视人微言轻，而没有勇气去加人家……可能人家也并不屑于加俺（不过今天刚刚主动加了马石庄院长，希望他能帮俺的博文把把关）。对以上的关系图，深入分析，还可以得出很多其他信息，比如每个人加好友的习惯、偏好等等…… 也可见这是一个相对开放的网络——欢迎有新的好友加入进来……更多的结点、更立体的结构也是更优化的网络…… 每个人可能天生对于色彩的敏感度并不相同，而对不同的色彩的喜好也可能与人内在深深固化的性格息息相关（据说“ 非诚勿扰”主持人乐嘉就有一本《色眼识人》的中提到 “按照色彩心理学对于颜色的划分：红色和黄色张扬，故我将其分别赋予两种外向的性格；而蓝色和绿色内敛，我把它们分配给两种内向的性格。在我们的概念中，色彩的内涵进一步地被丰富--红色作为吉庆喜庆的象征，有如太阳般热情，…… 作为生命征兆的红色，必然成为民俗活动的主要色调；蓝色使人联想到海洋的深邃，在所有的文明圈中，蓝色都是灵魂的颜色，象征对生存意义的理解和生命的整体追求；黄色代表至高无上的权势和尊崇，……绿色象征着大自然的宁静和谐，绿色是生命这句商业广告语绝非空穴来风。以上这些简单自然的联想，正好与我所指的性格灵魂是如此惊人吻合。”）而我对于多种鲜艳的颜色都非常喜欢，在博文里也通常会使用多种颜色的字体！早在 TED 演讲系列中听过 David McCandless （大卫·麦克德里斯）所讲的 “资料视觉化的美丽（又译为数据可视化之美） ”，将枯燥无味的孤立的数字资料变为可视化的图形，变成眼睛的语言，更利于眼睛对信息的接收和大脑的加工、处理，有一点叹为观止！之前，接触过将流行音乐按音阶进行处理，生成动态的可视化图像（类似于电脑 Windows Media Player 播放无视频音乐时“魔幻”或者“组乐”的随机可视化效果）或者“千千静听”播放器下视觉效果中“梦幻星空”，随着音乐的律动，看着那变幻的色彩，我们的心灵仿佛也在一个如梦如幻的时空里飞行、跳跃。加上那斑斓的色彩，比单纯音乐的动感所带给我们的冲击要强烈很多！——那种感觉真得非常奇妙！ 2011 年辽宁卫视春晚时曾经播放过一个“ 光影互动视频秀 ”的节目，这个节目将电脑技术控制下的光影变幻与舞蹈、音乐等特效完美结合，并发挥到了极致，令人眼前一亮，演出短时间内获得了数次热烈的掌声！真可称得上令人“眼界大开”！数据可视化（ Data-visualization ），已经是有着很成熟的理论和方法了，尤其是在生产与工程中。数据可视化技术也与 IT 技术紧密相关。视听媒体能在相同时间内包含更多的信息 ……目前，对论文进行解析的多家视听网站，第一家科学视频期刊（The first Scientific Video Journal） http://www.jove.com/ 已经初具规模，其将实验以视频的方式展示，致力于提高科研的效率（The Journal of Visualized Experiments (JoVE) is a PubMed-indexed video journal. Our mission is to increase the productivity of scientific research. ）！数据可视化技术给数据以形象、给信息以智能，可以预见，随着计算机技术的进一步发展，对人脑信息处理方式研究的深入，对数据资料的可视化处理将是未来的一大趋势！或许，这将改变人们对于数据的处理方式，给我们的生活更多的色彩和美丽！另：对于将音频播放器内的可视化还有博文中提到的“光影视频秀”也归于“数据可视化”的范畴或者混为一谈，大概是我个人的一点想象和引申，并不严谨，或者有些名义上的“可视化”的东西，与音频等数据本身并无直接关联——还请相关的老师和专家们给出意见。附后： 1. David McCandless TED 演讲推介（摘要）这是一个信息过剩和数据泛滥的时代，然而我们却无从在数据丛林中看清真相。一个简单的解决方案就是，多使用一下我们的眼睛。数据可视化处理这种对信息具有高度概括能力的技术就显得颇为重要了。 David McCandless（大卫. 麦克坎德雷斯）曾为《英国卫报》、《连线》、《独立报》等刊物撰稿，擅长以简洁精美的图像展现复杂、抽象或分散的资讯，并将不同的数据组合，展现其中的联系和模式。大卫认为，数据可视化不仅是在信息丛林中找到方向的最好方法，还能帮助人们并发现全新的视角。他的新作《信息是美丽的》（Information is beautiful）以其擅长的可视化数据描绘了当今世界的各个方面，从左派右派世界比对、雨林面积递减、世界经费花费比例等世界议题，到各国文化与色彩的关联、英美三年网络热门关键字的转变、电脑病毒演化史等民生新闻无所不包。在2010年TEDGlobal大会上，大卫阐述了数据可视化的价值与意义，并分享了他的一些经验和方法。 2 、在西乔的九卦博客中，设计师西乔这样写道：我们熟悉的那些饼图、直方图、散点图、柱状图等，是最原始的统计图表，它们是数据可视化的最基础和常见应用。作为一种统计学工具，用于创建一条快速认识数据集的捷径，并成为一种令人信服的沟通手段。传达存在于数据中的基本信息。所以我们可以在大量PPT、报表、方案以及新闻见到统计图形。我多次被炫目的数据可视化或信息可视化震惊，在我知道这些图片背后的数据来源和创造历程后，更是为之诧异不止。它涉足制图学、图形绘制设计、计算机视觉、数据采集、统计学、图解技术、数型结合以及动画、立体渲染、用户交互等，相关领域有影像学、视知觉、空间分析、科学建模等。这是创造性设计美学和严谨的工程科学的卓越产物,用极美丽的形式呈现可能非常沉闷繁冗的数据，其表现和创作过程完全可以称之为艺术 ……而不仅仅是停留于对“好看”的赞叹上。这些图片不会说话，但它们比文字和语言都更为有力。那么，这些精彩的可视化数据图是如何制作出来的呢，当然最好是借助软件啦——部分手绘高手制作的比如（吃货眼中的北京地图之类也挺有趣的），软件制作的方法可以参考这篇文章：那些叹为观止的可视化图是如何做出来的? - 研趣网作为一个数据分析师，如果愿意花一点点时间在数据可视化上，会给你的分析结果画龙点睛哦! 相关链接 1、谢龙博主博文科学网之美 —— 你也可以可视化自己的朋友网络 2、 2011 辽宁卫视春晚光影互动视频秀 3、David McCandless TED演讲推介（摘要） 4、西乔的九卦 » 数据可视化（强烈推荐！） 5、 22 个免费的数据可视化和分析工具推荐 6、维基百科中关于 “ 数据可视化 ” 的词条

个人分类: 科技|10444 次阅读|6 个评论

认识“数据可视化”和“信息可视化”

热度 3 supermac 2012-1-31 22:14

我们经常在CNS杂志的论文、财经杂志、公司的宣传海报上看到如下所示的非常漂亮的数据图，那么这些infographic是怎么绘制出来的呢？最近，“数据可视化”和“信息可视化”的话题在微博上得到了比较热烈的讨论和转发，现把一些资料汇总如下：信息可视化（ Information Visualization ）有两种解释：其一，作为广义的概念使用时，是包括数据可视化（ Data Visualization ）在内的；其二，狭义的信息可视化是与数据可视化、科学可视化、知识可视化并列的一个领域，特别针对“大规模非空间非数值型的信息对象”而言。数据可视化起源于 1960s 计算机图形学，人们使用计算机创建图形图表，可视化提取出来的数据，将数据的各种属性和变量呈现出来。随着计算机硬件的发展，人们创建更复杂规模更大的数字模型，发展了数据采集设备和数据保存设备。网络上有很多关于此内容的资源，如： 1. http://blog.renren.com/share/229611975/11358441350 人人网的这个强帖汇总了关于数据可视化的较详细的基本知识和技术，介绍了数据可视化相关的引擎/程序/工具和信息可视化的相关方法。然后用大量的篇幅给出了有趣、现代的数据可视化方法，以及一些相关文章、资源和工具，即不同用途下应使用什么类型的可视图，分别在哪些网站获取资源和素材（注：可点击图片获取网站链接）。 2. http://vector.tutsplus.com/tutorials/designing/how-to-create-outstanding-modern-infographics/ 这个网页介绍了“ How To Create Outstanding Modern Infographics”这个话题，以上文最后一个图为例一步步详细介绍了这样的信息图是如何绘制的，用到的工具是Adobe Illustrator CS4。此外，这个网站的 http://vector.tutsplus.com/category/tutorials/ 分类下还有很多教程，如漫画等，用到的工具都是Adobe Illustrator 。 3. http://processing.org/ 这个网站提供的信息图制作方法是——写代码。这样的好处是可以嵌入一些程序设计语言，写代码的过程中就加入图形的绘制，弊端也很显然，比较麻烦，可能很多人不愿意去仔细学。这个网站提供了软件、教程、代码和素材，可以做出比较规范的数学类图形，当然不限于此。先这么整理一下，留着备用。

个人分类: 科研资料|23287 次阅读|14 个评论

IDL画LAB巡天全天中性氢分布图

qianlivan 2010-10-26 11:14

LAB巡天全天的中性氢数据的可视化，对天球作了Mollweide投影，注意tvscl里Startx和Starty以及Xsize和Ysize对于图和坐标线的对齐有关键性的作用。目前程序表示的只是积分强度，尚没有转化为柱密度。 PRO processLAB fitsname='lab.fit';default file name deal,fitsname END PRO deal,fitsname ;Distance = 140.0; distance in units of parcec ;Distance = Distance*3.086d18; distance in units of cm head=headfits(fitsname);read the header of the fits file to a vector bw = fxpar(head,'BW'); band width freq = fxpar(head,'LINEFREQ'); central frequency nx = fxpar(head,'NAXIS1'); number of elements in the first dimension ny = fxpar(head,'NAXIS2'); nz = fxpar(head,'NAXIS3'); crvalx = fxpar(head,'CRVAL1'); reference value of the first dimension cdeltax = fxpar(head,'CDELT1'); increasement of the first dimension ; in units of degree, when calculate physical ; scale, must changed to arcdegree crpixx = fxpar(head,'CRPIX1'); reference position of the first dimension crvaly = fxpar(head,'CRVAL2'); cdeltay = fxpar(head,'CDELT2'); crpixy = fxpar(head,'CRPIX2'); crvalz = fxpar(head,'CRVAL3'); cdeltaz = fxpar(head,'CDELT3'); crpixz = fxpar(head,'CRPIX3'); bzero = fxpar(head,'BZERO'); bscale = fxpar(head,'BSCALE'); ;x=(findgen(nx)-crpixx)*cdeltax+crvalx; ;y=(findgen(ny)-crpixy)*cdeltay+crvaly; ;z=(findgen(nz)-crpixz)*cdeltaz+crvalz; ;area = Distance^2*(abs(cdeltax)/57.3)*(abs(cdeltay)/57.3) ; physical area per pixel ;print, area ;print, area*1.67d-24*weight/2d33 ;a=ptr_new(/allocate_heap) a=mrdfits(fitsname,0,/fscale); read the data cube to an array vchannel=abs(cdeltaz)/1.0e3 ; km/s ;a=readfits(fitsname) ;b=total(a,3); co-add the third dimension ;???? ;vchannel=bw/(nz*1.0d0)/freq*ckm; the velocity width corresponding to a channel ; units in km/s ;b=b*vchannel; intensity integrated with velocity (with unit: Jy km/s) ;???? ;b=b*vchannel; antenna temperature integrated with velocity (units K km/s) ;b=b*vchannel*1.93e3*nu^2*(1.0/3.0)/A; column density (units /cm^2) ; N_l=1.93*10^3*(g_l/g_u)*(nu^2/A_ul)\int T dv ;b=ptr_new(/allocate_heap) ;/for test ;*b=total(*a(1:100,1:100,*),3)*vchannel*1.93e3*nu^2*(1.0/3.0)/Alu*area*1.67d-24*weight/2d33 ; mass distribution in solar mass ;for test b=total(a,3) ;b=a bad=where(finite(b) eq 0, count) if(count gt 0) then b(bad)=0.0 ;b=(b+abs(b))/2.0 ;b=b*vchannel*1.93e3*1.42^2/4.65e-17*(4.0/3.0) b=b*vchannel*(4.0/3.0) b=b/1.0e3 print,max(a) maxb=max(b) print,maxb print,(min(a)-bzero)/bscale colors=200 clrtablelength=colors ;color_array=findgen(256L) ;clevs=findgen(256L) LoadCT, 5, NColors=colors, Bottom=1, /Silent device,decompose=0 ;loadct,5 ;tvlct, , , ,1 latmin=-90 latmax=90 lonmin=-180 lonmax=180 ;position = position = margin=0.12 ;margin=0.5 wall=0.03 xsize=18.8 aa=xsize/8.8-(margin+wall) bb=aa*2d/(1+sqrt(5)) ysize=(margin+bb+wall+bb+wall)*6.8 ;================================================ set_plot,'PS' filename=fitsname+'_TV.eps' ; set the file name of the output ps file device,file=filename,/ENCAPSULATED,/COLOR, BITS=8;,xsize=xsize,ysize=ysize ;tvscl,c(1:1000,1:1000) ;tvscl,b map_set,0,0,/MOLLWEIDE,/ISOTROPIC,/HORIZON,/GRID result=map_image(b,Startx,Starty,Xsize,Ysize,compress=1,LATMIN=latmin,$ LONMIN=lonmin,LATMAX=latmax,LONMAX=lonmax,scale=0.1) result=bytscl(result,Min=0.01) tvscl,result,Startx,Starty,XSIZE=Xsize,YSIZE=Ysize ;tvscl,result ;print,Startx,Starty ;TVimage,BytScl(result, Top=99) ;lons=indgen(360/20+1)*20*(-1)+180 lons=indgen(360/45+1)*45-180 lonnames=strtrim(-lons) ;print,lonnames ;map_grid,latdel=10,londel=20,lons=lons,color=0.30*!d.n_colors,/LABEL,/HORIZON map_grid,latdel=20,londel=20,lonnames=lonnames,lons=lons,$ color=0.80*!d.n_colors,charthick=2,glinethick=3,/LABEL,/HORIZON ;;colorbar,ncolors=256,POSITION= ;ticks=strtrim(sindgen((clrtablelength/5+1)*5)-(clrtablelength/2),2) ;Colorbar, Range= , Divisions=10, $ ;Minor=5, NColors=colors, Bottom=1, $ ;Position=position,Charsize=1,ticknames=tickes timesstr=textoidl('\times 10^{4} K\cdot km/s') Colorbar, Range= , Divisions=10, $ Minor=5, NColors=colors, Bottom=1, $ Position=position,Charsize=1,title=timesstr ;xyouts, 90, 180,timesstr,charsize=1.5,charthick=1.5,color=0;.80*!d.n_colors ;tlb=widget_base() ;labeltext='shit' ;label=widget_label(tlb,value=labeltext,ysize=40,units=0) ;widget_control,tlb,/realize device,/CLOSE ;================================================ ;spectra of each pixel ;print,"enter the coordinate of the pixel you need:" ;print,"ix(1 ~",nx12,")"," iy(1 ~",ny12,")"; ;read,ix,iy; ;plot,z,a ; ;find peak ;(pixel number - crpix)*cdelta+crval END

个人分类: 总结|4784 次阅读|0 个评论

数据可视化国际研究的文献分析

xupeiyang 2010-5-30 07:49

http://www.gopubmed.org/web/gopubmed/ data visualisation 673 documents semantically analyzed top author statistics 1 2 Top Years Publications 2009 65 2007 61 2008 51 2005 50 2002 44 2004 40 2006 40 2003 35 2000 35 2010 31 2001 27 1999 25 1998 23 1995 21 1997 17 1994 16 1993 14 1992 14 1996 13 1990 10 1 2 1 2 3 Top Countries Publications United Kingdom 143 Germany 120 Australia 37 France 35 Italy 32 Netherlands 26 USA 26 Sweden 20 Austria 16 Switzerland 15 Spain 14 Belgium 14 New Zealand 13 Denmark 13 Ireland 11 Canada 9 Poland 9 Japan 7 Finland 7 Singapore 6 1 2 3 1 2 3 ... 14 Top Cities Publications London 26 Cambridge 21 Berlin 16 Heidelberg 14 Auckland 10 Sydney 8 Wien 8 Mainz 7 Paris 7 Oxford 6 Zrich 6 Singapur 6 Sheffield 6 Hanover 6 Manchester 6 Dublin 6 Erlangen 6 Southampton 6 Glasgow 6 Aarhus 6 1 2 3 ... 14 1 2 3 ... 19 Top Journals Publications Bmc Bioinformatics 22 Rofo-fortschr Rontg 22 Nucleic Acids Res 15 Stud Health Technol Inform 15 Eur Radiol 12 Radiol Med (torino) 10 Eur J Nucl Med Mol I 10 Ultrasound Med Biol 9 Proteomics 8 Appl Bioinformatics 8 Comput Meth Prog Bio 8 J Mol Biol 7 Eur J Radiol 6 Cochrane Database Syst Rev 6 Methods Mol Biol 5 Bioinformatics 5 Lancet 5 Sci Total Environ 4 Folia Morphol (warsz) 4 J Environ Manage 4 1 2 3 ... 19 1 2 3 ... 199 Top Terms Publications Humans 450 Patients 240 Evaluation Studies as Topic 178 Animals 134 Adult 134 Middle Aged 123 Aged 104 Algorithms 102 Methods 96 Proteins 80 Diagnosis 74 Sensitivity and Specificity 73 Tissues 65 Tomography, X-Ray Computed 65 Imaging, Three-Dimensional 64 Surgery 63 Magnetic Resonance Imaging 61 Genes 60 Tomography 58 Technology 51 1 2 3 ... 199 1 2 3 ... 151 Top Authors Publications Berman L 4 Gee A 4 Durbin R 4 Yang G 3 Chen Y 3 Oyen W 3 Cross S 3 Falkman G 3 Wrn H 3 Raczkowsky J 3 Prager R 3 Thelen M 3 Hosten N 3 Meinzer H 3 Grevers G 3 Hasenkam J 3 Pedersen E 3 Guthoff R 2 Orchard S 2 Garry R 2 1 2 3 ... 151

个人分类: 知识发现|4498 次阅读|0 个评论

数据可视化经典范例——科学，也可以很艺术（3）

GIS 2009-7-23 01:48

互联网可视化 Mapping the Blogosphere （http://datamining.typepad.com/gallery/blog-map-gallery.html）是一个博客地图的站点。以下是同时使用WWE和ICWSM 2007数据的博客站点连接图。 Twingly Screensaver （http://www.twingly.com/screensaver）实时可视化全球的博客。你可以通过它在你的屏幕上看到全球的博客活动情况（可下载为屏保程序）。 Web Trend Map 4 （http://informationarchitects.jp/web-trend-map-4-final-beta/）可以显示当前互联网的活动情况。 Akami Real-time Web Monitor （http://www.akamai.com/html/technology/dataviz1.html）显示了当前网络流量、反应时间和网络攻击的情况。这个图片是用颜色表示数量，易于阅读，但只是总体情况。 Akami Network Performance Comparison （http://www.akamai.com/html/technology/dataviz2.html）显示了世界上不同城市间网络的丢包情况和网速，还有他们与标准公共网之间的对比情况。 Hierarchical Structure of the Internet （http://www.technologyreview.com/player/07/06/19Rowe/1.aspx）显示了互联网的结构和联通情况。它显示了互联网的核心是由80个核心节点构成的，如果这些节点都被损毁，剩下的节点中还有70%的节点可以通过点对点的方式链接。 Schemaball （http://mkweb.bcgsc.ca/schemaball/?home）将SQL数据库模式进行了可视化。表之间的外来关键字构成关系图。它能够显示几百种不同的表和关系的模式。 Opte Project （http://www.opte.org/）的目的是为了可视化从每个网络节点出发的每种C型网络。总体目标是为了可视化整个互联网的连接情况。第三回完

个人分类: 数据可视化|9057 次阅读|0 个评论

数据可视化经典范例——科学，也可以很艺术（2）

GIS 2009-7-16 08:14

Digg, Twitter, Delicious, 以及Flickr数据 Looks Del.icio.us 收集了不同的美味书签可视化结果。这些图片是在 Python 图形库和版面设计引擎的基础上生成的。 Arc 是由 Digg 最新标签数据生成的，还包括了提供和使用标签的用户的关系图。有两种不同的加速模式，较慢的模式比较适合用户确实想读故事标题的情况。 Stack 可能是 Digg 提供的最有用的可视化工具了。通过实时的数据可视化可以看到什么故事（文章）是目前最受欢迎的。当在stack的显示条上点击的时候，马上会在stack下面显示点击条目的信息。 Swarm 拥有一个非常酷的界面，你可以看到各种故事和用户在屏幕上飞，当有人digg一个故事的时候，那个故事就跟digg它的用户短暂的联系起来，每个故事都可以点击并显示相关信息，还可以将Swarm下载为桌面保护程序。 Research Chronology 可以通过学期课程的书签显示一个学生的研究路线，目前正处于开发中，已经包含了大概270多个网站的书签。 TwittEarth 在一个3D的地球上显示了在线 Twitter 的用户，可以实时的看到Twitter的用户的使用情况，盯着看数据的变化实在是一种享受。 Tag Galaxy 是一个可以搜索 Flickr 标签并可以在星际模型中虚拟显示的应用程序。在任何标签上点击都可以即那个该标签设置为中心的星球并将其他标签设置为行星。以下是输入 LOVE 为初始Tag时的显示 Flickr Related Tag Browser 允许你搜索一系列的标签并查看相关的标签。在不同的标签上点击即那个会产生新的相关标签，可以进行缩放。第二回完 PS：博客的编辑功能中，添加链接的编辑工具有待改进，Target 的默认值应该为空白（第二、三、四个），弄了好几次都没有成功，最后才发现是Target的设置问题。另外，上传图片也太慢了。。。

个人分类: 数据可视化|7501 次阅读|0 个评论

数据可视化经典范例——科学，也可以很艺术（1）

GIS 2009-7-16 01:08

按语：将实时在线数据在头脑中再现是一件十分困难的事情，尤其是在处理大量信息的时候。查找相关互联网中的概念也并非易事，这取决于你要查找的数据。数据可视化（data visualization）可以将这些任务变得简单，可以通过一种简单的方式展示你要了解的概念及其相关概念之间的关系。本博客将陆续展示出50个经典的数据可视化的范例和工具，这些范例涵盖了很多方面，包括 Digg 活动、互联网连通性能和 Twitter 上正在发生的事情。本系列译自： http://www.webdesignerdepot.com/2009/06/50-great-examples-of-data-visualization/ ---音乐、电影和其他媒体 Narratives 2.0 是一个可视化音乐的工具。不同的音轨被分为不同的单音道，随后被显示为如下的扇状结构。皇后乐团《We will rock you》贝多芬第五交响乐 Liveplasma 是一个音乐和电影的可视化应用程序，它能帮助你找到其他你可能喜欢的音乐或电影。输入乐队、艺术家、电影、导演或演员的名字，Liveplasma将显示出相关的人员、乐队或电影。比如，输入Tom Hanks，按actor后就会显示出他出演的相关电影 Tuneglue 是另一个音乐可视化服务，在搜索栏中输入乐队或音乐名后回车，图像中圆圈代表乐队。点击任何圆圈就会以他们为中心再次进行相关搜索。点击releases按钮将会转到Amazon上的专辑专卖。 MusicMap 跟 Tuneglue 在界面上类似，功能上似乎更直观。 Last.Forward 是一个可下载的开源工具，可以用来可视化任何Last.fm用户的关系网，包括跟其他用户之间的关系。 Fidgt 是一个使用 Flickr 和 Last.fm 标签的桌面应用程序（可下载），它可以帮助你可视化你的网络关系以及他们的标签标注活动。你可以通过不同的标签和内容看到每个人的网络偏好。第一回完

个人分类: 数据可视化|9675 次阅读|0 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: 数据可视化

相关帖子

相关日志

关闭 安全验证

标签: 数据可视化

相关帖子

相关日志

关闭安全验证