科学网 › 标签 › 数据采集

标签: 数据采集

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

七谈智能+X的基本要素和实施路径---过程数据采集业或将异军突起: 热度 1 jyx123321 2020-2-28 22:50; 在 2020 年 2 月 25 日写了科学网博文《六谈智能 +X 的基本要素和实施路径 --- 牵着牛鼻子走》，被科学网选为了精选博文。网页链接如下： http://blog.sciencenet.cn/home.php?mod=spaceuid=99553do=blogid=1220342 最近几天硕士研究生和专升本全部扩招、教育和人力资源部门尽力扩大就业的消息较多。索性，在近期六谈智能 +X 的基本要素和实施路径的基础上，谈谈制造业的发展趋势可能引起的就业变化吧，希望抛砖引玉，集思广益，推动制造业的发展和就业岗位的新增。在 2020 年 2 月 1 日我在科学网博文《为某公司员工在家学习准备的资料以及写在前面的话》里，曾自问自答： “ 作为这样一个剧烈影响全国的重大疫情事件，将急剧催生怎样的产业大发展？我的个人意见就是以智能物联网为基础的产业大发展，例如智能服务机器人（可以直接全面地照顾病人、极大幅度减少医生和护士工作量）、工业智能机器人、智能无人驾驶、工业互联网、黑灯工厂、智慧城市、智能检测和健康评估。如果在这次疫情之前，大家还认为这种应用场景并不急需、市场需求还不足够大的话，我认为这次疫情就给出了直接、全面、有力的肯定回答。我还相信，在工业互联网时代，将剧烈地改变工业生产方式，其应该比消费互联网影响线下消费更加剧烈、影响更加深远 ” ，网页链接如下： http://blog.sciencenet.cn/home.php?mod=spaceuid=99553do=blogid=1216464 这种以智能物联网为基础的产业大发展真的能在近期实现吗？就从近期各个部门陆续出台的政策和规定看，更加坚定了我的上述看法。大致原因如下：这些年，在信息、控制、计算机、人工智能学术界，来自数学专业的人才似乎很多，各种新算法和新模型层出不穷，相应地，我国在国际著名期刊上发表了大量的基于各种新算法和新模型的信息、控制、计算机、人工智能等专业论文。今后，如何把其中的适用先进算法和模型应用于制造业从而直接产生可观的经济效益，将是相关研究人员的主流努力方向。因此，智能制造在制造业赖以发挥作用的适用先进算法和模型将不再是大的问题。类似地，这些年传感材料及功能器件研究纷繁复杂，相应地，我国在国际著名期刊上发表了大量的先进传感材料及功能器件研究论文。今后，如何把其中的适用先进的传感材料及器件应用于制造业从而直接产生可观的经济效益，将是相关研究人员的主流努力方向。因此，智能制造在制造业赖以发挥作用的适用先进传感技术及装备将不再是大的问题。随着“两化融合”基本政策的持续推进，制造工艺过程以及使役承载过程的数值模拟技术在这些年得到了快速发展，大量的中、大型工业企业建有计算机模拟仿真部门，在高校院所里更是有相当多的师生从事模拟仿真研究。如果把分布式、多物理量、准确可靠、实时在线的低成本工业监测技术用于工业过程模拟仿真的输入条件、中间结果和最终结果的全面量化评估，则可以大幅度地提高计算机模拟仿真技术的精确度和可信性，从而就能以计算机模拟仿真作为工业过程数据采集的重要手段，低成本、高质量、格式化地按需生成人工智能赖以发挥作用的训练大数据，进而使得人工智能的低成本预测能力、预测精度和预测速度得到切实保证。众所周知，我们国家是制造业大国，很多种类产品的产量是全球遥遥领先的。而每种产品的制造过程往往涉及多个环节，且产品经常更新换代。相应地，就会长期持久地需要极大量的工业过程数据采集人员，从而使得智能制造能落实到各种制造过程的各个环节且能根据需要更新换代。因此，相对于比较规则化的有限算法的从业人员，在工业过程一线从事传感检测的人员数量要大得多，而工业过程数据采集人员数量则更加庞大，从而满足各种工业过程的各个环节的高质量、低成本的大数据需求。一家之言，请各位有识之士批评指正！后记：今天看到了科学网新闻《今年硕士生扩招 18.9 万，向这些专业倾斜》，其中，特别指出 “ 投放到什么专业为主，除了培养能力以外，我们还要看社会需求，几年后就业不成问题，主要投放在服务国家战略和社会民生急需的领域，现在这些领域都是非常缺人才的。研究生计划增量，重点投向临床医学、公共卫生、集成电路、人工智能等专业，而且以专业学位培养为主，以高层次的应用型人才专业学位为主 ” 。深以为然！详见网页链接： http://news.sciencenet.cn/htmlnews/2020/2/436379.shtm; 个人分类: 未分类|4759 次阅读|3 个评论

THE 2015-2016世界大学排名方法: idmresearch 2016-4-6 15:09; 泰晤士高等教育报（THE）通过研究、知识转化、国际视野、教学环境等因素来评估大学核心使命的这种世界大学排名方法已广为人知，其主要是对全球研究型大学进行排名，每所大学的总体得分是根据五个类别13项指标计算而来。3月31日，泰晤士高等教育报完成了2016年世界大学排名的高校数据采集工作，我们根据官方提供的排名方法信息，第一时间关注2016年THE世界大学排名方法。一、对象的筛选进入排名的大学需要基本的条件： 1. 首先要进行本科生教育； 2. 在过去四年中每年的平均研究产出或论文数不低于200篇。除了在一些专门的领域或学科，例如艺术学、工程学，这些会给予特殊考虑被纳入排名中。二、数据收集由各高等教育机构自主提供排名所需的材料与数据资料。一旦其提供的资料不能较好或只能低效的反映指标时，我们会在该指标的平均水平和其已反应的水平之间进行保守估计，这样做的好处是避免了数据“零”的出现，使其对机构最终得分的影响减小，同时又突出机构提供的该指标数据的低效。三、最终结果的获得除了学术声誉调查之外，每一个指标都对应一系列可测量的具体的数据点，通过收集各指标的数据点我们就可以得到每一个高等教育机构的总得分，这是排名中至关重要的一步。因此，在得到总分之前，我们要做的就是将数据与分数匹配、对应。为了使这一过程更科学、客观，我们进行了数据标准化处理，其中使用了Z-SCORE标准法，这一方法又是建立在数据累计分布函数上。四、5大类别及13项指标（一）教学环境（30%） 1 教学声誉调查结果（15%）； 2 教师与学生的比例（4.5%）； 3 大学授予博士学位与学士学位的比例（2.25%）；大学授予博士学位的数量及其学术人员的比例； 4 大学的收入（2.25%）其中博士授予的数量纳入到学科视角进行标准化处理，因此这一指标在一定程度上代表其机构教学的水准，这对硕士生来说具有很大吸引力，同时也能在一定程度上反应该机构独特的学科交叉与知识密集程度。（二）研究（数量、收入和声誉）（30%） 1 声誉调查结果（18%）； 2 大学的研究收入（6%）；这一标准有一定的争议，因为收入的多少在一定程度上依赖政治、经济环境的和谐，同时还需要剔除因学科不同导致的经费数额差异，但是其对世界一流研究型大学的形成与发展来说又至关重要的因素。 3 教师在学术期刊上发表论文的人均数量（6%）；该指标是以爱思唯尔的scopus数据库中的资料为基础，一定程度上能够反映机构中教师在同行评议期刊上发表文章的能力。（三）论文引用数（研究的影响：大学研究的影响力，发表论文被学术界引用的次数）（30%）研究影响力主要指在大学在传播新知识、新想法时的能力与表现。这一指标能够帮助我们了解大学为人类知识的传承、创新做出了怎样的努力与贡献；让我们看到最卓越的研究结果；更重要的是能够让全球科学界共同前进，探索新的知识边界，发掘新的研究视角。我们通过搜索一段时间内的大学出版的并由全球学者引用文献报告数，与引用相似类型和主题的出版物预计将有数量进行比较。今年以来，我们的文献计量数据供应商爱思唯尔提供了在5年内51万条以上的引文资料。这些数据信息由ElsevierSCOPUS数据库收录的23000学术刊物导出得到，包括2010年至2014年出版的所有收录期刊，只对其中三种类型的出版物进行了分析：期刊论文，会议论文和评论。在过去几年中，我们一直致力于进一步规范引文数据，数据源变成了Scopus，由于其对非英文文章较为敏感，为区分高校的研究产出数量及质量打下基础，使我们能够更进一步变得规范化。（四）、国际综合指标（7.5%） 1 国际学生与国内学生的比例（2.5%）； 2 国际教师与国内教师的比例（2.5%）；能够吸引来自全球的硕士、博士、或教师的能力，是反映一个机构全球化水平的重要标志。 3 国际合作论文比例（2.5%）（五）、企业创收（创新）（2.5%） 1 大学从企业获得的研究收入和学术人员的比例大学帮助企业进行创新、创造已经变成当代大学的核心任务，这项指标在某种程度上反应高校的社会服务能力。补充：每年开展的有关教学、研究的声誉调查（Academic Reputation Survey）其本质是使用同行评议的方式，由泰晤士报挑选他们认为合适的学者，其中2015年的这次调查中有来自142个国家的10507名被访者，使用15种语言组织发放问卷由学者评出各自研究领域的顶尖大学。这一方式有其优势也有其劣势，因此经受热烈讨论。（编译：李维维，资料来源： https://www.timeshighereducation.com/news/ranking-methodology-2016 https://www.timeshighereducation.com/world-reputation-rankings-2015-methodology ）; 个人分类: 智库评价|3821 次阅读|0 个评论

[转载]Getting and Cleaning Data: rbwxy197301 2014-12-21 10:41; 获取和整理数据 https://www.coursera.org/#course/getdata 隶属于 “Data Science” 专项课程 » 学习如何从多种来源获得和整理数据。这是约翰霍普金斯大学数据科学专项课程的第三课。课程概述在进行数据工作之前，你要先有一些数据。这门课将介绍获取数据的基本方法。这门课将介绍从网络、API、数据库或你的同事那里获取不同格式的数据。我们还会讲解数据整理的基本知识，以及如何让你的数据变“整齐”。整理数据将大幅提升接下来的数据分析工作的速度。这门课还会讲解一个完整的数据集的组成部分，包括原始数据、处理方法、代码书、及已处理数据。这门课会覆盖收集、整理和分享数据所需的基本知识。请注意：这门课程现已推出中文版，2015年1月5日开课，与英文版同时进行。如果感兴趣，请在班次列表中选择“1月5日 2015 - 2月2日 2015 (中文版)”。授课大纲完成课程后，你将能够从多种来源获取数据。你将知道整理数据和数据分享的原则。最后，你将理解并能够应用数据整理和操作的基本工具。先修知识数据科学家的工具箱, R语言程序开发授课形式每周课程视频、测验和最终的同伴互评项目。作为本课程的一部分，你需要设置GitHub帐户。Github是一种工具，用于共享和修改协作代码。在学习本课程及本专项课程其他课程的过程中，你需要提交自己公开放置在Github帐户下的文件链接，作为同伴互评作业的一部分。如果你担心自己的身份被他人得知，那么你需要注册一个Github匿名帐户，并且，切记不要添加你不想让评估的同学看到的信息。; 个人分类: 文章转载|1920 次阅读|0 个评论

什么是定制软件开发？: jintuwl 2014-5-23 11:06; 定制软件开发是指开发软件，迎合某公司或个人的具体需要和要求的过程，或是行业网站建设，或是企业网站建设。它使企业能够创建一个软件，这是特别适合自己的流程和环境。公司总是会想出有创意的想法，会让他们在特定的行业领先。随着我们的世界对技术要求的提高，定制软件开发被视为关键在促进业务,推动他们高于其竞争对手和给他们一个额外的优势。使用自定义的软件开发企业为了生产高效率和高质量的输出，在他们的领域的业务，销售，库存管理，信息的存储和分配，数据采集等增强实力。选择定制的软件开发资讯公司是至关重要的。除了提供必要的软件，好的公司应还应该能提供担保以及对其所开发的产品和网站开发平台提供全面的技术支持。他们应该确保他们的产品是可靠的,质量是良好的,以满足用户的需求。一个软件开发公司也有乏味的任务，比如一次又一次的测试和修改他们的产品,以确保他们完美适应的软件交付给客户。不断的沟通也很重要，使客户软件开发资讯公司和用户公司之间的关系从头脑风暴阶段到发展阶段。在一个软件开发公司，对比只生产供大众消费的商业软件的公司;定制软件开发公司需要施加更多的努力。更多的时间和精力投入只是为一个特定的用户或公司输出更好的软件。商业软件制造商只涉及创造单个周期产品和其他的工作去生产、营销、维护和开发,定制软件制造商创建的产品涉及多个周期的都不同于另一个。一个定制的软件比现成的商业软件更贵。它作为一个更加复杂的市场营销和工程阶段，还需要一个过程更艰难的研究和开发。一个优化充分，完全定制的软件，将使公司能够产生更好的结果和更高效的服务。最后，定制软件开发带来的好处远远超过其成本，这就是为什么它是一个伟大的投资促进业务。 http://www.jintuwl.com/; 个人分类: 网络开发|12 次阅读|0 个评论

CNKI参考文献进展: 热度 2 mpcer 2014-4-24 11:58; 近期计划研究一下如何把知网CNKI的参考文献采集出来，供citespace可视化软件做分析用，不知大家有没有需要？有什么好的建议，请分享出来！知网客服回复:“目前知网没有提供参考文献这一字段的导出,不过已经反馈给研发部门,但是无法提供具体的时间表,非常感谢您的关注与反馈！”，看来还是wait!; 个人分类: IT研究|3501 次阅读|2 个评论

2013年12月研究生访问最多的网站排行榜（据趣满网监测数据）: cheverny 2013-12-30 14:24; 2013年12月的“趣满网首页展示网站点击率排行榜”新鲜出炉（数据采集期为 2013年12月1日至12月29日）。趣满网是专为科研工作者和研究生创建的网址导航站点，该网站致力于发掘互联网资源，分享优秀网站，提供优质便捷的科研学术上网导航服务。名次网站名称点击数聚焦度第1名小木虫 5175 21% 第2名知乎 1773 7% 第3名科学网 1148 5% 第4名谷歌 802 3% 第5名谷歌学术 772 3% 第6名百度 704 3% 第7名人人网 567 2% 第8名糗事百科 483 2% 第9名中国知网CNKI 445 2% 第10名淘宝商城 438 2%; 1825 次阅读|0 个评论

国家大气背景监测站青海门源站简介: zhaoxudong 2012-6-19 00:21; 国家大气背景监测站青海门源站根据环保部统一部署，中国环境监测总站在青海省建设一个国家大气背景值监测子站。该站位于青海省门源县皇城乡磨石达坂山山顶，海拔：3295m。建设情况国家大气背景站青海门源站于2012年3月完成仪器设备及数据采集传输系统的验收。该站监测区占地0.53公顷，其中监测区站房建筑面积为248.6 m2，工作区站房建筑面积298.42m2，其余场地为缓冲区，防止人员、牛羊靠近影响空气质量。监测区和工作区分别建成一层办公楼两栋，基础形式为独立基础，站房顶部为能够支撑监测设备、采样设备及人员活动的现浇钢筋混凝土平顶屋面，工作区建筑高度4.05米，监测区建筑高度7.05米。监测区为空气自动监测机房及办公用房，能够满足将来扩展的需要。站房具有良好的密封性，具备防腐蚀、抗风、防渗漏、隔热保温功能。背景站系统构成该站主要有下列基本系统构成：（1）采样系统；（2）分析仪器；（3）数据采集传输系统；（4）通讯系统；（5）站房及辅助设施仪器设备该站是一个独立完整的系统，具备自动采样、自动分析、数据采集与处理及传输功能，仪器设备情况如下：自动监测采样系统、SO2分析仪、NO2（NO、NOx）分析仪、CO分析仪、O3分析仪、气五参数象分析仪、 N2O分析仪、CH4分析仪、CO2分析仪、PM10分析仪、PM2.5分析仪、数据采集软硬件设备与传输软件、多参数动态校准仪、高纯度零气发生器、稳压电源、恒温装置、UPS电源及系统安全保障设备。测试项目 SO2、NO、NO2、NOx、CO 、O3、PM10、PM2.5、N2O、CH4、CO2、及气象五参数（气温、气压、风向、风速、湿度）中国环境监测总站先期建设了14个区域国家大气环境背景监测试验站，主要选址在我国有代表性的地区，包括福建武夷山、内蒙古呼伦贝尔、山东长岛、青海门源、西藏纳木措、吉林长白山等。青海门源站的建成，实现了对有代表性区域空气质量状况和变化趋势的监控及通过数据积累和综合分析，掌握主要污染物输送特点、变化规律，适时反映我国青藏区域大尺度环境空气质量状况，为制定国家环境管理政策提供了科学依据。托管单位为青海省环境监测中心站，主要负责为自动监测室，将打造为国家环境管理服务，为国家、国际科研服务的背景监测综合站。提升我国在国际的大气成分背景值观测水平及地位。中国环境监测总站站长罗毅视察青海门源站; 7325 次阅读|1 个评论

跨学科合作是牛人们的专利吗？: 热度 12 SNPs 2012-6-15 10:54; 跨学科搞科研合作到底是风险还是机遇？成功希望大还是失败的可能性大？应该如何着手？跨以前需要在本学科做“精”吗？有人认为跨学科合作是只有那些“大牛”们才能干的，似乎只有那些在一个学科已经很有建树的人才能召集起跨学科合作。其实不然，跨学科合作最关键的不是在本专业的建树，而是和“外行”交流的能力。拿研制原创的科研仪器来说，就需要生命科学家和工程师合作，而且需要生命科学方面懂核酸提取，（多重）扩增，和检测等各个环节的人去和电子工程师，机械工程师，光学工程师，及软件工程师等合作。这么广泛的合作就有两个很明显的问题：（1）简单明确地交流不同的概念，让大家都非常清楚。（2）融合团队内不同个性的人，同心协力。生命科学领域有很多实验值得进行自动化，所以有许许多多的仪器可以去研发。可是到底研发出来以后有多大的市场？这其实是一个非常关键的问题。我们Huntsville市有一家研发仪器的生物技术公司， InQ Bioscience , 研发出了一个全自动细胞培养，监视和实时数据采集仪器。研发这么复杂的仪器首先需要科研人员确认市场上的确有这个需求，然后把需求的细节讲给工程师们听，在设法实现每个步骤。我们 iCubate 仪器的开发也是如此：首先有一个Design Input，一个市场需求（全自动分子诊断），可是如果这个需求判断得不够好，只把自动化做了一部分，不是一个完整的解决方案，那产品的命运就会有问题。即使是产品研究出来以后，还有很多的解释工作要做。对那些对需求观察很敏锐的人来说，不用你多说他们就已经迫不及待地要拥抱你的发明了。可这样的人毕竟是少数，大概2.5%, 等10%以上的人喜欢你的创新产品时，企业的存活就比较稳定了；等15％的人使用你的技术的时候，也就赢利了。跨学科合作不是牛人们的专利，相反，许多牛人因为脱离了实验第一线，对技术细节的市场需求已经不清楚了。倒是那些整天忙在第一线的人才更清楚市场。跨学科合作能否合作成要看交流是否通畅，而合作成就的大小看对市场的判断。成功到来的速度也要靠研发团队去宣传，广而告之，让更多的先驱者参与。不过，我最近发现一个有趣的现象：技术先驱可能不是最好的技术传播者。那些最先使用先进技术的人（比如那些首批购买了 iRepertoire 试剂做免疫组库测序的人）总是希望能独霸领先多一段时间，所以他们一般不会去做“口口相传”的事。这就更增加了我们做创新产品推广的难度。跨学科合作对合作双方来说都提供了一个前所未有的机遇，风险看上去很大，其实比在自己本专业“混”更容易出成果。原因很简单，去合作的人毕竟不多，竞争的强度相对就比较弱。1+1＝10, 这样的机会真的不多。参考博文：新技术推广过程中的一个鸿沟; 个人分类: 生物技术创新创业|7759 次阅读|11 个评论

[转载]基因调控网络: shaojingping 2011-12-12 22:23; 随着基因组学的发展，在短时间内可获得生物体基因表达的海量数据，这为研究和揭示基因及其产物之间的相互关系，特别是基因表达的时空调控机制奠定了基础。基因表达的调控不是单一的，孤立的，而是彼此联系，相互制约的，构成了复杂的基因表达调控网络。几乎所有的细胞活动和功能都受基因网络调控。孤立的研究单个基因及其表达几乎完全不能确切地反映生命现象本身和内在规律。因此，科学家必须从系统的观点研究多基因的调节网络，才能阐明生命的本质和疾病发生的机理。因此，基因调控网络是后基因组时代研究的重要课题。基因调控网络研究，离不开生物信息学和系统生物学。运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的网络关系，揭示有关的作用机理，是当前生命科学的热点之一。到目前为止发展了很多研究基因网络的方法，包括随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等。基因网络研究的目的是通过建立基因转录调控网络模型对某一个物种或组织中的全部基因的表达关系进行整体的模拟分析和研究，在系统的框架下认识生命现象，特别是信息流动的规律。调控可在分子水平上分为三个层次：DNA水平、RNA水平和蛋白质水平。DNA水平主要是研究基因在空间上的关系影响基因的表达；RNA水平上，也就是转录水平上的调控，主要研究代谢或者是信号传导过程决定转录因子浓度的调控过程；蛋白质水平主要研究蛋白质翻译后修饰加工，从而影响基因表达的活性和功能。基因的网络分析是生命信息挖掘的重要手段之一，但目前在许多方面尚处于尝试和探索阶段。大量模型不断涌现，各种数学工具不断引进，这为网络调控模型的构建创造了良好的数学理论基础。随着基因数据的不断扩展以及数据质量的进一步提高，基因调控网络建模的准确性将得到进一步提高。随着后基因组学的不断发展，基因调控网络必然会在生命科学的研究中发挥巨大的作用。这里，我们收集了近年来一些有关基因调控网络研究的综述和论文，供大家参考。更多文献可参考 399 、 418 等特别报导，并可用networks关键字在CMBI中进行查询。; 个人分类: 科研动态|917 次阅读|0 个评论

中建一局四公司幼儿园网上报名网址: flyman 2011-11-7 21:08; 上百度找了半天，终于找到了。名字叫“ 中国建设发展公司幼儿园网上报名数据采集系统”，网址是 http://zgjsfzgs.yeyzs.bjchyedu.cn/; 个人分类: 生活点滴|4149 次阅读|0 个评论

Partial network coding: concept, performance, and applicatio: hongyanee 2011-10-23 09:16; 无线传感器网络很多情况下需要在严酷的环境下生存。很多应用中，需要持续的感知数据，由服务器间歇的收集数据。因此，传感器节点不得不临时存储数据，为服务器提供简单、随手可取的最新数据。由于服务器与传感器节点之间的通信资源昂贵，大量的传感器，还有每个传感器的有限存储空间，持续的数据采集就是一个很有挑战性的问题。文章提出了 partial network coding ，作为这些问题的通用解决方案。 PNC 为持续的数据有效的数据存储。 1. 无线传感器网络包含了大量的传感器节点，配置在一个开放的环境中，而且没有传统的无线或者有线网络支持。由于无线传感器有限处理和存储能力，大量的传感器需要协同工作完成数据采集、存储和收集，需要一个代理或者基站（本文称为服务器）作为中间的网关。在严酷和极端的环境下，服务器与节点之间的通信是很昂贵的，所以要有间隔的收集数据；而且数据收集在安全目标下，快速的执行。当前的数据采集技术是，服务器向 root node 发送查询请求， root node 向 sensor node 广播请求，然后将 sensor node 的数据路由到 sever 。这样的技术有两个缺点：引入了很长时间的时延， root sensor 由于需要上传大量的数据会比其他 sensor node 更快耗尽资源；在很多情况下，一些部分传感器网络可能会接入失败。为了解决上述问题 Dimakis et al. 提出了一种方案。在这个场景下，数据冗余地存储在传感器网络中，服务器只要随机的接入 (blind access) 一些传感器节点检索数据。但是这样的解决方案又会引入大量的重复。而冗余管理需要一个 central entity 产生码字，分发给存储的位置。在传感器网络中，这样的方案不可行。 Dimakis et al. 提出了 random network coding ，可以分布式的在各个节点上管理这些数据。所有的数据线性组合，只要得到和节点数目相同的组合，就能够恢复原来的数据。但是这样的解决方案，也有两个缺点：不能移除过时的数据；收集所有的数据会花费大量的功耗，而且收集的数据越多，需要查询的节点就越多。 2. 传统的 network coding 将每个 node 的数据线性组合，存储在每个节点中，每个线性组合都是 full cardinality 。如果有 N 个数据，那么只要获得任意的 N 个线性组合就可以恢复出原有信号。我们很容易将新的数据增加到原有的数据段中，但是想把过时的数据移除就是不可能的工作了。 Partial network coding 借鉴了 network coding 线线组合的思想，存储在每个节点中，每个线性组合都是 arbitrary cardinality. 测量矩阵可以看做是一个上三角矩阵。编码过程是一个增量的过程，将新到的数据加到原来的线性组合中去。解码过程由服务器通过 Gaussian Elimination 完成。 “Partial network coding intrinsically manages the cardinality of combined data segments by setting some of the coefficient to zeros”. 理想的系统中，线性组合 cardinality 越高，数据恢复的概率就越大。 If cardinality is full ，那么足够的线性组合数据恢复的概率为 100% ，但是就退化为基本的 network coding 了。一旦新的数据到达，就要删除原来的所有线性组合为新数据腾出空间。这样的方案只能向服务器提供最新的数据。 ”we consider the performance of PNC with a uniform cardinality distribution throughout the life time of the system”. Data replacement algorithm is showed as follow. 当新数据到达，如果对应线性组合的 cardinality N ，那么将新数据组合到原线性组合中；如果对应线性组合为 N ，那么丢弃原线性组合，将新数据作为新的线性组合。这样的更新算法天然地保持了 cardinality 的 uniformity. 3. 性能分析和改进 Partial network coding 的性能不会比 Non-network coding 差。与 Network coding 比较。 Network coding 只要接收到 N 个线性组合，就可以 100% 的恢复源数据。但是 Partial network coding with a uniform cardinality distribution ，最新的数据和最旧的数据出现的概率也不同，最新的数据在每个线性组合中都有，而越旧的数据出现的机会就越少。所以 PNC 的解码概率低于 NC 。如果我们将每个传感器的缓存修改为 root(N)+1 ，（这里 root 是指平方根），把线性组合的 cardinality 扩展为 N+root(N) ，那么解码的概率可以提高到 100% 。 4. 计算量和通信的 overhead PNC 在传感器节点上的计算量并不大，只是生成一些系数并将新数据组合到原来的线性组合中，所有这些操作都很简单而且功耗很低。通信的 overhead 比起数据量来说很小，而且比其他方案也有优势。减少通信 Overhead 的方式是 polynomial interpolation ，把一个随机数的 0 到 N 次方作为一个线性组合的系数，那么只用传一个系数，而不是传 N 个系数。 5. 多种数据类型两种解决方案：每个传感器的缓存中都存放不同类型的数据；或者将不同类型的数据分配到不同的传感器子集中。前者容易造成数据不完整，当缓存比较小的时候；后者可以解码特定类型的全部数据，也可能一起不能解码其他类型的数据。由于这种 all-or-nothing 的特性，为了保护重要数据，在系统中增加一个重要性参数。越重要的数据，就用越多的传感器来保存，就可以以更高的成功率收集这些数据。 5. 协同或分布式实现前面假设每个传感器的缓存空间都是足够的，但是如果传感器缓存空间不够前面的方案就不能实施了。为了解决这个问题，传感器需要协同工作，提供联合数据段。; 个人分类: 笔记|4373 次阅读|0 个评论

无线传感器网络中的多会话数据采集—Compressive Data Gathring: hongyanee 2011-9-27 22:53; Multi-Session Data Gathering with Compressive Sensing for Large-Scale Wireless Sensor Networks 这篇文章研究大规模无线传感器网络的数据采集方法，许多先前的研究者将数据采集容量的研究集中在“多对一”的方案上，但是我们研究的是多个会话的数据采集方案，网络中的一些节点作为 sink ，每一个 sink 有一个节点集合进行数据采集。这种范例的分析很有意义，因为现实世界中需要采集多种数据，需要不同的节点。在多播的场景中，一个节点将相同的数据发送给多个目的节点；而在多会话的数据采集场景中， sink 节点需要从所有它的传感器节点中接收不同的数据，使得最后一跳成为一个容量的瓶颈。由于压缩感知的引入，将数据采集容量的分析简化为一种与多播类似的情况。同时压缩感知可以在每个数据采集会话中获得 k/M 的容量增益。这篇文章的系统模型依然采用 Compressive Data Gathering 的方式，但主要集中于多个会话采集时的容量，把容量分析简化为多播的情况。; 个人分类: 笔记|3316 次阅读|0 个评论

如何安全搭乘扶梯和地铁: majian 2011-7-9 16:05; 如何安全搭乘扶梯和地铁北京和深圳自动扶梯的两次惨痛教训让人扼腕，这几天媒体都在反思重载扶梯的安全标准、重载扶梯的适用及管理问题，希望有助于以后安全性的提高。确实，对于我国公共场所的高人员密度，怎样确保行人安全，本质安全当然最为重要。不过，最近在地铁做数据采集的工作，发现了一些现象，比如，很多人会拖着大件行李搭乘扶手电梯，因为走去搭乘电梯要多走一段路，确实于己方便了，但带来的是不小的隐患。找到了凤凰网上的一些图片，普及一些常识，从你我做起，希望大家都可以平平安安。 http://bbs.health.ifeng.com/viewthread.php?tid=7284888photoId=0; 个人分类: 百家|3577 次阅读|0 个评论

人口个案信息数据采集应该有所规范: wya 2010-8-31 10:54; http://news.qq.com/a/20100830/000718.htm 中称: 查明是个别小区居民不了解入户核查流动人口和出租房屋基础信息的管理员，误认为是有人冒充人口普查员，以致发生误会。入户核查流动人口和出租房屋基础信息的管理员属于哪个部门的执法人员？其入户调查的权利由什么文件或法规赋予？是不是任何政府部门都可以以各种名义上门登记居民的个人信息？这些应该有所规范，否则公安、计生、房管、民政、卫生、劳动保障等部门管理人员对居民的骚扰会不厌其烦，无拘无束，毕竟这些个人信息背后的经济价值和科研项目收益不可小视！普查员身着统一服装、佩戴统一证件、手持由北京市第六次全国人口普查办公室印制的《中国人口普查承诺书》进行入户调查。统一服装什么样？统一证件什么样？有何防伪措施？应该以图片形式予以张贴公告，便于大家识别。我曾在小区看到有穿白色T恤，印有人口普查和**保险公司或银行的管理人员上门登记，不知他们的服装是否是规定的样式？建议好好学习一下澳门进行的人口普查试调查的张贴画设计，服装、标识、背包等都在上面印着！主要核对和登记户籍等基本信息，不涉及其它内容。户籍等基本信息和其它内容是否在范围上重叠？建议好好学习一下语文常识和公文写作，明确一下户籍等涉及的具体数据项，以免个别部门搭车收费，利用人口普查之机和宽泛、无限制的登记名目，收集职责之外的个人信息。这样的报道说了等于没说，看了也等于白看。居民对于入户核查流动人口和出租房屋基础信息的管理员依旧不知如何对待，是拒绝还是配合？对统一服装、统一证件依旧不知是何样子？对什么是户籍等基本信息，哪些又属于不涉及的其它内容还是没法分辨！可见，行政能力和职业素养亟待加强！; 个人分类: 社会观察|4323 次阅读|0 个评论

互联网、数字人文与网络数据采集: limer 2010-2-16 16:08; 近几年来，人文社会科学研究环境发生了重大变化，电子文献代替了印刷文献，计算机检索代替了人工统计，研究过程和研究工具的数字化不仅提高了人文社科的研究效率，还拓展了人文社科的研究范围，并在一定程度上改变了人文社科研究的模式。特别是互联网出现以后，大众媒体、网络交流、社会性网站等新事物的陆续出现极大的丰富了人文社科的研究内容和研究方法，例如利用国外知名媒体网站上采集的新闻信息进行中国国际形象的评估研究，事件信息传播路径分析，地区形象监控，品牌用户评价等等，这样的研究在印刷时代是成本高昂的，而在互联网时代就没有任何障碍。互联网正在成为一个绝佳的人文社科研究数据源，研究人员不仅可以利用互联网共享学术信息，还可以直接采集一手的网络用户行为数据，由此还导致信息物理和人类行为动力学这样的新兴交叉学科的兴起。当然，对于传统的人文社科研究者来说，互联网最大的功劳还是方便了数据获取，各种学术网站、新闻网站、个人网站、专业网站等等，提供了大量的研究素材，研究者利用搜索引擎和数字图书馆几乎可以找到任何想要的数据和文献信息。然而，当人文社科研究者想要获得面向特定领域的数据集时，例如英国各大报纸所有涉及中国的报道这样的数据，或者政府对某一突发事件发布的所有信息搜索引擎就无能为力，研究者要么自己手工下载，要么采用专业的网络信息智能采集软件。手工下载成本高昂，特别是随着人文社科研究的数据集规模越来越大，研究者越来越需依赖于网络信息智能采集软件进行数据定向采集。随着数字人文的发展，网络信息智能采集软件正逐渐成为人文社科研究的基础性软件工具，推动了数字人文研究的快速发展。针对网络数据自动采集的需要，我们武汉大学信息管理学院汇海科技武汉大学移动商务联合实验室开发了一套通用性的网络信息智能采集软件，不仅能够自动定时采集多种类型的网站信息，还能对网页正文进行抽取、分类和关键词提取。该系统应用领域广阔，其中就包括数字人文学术研究。为了满足数字人文的发展需求，光有网络信息智能采集软件还不够，目前互联网上的大多数信息大多是非结构化的，所以对采集到的网页还需进行结构化信息的抽取和挖掘，所以下一步我们将开发网页结构化信息抽取软件和文本挖掘软件，以构建完整的数字人文研究基础软件平台，适应数字人文的多样化研究需求。移动互联网应用是另外一个社会性大趋势，为了满足基于移动数据的数字人文研究需求，我们还将集中力量开展面向移动互联网的信息采集、抽取、挖掘软件研发工作。我们欢迎人文社科同行联系合作,共同推动我国数字人文研究的发展！; 个人分类: 生活点滴|4877 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 数据采集

相关帖子

相关日志

关闭安全验证