科学网

 找回密码
  注册

tag 标签: 数据科学

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

跨学科跨领域跨行业学术交流 (智能科学国际会议预备会) 目录
geneculture 2018-2-9 17:12
跨学科跨领域跨行业学术交流 (智能科学国际会议预备会) 第一期大讨论班的焦点是人和机两类脑的思维科学问题。11月(已完成) 第二期大讨论班的焦点是人和机两类脑的数据科学问题。12月(已完成) 英国彭永红教授到场讲了大数据处理技术与数据科学的问题。 同期引出了三信、三智、三数的一系列错综复杂的问题。 第三期大讨论班的焦点是人和机两类脑的记忆机理问题。1月(已完成) 同期探讨了人工智能之魂的问题及其应用及智权的问题。 第四期大讨论班的焦点是人和机两类脑的智能科学问题。2月(过年团拜) 同期林建祥教授通过远程技术来组织一系列的专题报告。(进行中,昨天完成第一讲) 由于正是寒假过年期间,因此,特意考虑了后续的安排: 第五期大讨论班的焦点是人脑的心智与脑保健科学问题。3月(计划中) 普林斯顿大学教授到场。 同期介绍了终身教育信息化尤其是其中职业教育的问题。 第六期大讨论班的焦点是人和机两类脑的基础理论问题。4月(计划中) 该期除了成都理工大学的多学科探讨之外争取在北大也有进展即相关院系的教授也参与。 同期召开 第三届智能科学国际会议内部会 第七期大讨论班的焦点是人和机两类脑的信息科学问题。5月(计划中) 同期伯克利分校脑与神经生物学教授会有一个主题报告。 第八期大讨论班的焦点是人和机两类脑的智能科学问题。6月 第九期大讨论班的焦点是人和机两类脑的数据科学问题。7月 第十期大讨论班的焦点是人和机两类脑的教育科学问题。8月 第11期大讨论班的焦点是人和机两类脑的语言科学问题。9月 第12期大讨论班的焦点是人和机两类脑的交叉科学问题。10月 接下来召开 第三届智能科学国际会议。11月
个人分类: 学术研究|2275 次阅读|1 个评论
Python回归分析五部曲(一)—简单线性回归
jackyguitar 2017-12-30 23:02
回归最初是遗传学中的一个名词,是由英国生物学家兼统计学家高尔顿首先提出来的,他在研究人类身高的时候发现:高个子回归人类的平均身高,而矮个子则从另一方向回归人类的平均身高; 回归整体逻辑 回归分析(Regression Analysis) 研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y与影响它的自变量 x_i(i=1,2,3… …)之间的回归模型,来预测因变量y的发展趋向。 回归分析的分类 线性回归分析 简单线性回归 多重线性回归 非线性回归分析 逻辑回归 神经网络 回归分析的步骤 根据预测目标,确定自变量和因变量 绘制散点图,确定回归模型类型 估计模型参数,建立回归模型 对回归模型进行检验 利用回归模型进行预测 简单线性回归模型 1.基础逻辑 y = a + b x + e 该模型也称作一元一次回归方程,模型中: y:因变量 x:自变量 a:常数项(回归直线在y轴上的截距) b:回归系数(回归直线的斜率) e:随机误差(随机因素对因变量所产生的影响) e的平方和也称为残差,残差是判断线性回归拟合好坏的重要指标之一 从简单线性回归模型可以知道,简单线性回归是研究一个因变量与一个自变量间线性关系的方法 2.案例实操 下面我们来看一个案例,某金融公司在多次进行活动推广后记录了活动推广费用及金融产品销售额数据,如下表所示 因为活动推广有明显效果,现在的需求是投入60万的推广费,能得到多少的销售额呢?这时我们就可以使用简单线性回归模型去解决这个问题,下面,我们用这个案例来学习,如何进行简单线性回归分析; (1)第一步 确定变量 根据预测目标,确定自变量和因变量 问题:投入60万的推广费,能够带来多少的销售额? 确定因变量和自变量很简单,谁是已知,谁就是自变量,谁是未知,就就是因变量,因此,推广费是自变量,销售额是因变量; import numpy from pandas import read_csv from matplotlib import pyplot as plt from sklearn.linear_model import LinearRegression data = read_csv( 'file:///Users/apple/Desktop/jacky_1.csv' , encoding = 'GBK' ) (2)第二步 确定类型 绘制散点图,确定回归模型类型 根据前面的数据,画出自变量与因变量的散点图,看看是否可以建立回归方程,在简单线性回归分析中,我们只需要确定自变量与因变量的相关度为强相关性,即可确定可以建立简单线性回归方程,根据jacky前面的文章分享《Python相关分析》,我们很容易就求解出推广费与销售额之间的相关系数是0.94,也就是具有强相关性,从散点图中也可以看出,二者是有明显的线性相关的,也就是推广费越大,销售额也就越大 #画出散点图,求x和y的相关系数 plt.scatter(data.活动推广费 , data.销售额) data.corr() (3)第三步 建立模型 估计模型参数,建立回归模型 要建立回归模型,就要先估计出回归模型的参数A和B,那么如何得到最佳的A和B,使得尽可能多的数据点落在或者更加靠近这条拟合出来的直线上呢? 统计学家研究出一个方法,就是最小二乘法,最小二乘法又称最小平方法,通过最小化误差的平方和寻找数据的最佳直线,这个误差就是实际观测点和估计点间的距离; 最小二乘法名字的缘由有二个:一是要将误差最小化,二是使误差最小化的方法是使误差的平方和最小化;在古汉语中,平方称为二乘,用平方的原因就是要规避负数对计算的影响,所以最小二乘法在回归模型上的应用就是要使得实际观测点和估计点的平方和达到最小,也就是上面所说的使得尽可能多的数据点落在或者说更加靠近这条拟合出来的直线上; 我们只要了解最小二乘法的原理即可,具体计算的过程就交给Python处理。 #估计模型参数,建立回归模型 ''' (1) 首先导入简单线性回归的求解类LinearRegression (2) 然后使用该类进行建模,得到lrModel的模型变量 ''' lrModel = LinearRegression() #(3) 接着,我们把自变量和因变量选择出来 x = data ] y = data ] #模型训练 ''' 调用模型的fit方法,对模型进行训练 这个训练过程就是参数求解的过程 并对模型进行拟合 ''' lrModel.fit(x , y) (4)第四步 模型检验 对回归模型进行检验 回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,使用判定系数来度量。 解释:判定系数等于相关系数R的平方用于表示拟合得到的模型能解释因变量变化的百分比,R平方越接近于1,表示回归模型拟合效果越好 如果拟合出来的回归模型精度符合我们的要求,那么我们可以使用拟合出来的回归模型,根据已有的自变量数据来预测需要的因变量对应的结果 #对回归模型进行检验 lrModel.score(x , y) 执行代码可以看到,模型的评分为0.887,是非常不错的一个评分,我们就可以使用这个模型进行未知数据的预测了 (5)第五步 模型预测 调用模型的predict方法,这个就是使用sklearn进行简单线性回归的求解过程; lrModel.predict( , ]) 如果需要获取到拟合出来的参数各是多少,可以使用模型的intercept属性查看参数a(截距),使用coef属性查看参数b #查看截距 alpha = lrModel.intercept_ #查看参数 beta = lrModel.coef_ alpha + beta*numpy.array( ) 3.完整代码 import numpy from pandas import read_csv from matplotlib import pyplot as plt from sklearn.linear_model import LinearRegression data = read_csv( 'file:///Users/apple/Desktop/jacky_1.csv' , encoding = 'GBK' ) #画出散点图,求x和y的相关系数 plt.scatter(data.活动推广费 , data.销售额) data.corr() #估计模型参数,建立回归模型 ''' (1) 首先导入简单线性回归的求解类 LinearRegression (2) 然后使用该类进行建模, 得到lrModel的模型变量 ''' lrModel = LinearRegression() #(3) 接着,我们把自变量和因变量选择出来 x = data ] y = data ] #模型训练 ''' 调用模型的fit方法,对模型进行训练 这个训练过程就是参数求解的过程 并对模型进行拟合 ''' lrModel.fit(x , y) #对回归模型进行检验 lrModel.score(x , y) #利用回归模型进行预测 lrModel.predict( , ]) #查看截距 alpha = lrModel.intercept_ #查看参数 beta = lrModel.coef_ alpha + beta*numpy.array( ) 总结sklearn建模流程 建立模型 lrModel = sklearn.linear_model.LinearRegression() 训练模型 lrModel.fit(x,y) 模型评估 lrModel.score(x,y) 模型预测 lrModel.predict(x)
7201 次阅读|0 个评论
跨学科、跨领域和跨行业第二次大讨论班(2)
geneculture 2017-12-4 16:01
第三届智能科学国际会议配套的跨学科、跨领域和跨行业第二次大讨论班 主题:成长中的数据科学与三类信息协同处理之间的关系 学术对话主讲人:彭永红(IEEE计算智能学会大数据专委会主席,IEEE Transaction on Big Data 副主编,英国桑德兰大学数据科学讲席教授)和邹晓辉(IS4SI-CC教育信息化专委会主任助理,人工智能专委会副主任,中美塞尔研究中心主任) 时间:2017-12-21下午2点~5点(邹晓辉教授主持),晚上6:30~9:30点(马尽文教授主持)这两段时间的线上JionNet远程互联互通均由林建祥教授主持(北京大学教师教学发展中心提供JionNet远程技术支持) 地点:北京大学数学科学学院理科一号楼1365教室 到会代表涉及的相关学科领域: 数据科学、信息科学、智能科学、思维科学、脑科学、数学、计算机科学、软件工程、计算语言学、认知心理学、教育技术学等诸多学科领域。 读书人摄制组将全程录音录像。
个人分类: 学术研究|2691 次阅读|2 个评论
文科生如何高效学数据科学?
热度 2 wshuyi 2017-11-26 11:42
看似无边无际、高深难懂而又时刻更新的数据科学知识,该怎样学才更高效呢?希望读过本文后,你能获得一些帮助。 疑惑 周五下午,我给自己的研究生开组会。主题是工作坊教学,尝试搭建 自己的第一个 深度神经网络。 参考资料是我的文章《 如何用Python和深度神经网络发现即将流失的客户? 》。我带着学生们从下载最新版Anaconda安装包开始,直到完成第一个神经网络分类器。 过程涉及编程虚拟环境问题,他们参考了《 如何在Jupyter Notebook中使用Python虚拟环境? 》一文,比较顺利地掌握了如何在虚拟环境里安装软件包和执行命令。 我要求他们,一旦遇到问题就立即提出。我帮助解决的时候,所有人围过来一起看解决方案,以提升效率。 我给学生们介绍了神经网络的层次结构,并且用Tensorboard可视化展示。他们对神经网络和传统的机器学习算法(师兄师姐答辩的时候,他们听过,有印象)的区别不是很了解,我就带着他们一起玩儿了一把深度学习实验场。 看着原本傻乎乎的直线绕成了曲线,然后从开放到闭合,把平面上的点根据内外区分,他们都很兴奋。还录了视频发到了微信朋友圈。 欣喜之余,一个学生不无担忧地问我: 老师,我现在能够把样例跑出来了,但是里面有很多内容现在还不懂。这么多东西该怎么学呢? 我觉得这是个非常好的问题。 对于非IT类本科毕业生,尤其是“文科生”(定义见 这里 ),读研阶段若要用到数据科学方法,确实有很多知识和技能需要补充。他们中不少人因此很 焦虑 。 但是焦虑是没有用的,不会给你一丝一毫完善和进步。学会拆解和处理问题,才是你不断进步的保证。 这篇文章,我来跟你谈一谈,看似无边无际、高深难懂而又时刻更新的数据科学知识,该怎样学才更高效。 许多读者曾经给我留言,询问过类似的问题。因此我把给自己学生的一些建议分享给你,希望对你也有一些帮助。 目标 你觉得自己在数据科学的知识海洋里面迷失,是因为套用的学习模式不对。 从上小学开始,你就习惯了把要学习的内容当成学科知识树,然后系统地一步步学完。前面如果学不好,必然会影响后面内容的理解消化。 知识树的学习,也必须全覆盖。否则考试的时候,一旦考察你没有掌握的内容,就会扣分。 学习的进程,有教学大纲、教材和老师来负责一步步 喂给你 ,并且督促你不断预习、学习和复习。 现在,你突然独自面对一个新的学科领域。没了教学大纲和老师的方向与进度指引,教材又如此繁多,根本不知道该看哪一本,茫然无措。 其实如果数据科学的知识是个凝固的、静态的集合,你又有无限长的学习时间,用原先的方法来学习,也挺好。 可现实是,你的时间是有限的,数据科学的知识却是日新月异。今年的热点,兴许到了明年就会退潮。深度学习专家Andrej Karpathy评论不同的机器学习框架时说: Matlab is so 2012. Caffe is so 2013. Theano is so 2014. Torch is so 2015. TensorFlow is so 2016. :D 怎么办呢? 你需要以目标导向来学习。 例如说,你手头要写的论文里,需要做数据分类。那你就研究分类模型。 分类模型属于监督学习。传统机器学习里,KNN, 逻辑回归,决策树等都是经典的分类模型;如果你的数据量很大,希望用更为复杂而精准的模型,那么可以尝试深度神经网络。 如果你要需要对图片进行识别处理,便需要认真学习卷积神经网络(Convolutional Neural Network),以便高效处理二维图形数据。 如果你要做的研究,是给时间序列数据(例如金融资产价格变动)找到合适的模型。那么你就得认真了解递归神经网络(recurrent neural network),尤其是长短期记忆(Long short-term memory, LSTM)模型。这样用人工智能玩儿股市水晶球才能游刃有余。 但如果你目前还没有明确的研究题目,怎么办? 不要紧。可以在学习中,以 案例 为单位,不断积累能力。 实践领域需求旺盛,数据科学的内容又过于庞杂,近年来MOOC上数据科学类课程的发展,越来越有案例化趋势。 一向以技术培训类见长的平台,如Udacity, Udemy等自不必说。就连从高校生长出来的Coursera,也大量在习题中加入实际案例场景。Andrew Ng最新的Deep Neural Network课程就是很好的例证。 我之前推荐过的华盛顿大学机器学习课程,更是非常激进地在第一门课中,通过案例完整展示后面若干门课的主要内容。 注意,学第一门课时,学员们对于相关的技术(甚至是术语)还一无所知呢! 然而你把代码跑完,出现了结果的时候,真的会因为不了解和掌握细节就一无所获吗? 当然不是。 退一万步说,至少你 见识 了可以用这样的方法成功解决该场景的问题。这就叫 认知 。 告诉你一个小窍门:在生活、工作和学习中,你跟别人比拼的,基本上都是认知。 你获得了认知后,可以快速了解整个领域的概况。知道哪些知识对自己目前的需求更加重要,学习的优先级更高。 比案例学习更高效的“找目标”方式,是参加项目,动手实践。 动手实践,不断迭代的原理,在《 如何高效学Python? 》和《 创新怎么教? 》文中我都有详细分析,欢迎查阅。 这里我给你讲一个真实的例子。 我的一个三年级研究生,本科学的是工商管理。刚入学的时候按照我的要求,学习了密歇根大学的Python课程,并且拿到了系列证书。但是很长的一段时间里,他根本就不知道该怎么实际应用这些知识,论文自然也写不出来。 一个偶然的机会,我带着他参加了另一个老师的研究项目,负责技术环节,做文本挖掘。因为有了实际的应用背景和严格的时间限定,他学得很用心,干得非常起劲儿。之前学习的技能在此时真正被 激活 了。 等到项目圆满结束,他主动跑来找我,跟我探讨能否把这些技术方法应用于本学科的研究,写篇小论文出来。 于是我俩一起确定了题目,设计了实验。然后我把数据采集和分析环节交给了他,他也很完满地做出了结果。 有了这些经验,他意识到了自己毕业论文数据分析环节的缺失,于是又顺手改进了毕业论文的分析深度。 恰好是周五工作坊当天,我们收到了期刊的正式录用通知。 看得出来,他很激动,也很开心。 深度 确定目标后,你就明白了该学什么,不该学什么。 但是下一个问题就来了,该学的内容,要学到多深、多细呢? 在《 贷还是不贷:如何用Python和机器学习帮你决策? 》一文里,我们尝试了决策树模型。 所谓应用决策树模型,实际上就是调用了一个包。 from sklearn import tree clf = tree.DecisionTreeClassifier() clf = clf.fit(X_train_trans, y_train) 只用了三行语句,我们就完成了决策树的训练功能。 这里我们用的是默认参数。如果你需要了解可以进行哪些参数调整设置,在函数的括号里使用 shift+tab 按键组合,就能看到详细的参数列表,并且知道了默认的参数取值是多少。 如果你需要更详细的说明,可以直接查文档。在搜索引擎里搜索 sklearn tree DecisionTreeClassifier 这几个关键词,你会看到以下的结果。 点击其中的第一项,就可以看到最新版本scikit-learn相关功能的官方文档。 当你明白了每个函数工作的方法、参数可以调整的类型和取值范围时,你是否可以宣称自己了解这个功能了? 你好像不太有信心。 因为你觉得这只是“知其然”,而没有做到“知其所以然”。 但是,你真的需要进一步了解这个函数/功能是如何实现的吗? 注意图中函数定义部分,有一个指向 source 的链接。 点开它,你就会导航到这个函数的源代码,托管在github上。 如果你是个专业人士,希望 研究 、 评估 或者 修改 该函数,认真阅读源代码就不仅必要,而且必须。 但是作为文科生的你,如果仅是为了 应用 ,那完全可以不必深入到这样的细节。将别人写好的,广受好评的软件包当成黑箱, 正确地使用 就好了。 这就如同你不需要了解电路原理,就可以看电视;不需要了解川菜的技艺和传承,就可以吃麻婆豆腐。只要你会用遥控器,会使筷子,就能享受这些好处。 越来越多的优秀软件包被创造出来,数据科学的门槛也因此变得越来越低。甚至低到被声讨的地步。例如这篇帖子,就大声疾呼“进入门槛太低正在毁掉深度学习的名声!” 但是,不要高兴得太早。觉得自己终于遇到一门可以投机取巧的学问了。 你的基础必须打牢。 数据科学应用的基础,主要是编程、数学和英语。 数学(包括基础的微积分和线性代数)和英语许多本科专业都会开设。文科生主要需要补充的,是编程知识。 只有明白基础的语法,你才能和计算机之间无障碍交流。 一门简单到令人发指的编程语言,可以节省你大量的学习时间,直接上手做应用。 程序员圈子里,流行一句话,叫做: 人生苦短,我用Python。 Python有多简单?我的课上,一个会计学本科生,为了拿下证书去学Python基础语法,一门课在24小时内,便搞定了。这还包括做习题、项目和系统判分时间。 怎么高效入门和掌握Python呢?欢迎读读《 如何高效学Python? 》,希望对你快速上手能有帮助。 协作 了解了该学什么,学多深入之后,我们来讲讲提升学习效率的终极 秘密武器 。 这个武器,就是 协作 的力量。 协作的好处,似乎本来就是人人都知道的。 但是,在实践中,太多的人根本就没有这样做。 因为,我们都过于长期地被训练“独立”完成问题了。 例如考试的时候跟别人交流,那叫作弊。 但是,你即便再习惯一个人完成某些“创举”,也不得不逐渐面对一个真实而残酷的世界——一个人的单打独斗很难带来大成就,你必须学会协作。 这就像《权力的游戏》里史塔克家族的名言: When the cold winds blow the lone wolf dies and the pack survives. (凛冬将至,独狼死,群狼活。) 文科生面对屏幕编程,总会有一种孤独无助的感觉,似乎自己被这个世界抛弃了。 这种错误的心态会让你变得焦虑、恐慌,而且很容易放弃。 正确的概念却能够拯救你——你正在协作。而且你需要主动地、更好地协作。 你面前这台电脑或者移动终端,就是无数人的 协作 成果。 你用的操作系统,也是无数人的 协作 成果。 你用的编程语言,还是无数人的 协作 成果。 你调用的每一个软件包,依然是无数人的 协作 成果。 并非只有你所在的小团队沟通和共事,才叫做协作。协作其实早已发生在地球级别的尺度上。 当你从Github上下载使用了某个开源软件包的时候,你就与软件包的作者建立了协作关系。想想看,这些人可能受雇于大型IT企业,月薪6位数(美元),能跟他们协作不是很难得的机会吗? 当你在论坛上抛出技术问题、并且获得解答的时候,你就与其他的使用者建立了协作关系。这些人有可能是资深的IT技术专家,做咨询的收费是按照秒来算的。 这个社会,就是因为分工协作,才变得更加高效的。 数据科学也是一样。Google, 微软等巨头为什么开源自己的深度学习框架,给全世界免费使用?正是因为他们明白协作的终极含义,知道这种看似吃亏的傻事儿,带来的回报无法估量。 这种全世界范围内的协作,使得知识产生的速度加快,用户的需求被刻画得更清晰透彻,也使得技术应用的范围和深度空前提高。 如果你在这个协作系统里,就会跟系统一起日新月异地发展。如果你不幸自外于这个系统,就只能落寞地看着别人一飞冲天了。 这样的时代,你该怎么更好地跟别人协作呢? 首先,你要学会寻找协作的伙伴。这就需要你掌握搜索引擎、问答平台和社交媒体。不断更新自己的认知,找到更适合解决问题的工具,向更可能回答你问题的人来提问。经常到 Github 和Stackoverflow上逛一逛,收获可能大到令你吃惊。 其次,你要掌握清晰的逻辑和表达方式。不管是搜寻答案,还是提出问题,逻辑能力可以帮助你少走弯路,表达水平决定了你跟他人协作的有效性和深度。具体的阐释,请参考《 Python编程遇问题,文科生怎么办? 》。 第三,不要只做个接受帮助者。要尝试主动帮助别人解决问题,把自己的代码开源在Github上,写文章分享自己的知识和见解。这不仅可以帮你在社交资本账户中储蓄(当你需要帮助的时候,相当于在提现),也可以通过反馈增长自己的认知。群体的力量可以通过“赞同”、评论等方式矫正你的错误概念,推动你不断进步。 可以带来协作的链接,就在那里。 你不知道它们的存在,它们对你来说就是虚幻。 你了解它们、掌握它们、使用它们,它们给你带来的巨大益处,就是实打实的。 小结 我们谈了 目标 ,可以帮助你分清楚哪些需要学,哪些不需要学。你现在知道了找到目标的有效方法——项目实践或者案例学习。 我们聊了 深度 ,你了解到大部分的功能实现只需要了解黑箱接口就可以,不需要深入到内部的细节。然而对于基础知识和技能,务必夯实,才能走得更远。 我们强调了 协作 。充分使用别人优质的工作成果,主动分享自己的认知,跟更多优秀的人建立链接。摆脱单兵作战的窘境,把自己变成优质协作系统中的关键节点。 愿你在学习数据科学过程中,获得认知的增长,享受知识和技能更新带来的愉悦。放下焦虑感,体验心流的美好感受。 讨论 到今天为止,你掌握了哪些数据科学知识和技能?你为此花了多少时间?这个过程痛苦吗?有没有什么经验教训可以供大家借鉴?欢迎留言,把你的感悟分享给大家,我们一起交流讨论。 如果你对我的文章感兴趣,欢迎点赞,并且微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。 如果本文可能对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。
12714 次阅读|3 个评论
高校科研数据管理理论与实践
terahertz 2017-11-17 14:32
(发表于《图书馆报》2017年11月17日A09版) 本报讯 近日,江苏大学图书馆副研究馆员,江苏大学科技信息研究所所长刘桂锋著《高校科研数据管理理论与实践》一书由江苏大学出版社出版。 该 书基 于大数据、数据管理、数据生命周期等基本理论,综合运用文献调研、网络调查、现场考察、案例研究、内容分析、比较研究等方法,详细阐述了科研数据管理研究领域的发展脉络、体系架构、最新理论成果与优秀科研数据管理实例,主要分为科研数据管理政策、科研数据管理服务与科研数据管理教育三个方面。 该书具备三个特点。一是具备一定的理论前瞻性。科研数据管理是一个发展快速的领域,新思想、新理论、新方法、新工具不断涌现,数据管理的内涵与外延越来越丰富。二是具备一定的实践操作性。本书选取的科研数据管理服务案例均来自国内外高校图书馆的实践一线,确保可操作、可推广、可复制。三是具备一定的学术价值性。本书力图构建科研数据管理的理论大厦,回答了为什么开展科研数据管理服务,科研数据管理服务的内容有哪些,怎样更好的开展科研数据管理服务等问题。 该书力求精炼,具备一定的理论性、实践性与学术性,来自图书馆又高于图书馆。 链接: http://124.207.48.191/epaper/tsgb/2017/11/17/A09/story/54448.shtml
个人分类: 教材专著|2389 次阅读|0 个评论
国外科研数据管理研究综述
terahertz 2017-10-13 08:41
(本文发表于《情报理论与实践》2017年第10期P130-134) 摘要 : 深入探析国外科研数据管理研究热点,能够为我国科研数据管理提供更为清晰的发展规划和更具针对性的建议。 通过网络调研和文献调研对国外科研数据管理的文献进行概念辨析和热点探讨。 国外科研数据管理研究热点主要集中在数据生命周期理论和科研数据管理服务。文章从科研数据管理政策、数据生命周期理论和科研数据管理服务体系构建3个角度提出我国开展科研数据管理活动的对策建议。 关键词 : 数据科学;科研数据;数据管理;开放数据
个人分类: 发表论文|2858 次阅读|0 个评论
数据科学支撑的知识服务创新对策思考
terahertz 2017-9-14 10:32
2017年9月 13日 下午3点 , 南京理工大学王曰芬教授 在图书馆一楼报告厅做了题为 “ 数据科学支撑的知识服务创新对策思考 ”的报告。 报告内容主要分为大数据时代知识服务面临的挑战、数据科学的兴起与发展、数据科学与知识服务、数据科学支撑的知识服务创新四个部分。
个人分类: 图书馆|2439 次阅读|0 个评论
养廉不仅需要大数据而且还需要大智慧
geneculture 2017-9-4 00:52
个人分类: 管理学|270 次阅读|0 个评论
社会科学中的定性数据共享实践研究
timy 2017-6-27 10:11
时间 :2017.6.29(周四)15:00~17:00 地点 :南京理工大学经济管理学院106报告厅 主讲人 :何大庆(匹兹堡大学教授) 内容简介: 社会科学家们长期以来共享数据,然而大部分系统和全面的研究是基于定性数据来进行的。关于社会科学家如何共享定性数据,人们了解甚少。本报告介绍了我们针对社会科学中的定性数据共享实践所做的三个案例研究。我们的研究建立在知识基础设施工程(KI)和远程科学协作理论(TORSC)等两个已有的概念框架,探究了三个研究目标:社会科学中的定性数据共享实践的现状,研究参与者的定性数据共享行为中的决定性因素,和世界上最大的社会科学数据基础设施工程中对社会科学数据管理的具体实践。我们的研究结果证实:第一,处于职业生涯早期的社会科学家的数据共享意识较低且不活跃;第二,社会科学家共享研究成果的偏好与方法论相关,而与实验原始数据无关;第三,可感知的技术支持和奖励是定性数据共享行为的有力预测因素。最后,我们总结了社会科学中数据共享的最佳实践,并为如何在社会科学和其他领域打造一个可持续的数据共享环境提出了建议。 讲人简介 : 何大庆博士现为匹兹堡大学计算与信息学院(iSchool)教授,并担任iSchool图书馆与信息博士计划委员会主任。何教授在苏格兰爱丁堡大学获得人工智能专业的博士学位。在2004年加盟匹兹堡大学之前,何教授曾在苏格兰罗伯特戈登大学、美国马里兰大学等地从事研究工作。何教授的研究工作主要集中在:信息检索(单语言和多语言)、社交网络上的信息获取、自适应Web系统与用户建模、交互检索界面设计、Web日志挖掘与分析和研究数据管理。 何博士是十余个研究项目的主持人或共同主持人,研究项目包括:美国国家科学基金会项目、美国国防部高级研究计划署资助项目、匹兹堡大学以及其他机构资助的项目。何教授在国际公认的期刊与会议上发表论文120余篇,期刊与会议包括Journal of Association for Information Science and Technology,Information Processing and Management,ACM Transaction on Information Systems,Journal of Information Science,ACM SIGIR,CIKM,WWW,CSCW等等。另外,他是信息检索及Web技术领域的二十多个主要的国际会议程序委员会成员,并且是该领域多个国际一流期刊的审稿人,他是SCI索引杂志Information Processing and Management、Internet Research和Aslib Journal of Information Management的编委。
个人分类: 同行交流|5819 次阅读|0 个评论
美国高校科研数据管理实践个案研究
terahertz 2017-1-18 09:07
(本文发表于《图书情报研究》2016年第4期P24-34) 摘要: 在调研国内外科研数据管理典型案例的基础上,选取伊利诺伊大学香槟分校(UIUC)为个案,采用网络调查和实地考察相结合的方法,从科研数据管理服务阶段、科研数据管理服务体系和科研数据管理教育实践三个方面对UIUC的科研数据管理实践进行详细介绍和分析。研究结果表明,美国伊利诺伊大学香槟分校形成了“以用户为中心”的科研数据管理服务体系和“四位一体”的科研数据管理教育体系。从长期积累、多方合作、体系构建三个方面总结其对我国高校数据管理的启示。 关键词: 数据科学;;科研数据;;数据管理;;数据服务;;数据保存;;伊利诺伊大学香槟分校
个人分类: 发表论文|2342 次阅读|0 个评论
数据科学简介
热度 2 郭崇慧 2016-1-2 11:58
大数据的兴起,催生了一门新的学科,即数据科学( Data Science )或 数据学( Dataology ) ,有时也被称为数据解析学( Data Analytics )。数据科学是关于数据的科学 。从事数据科学研究的学者更关注数据的科学价值,试图把数据当成一个 “ 自然体 ( Data Nature )” 来研究,提出所谓 “ 数据界( Data Universe ) ” 的概念,颇有把计算机科学划归为自然科学的倾向。但脱离各个领域的 “ 物理世界 ” ,作为客观事物间接存在形式的 “ 数据界 ” 究竟有什么共性问题还不清楚。物理世界在网络空间中有其数据映像,目前一些学者认为,数据界的规律其本质可能是物理世界的规律(还需要在物理世界中测试验证)。除去各个领域的规律,作为映像的 “ 数据界 ” 还有其独特的共同规律吗?这是一个值得深思的问题。 作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,以及数据研究的共性。现代社会的各行各业都充满了数据。而且这些数据也是多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。鄂维南教授认为,数据解析本质上都是在求解反问题,而且是随机模型的反问题 。所以对它们的研究有着很多的共性。例如自然语言处理和生物大分子模型里都用到隐马尔科夫过程和动态规划方法。其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。所以用于图像处理的算法和用于压缩感知的算法有着许多共同之处 。 除了新兴的学科如计算广告学之外,数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、神经信息学、网络信息学、天体信息学、数字地球、社会计算与商务智能等领域。后者包括统计学、机器学习、模式识别、数据挖掘、数据库、数据可视化等领域。这些学科都是数据科学的重要组成部分。但只有把它们有机地放在一起,才能形成整个数据科学的全貌。 在数据科学领域里工作的人才(即数据科学家)需要具备两方面的素质:一是概念性的,主要是对概念模型和数学模型的理解和运用;二是实践性的,主要是处理实际数据的能力以及业务理解能力。培养这样的人才,需要数学、统计学、计算机科学和管理科学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。 参考文献 李国杰,程学旗.大数据研究:科技及经济社会发展的重大战略领域 . 中国科学院院刊 , 2012 , 27(6):647-657. 朱扬勇,熊赟 . 数据学 . 复旦大学出版社, 2009. 赵国栋,易欢欢,糜万军,鄂维南 . 大数据时代的历史机遇——产业变革与数据科学 . 北京 : 清华大学出版社 ,2013.
个人分类: 科研笔记|19884 次阅读|2 个评论
数据科学家有一个梦
热度 18 tangchangjie 2015-9-30 11:23
   从数据库到数据科学的升华 近几年,云(计算)、物(联网)、人(社会计算)、海(大数据)给人们太多的新概念,太多的意外,太多的目不暇接和太多的惊喜。   在太多意外和目不暇接中,“数据库”已经深化和升华为“数据科学”。Data Scientists (数据科学家或数据科学工作者)有一个梦,通过数据,像传说中的上帝那样认知世界和改造世界;中国的数据科学家(数据科学工作者)有一个梦,在世界数据科学的大潮前头,创新、奉献并占有一块高地。   在太多的惊喜里,第32界数据库学术会议(NDBC2015)还有15天,将在成都召开了。川大和成都多个高校的数据库研究团队经过两年申请和一年准备,现在各项会务的准备工作基本就绪。 三年岁月,终于凝聚成这一刻。         会议环节向国际会议靠拢 近年来,NDBC数据库学术大会越办越好,逐渐向国际会议靠拢,NDBC2015继续并加强了这一良性趋势,办齐了国际会议的的基本环节:如大会报告(Keynotes),新技术报告,企业界报告(industry Repoert),研究生辅导(tutorial),专题讨论与辩论(Panel) ,优秀研究生论文,最佳论文等;此外,还有第二届搜狗-中国数据库学术年会智慧杯万维网知识提取竞赛颁奖仪式。   大会报告面向前沿,面向基础,面向应用, 本次邀请了众多国内外知名学者和企业家的报告,内容涉及时空信息金字塔模型与数据库, 大数据、传感器,新型存储架构,数据管理技术的机遇与挑战,等等。      And More ... 留一点悬念 团队里的年轻人,为办好这次会议倾注了很多心力。在网站上有更详细的信息,( 点击这里 ) 而更多的圆梦体验。暂留作悬念,让参会者自己体验。      还有15天,就要开会了,借用一位伟人的话语,“它是站在海岸遥望 海 中已经看得见桅杆尖头了的一只航船,.....,它是躁动于母腹中的快要成熟了的一个婴儿”。  数据科学界的朋友,举起你的双手,欢迎他吧,迈动你的健步,参与它吧, 来成都, 来圆数据之梦, 成都欢迎你! 半年来,关于申办国际会议体会的博文(2010.7.23加) 申办学术会议的酸甜苦辣 办好学术会议的ABCD--研教散记17 Coming WAIM2010 :来岷山论剑,比射雕英雄 两年岁月凝一刻,四海宾朋汇一堂--WAIM2010召开(图文) 视办会如作品—WAIM2010办会心得(本文) 国际会议办会方式的回归,兼议应对的方法 虽有苦痛折磨,还是觉得幸福更多 -- 也说办会 国际会议办会方式的回归,兼议应对的方法 数据科学家有一个梦 其它系列博文的入口 唐常杰博客主页 科学博客主页
个人分类: 观察感悟|26333 次阅读|35 个评论
[转载]数据分析师的完整知识结构
热度 1 yngcan 2014-11-28 12:48
作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1. 数据采集 了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。比如: Omniture中的Prop变量长度只有100个字符,在数据采集部署过程中就不能把含有大量中文描述的文字赋值给Prop变量(超过的字符会被截断)。 在Webtrekk323之前的Pixel版本,单条信息默认最多只能发送不超过2K的数据。当页面含有过多变量或变量长度有超出限定的情况下,在保持数据收集的需求下,通常的解决方案是采用多个sendinfo方法分条发送;而在325之后的Pixel版本,单条信息默认最多可以发送7K数据量,非常方便的解决了代码部署中单条信息过载的问题。(Webtrekk基于请求量付费,请求量越少,费用越低)。 当用户在离线状态下使用APP时,数据由于无法联网而发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。 在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。 2.数据存储 无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。比如: 数据存储系统是MySql、Oracle、SQL Server还是其他系统。 数据仓库结构及各库表如何关联,星型、雪花型还是其他。 生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。 生产数据库面对异常值如何处理,强制转换、留空还是返回错误。 生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。 接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。 数据仓库数据的更新更新机制是什么,全量更新还是增量更新。 不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。 在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。 3.数据提取 数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。 从哪取,数据来源——不同的数据源得到的数据结果未必一致。 何时取,提取时间——不同时间取出来的数据结果未必一致。 如何取,提取规则——不同提取规则下的数据结果很难一致。 在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。 其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。 4.数据挖掘 数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则: 没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。 没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。 挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。 在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。 5.数据分析 数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。 6.数据展现 数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。基本素质要求如下: 工具。PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。 形式。图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。 原则。领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。 场景。大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。 最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。 7.数据应用 数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。 数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。 业务推动能力。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观落地条件。 项目工作能力。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。 1. 数据采集 了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。比如: Omniture中的Prop变量长度只有100个字符,在数据采集部署过程中就不能把含有大量中文描述的文字赋值给Prop变量(超过的字符会被截断)。 在Webtrekk323之前的Pixel版本,单条信息默认最多只能发送不超过2K的数据。当页面含有过多变量或变量长度有超出限定的情况下,在保持数据收集的需求下,通常的解决方案是采用多个sendinfo方法分条发送;而在325之后的Pixel版本,单条信息默认最多可以发送7K数据量,非常方便的解决了代码部署中单条信息过载的问题。(Webtrekk基于请求量付费,请求量越少,费用越低)。 当用户在离线状态下使用APP时,数据由于无法联网而发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。 在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。 2.数据存储 无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。比如: 数据存储系统是MySql、Oracle、SQL Server还是其他系统。 数据仓库结构及各库表如何关联,星型、雪花型还是其他。 生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。 生产数据库面对异常值如何处理,强制转换、留空还是返回错误。 生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。 接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。 数据仓库数据的更新更新机制是什么,全量更新还是增量更新。 不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。 在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。 3.数据提取 数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。 从哪取,数据来源——不同的数据源得到的数据结果未必一致。 何时取,提取时间——不同时间取出来的数据结果未必一致。 如何取,提取规则——不同提取规则下的数据结果很难一致。 在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。 其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。 4.数据挖掘 数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则: 没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。 没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。 挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。 在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。 5.数据分析 数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。 6.数据展现 数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。基本素质要求如下: 工具。PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。 形式。图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。 原则。领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。 场景。大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。 最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。 7.数据应用 数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。 数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。 业务推动能力。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观落地条件。 项目工作能力。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。
个人分类: 利用R进行专利分析|2825 次阅读|1 个评论
复杂系统与数据科学周刊 (第1期,2014-03-09)
bigdataage 2014-1-19 15:24
============================================================ Welcome to Complex Systems and Data Science Weekly 关于本周刊及其所有内容: click here ============================================================ 复杂系统与数据科学周刊 (第1期,2014-03-09)
2 次阅读|0 个评论
复杂系统与数据科学周刊
bigdataage 2014-1-19 14:40
  =====================================================   复杂系统与数据科学周刊 Complex Systems and Data Science Weekly   =====================================================   欢迎来到复杂系统与数据科学周刊 各位生活在太阳系的第三颗行星上的女士们和先生们,复杂系统与数据科学周刊,包括各种记录和总结,都是平时自己看过的内容,总结过来方便大家阅读、交流想法,也方便自己查阅。只提供中文版,面向广大国内爱好者,内容涉及到复杂系统科学、数据科学、系统生物学、生物信息学、定量社会科学、复杂网络、机器学习、数据挖掘、统计学、动力系统、计算机编程、生命科学等等,多数内容会比较通俗,认识汉字的非专业人士也能看懂。 纯属个人爱好,若有侵权之处,或作者不愿意以这种形式分享,请联系我: bigdataage@gmail.com 本周刊一般是每周六晚上更新。欢迎所有人评论和交流。 (注: 感谢各位访问我的博客! 这个博客非常欢迎评论。我不可能回复所有评论,甚至不可能回复所有写得最好的评论,这纯粹是因为我不可能每天都上来看看有什么新评论。但我想大多数人写评论并不是为了给我看的,更是为了让后来的读者看。文章发出来应该被视为是讨论的开始,评论应该被视为这篇文章的一部分。 欢迎在评论中留下自己的博客或者微博地址,这样如果别的读者想关注你就可以关注到。 广告评论会被删除,因为这会影响别人阅读。 如果一定要求回复的话,请直接给我发电子邮件,地址在右边栏上方。 所有文章都可以被非商业转载,不用再问我了!但商业转载需要跟我或者文章首发的媒体联络。 如果有什么好书、好思想、好文章,请用各种方便的办法向我推荐,多谢! ) 每期包括10部分: 1. 头条 2. 活动与会议预告 3. 历史与经验 4. 论文评论 5. 书籍评论 6. 新书推荐 7. 本期大神 8. 本期研究机构 9. 自然界中的链接 10. 各种课程与资源 11. 各种新闻 12. 主题之外     ====================================================  ===================   Archive     =======================================================================     2014年: 第1期
1 次阅读|0 个评论
数据科学(大数据处理)领域的大牛和研究机构总结
bigdataage 2012-12-8 19:36
数据科学(大数据处理)领域的大牛和研究机构总结 (第3次修改) 1 Jeffrey David Ullman ( Stanford University) http://infolab.stanford.edu/~ullman/ Mining of Massive Datasets (大数据:互联网大规模数据挖掘与分布式处理) Compilers: Principles, Techniques, and Tools 这两本书的作者。 2 Anand Rajaraman Mining of Massive Datasets 的一作。 3 Jim Gray http://research.microsoft.com/en-us/um/people/gray/ 可惜已经消失在大海里,估计喂鱼了,非常可惜!! 4 Andrew Ng(吴恩达) , Stanford University, 会说中文, 很NB的一个人。 http://ai.stanford.edu/~ang/ 5 Daphne Koller , Stanford University http://ai.stanford.edu/~koller/index.html 6 Michael I. Jordan , University of California, Berkeley http://www.cs.berkeley.edu/~jordan/ 7 David M. Blei, Princeton University http://www.cs.princeton.edu/~blei/ 8 Geoffrey E. Hinton , University of Toronto godfather of neural networks, 人工神经网络之父 deep learning的领军人物 http://www.cs.toronto.edu/~hinton/
6538 次阅读|0 个评论
[转载]数据科学与信息服务产业应融合发展
shawn360 2012-9-11 09:08
我们生活在一个海量信息和海量数据的时代:互联网、计算技术、电子商务和各种其他新兴技术使我们获取数据、分析数据和利用数据的能力有了一个质的变化。这个变化正在不断深入、全面影响着我们的日常生活,由此也影响着社会、文化、国防和国民经济的发展。   信息服务产业已成为发达国家经济转型的主要支柱。以谷歌和脸谱为代表的信息服务企业,在短短几年时间里就进入全世界最大、最受瞩目企业的行列。它们的发展速度是在传统的工业模式下难以想象的。它们的成功也展示了信息服务产业巨大的发展空间。另外,数据和信息资源已成为继人力资源和物质资源以外的第三大资源。数据资源的开发和利用将是未来社会和经济发展的主要手段之一,也应该成为制定国家长远发展计划需要考虑的主要因素之一。    科学研究可归结为数据研究   由此,信息时代对社会、政府特别是教育和科学研究体制提出了什么样的新要求?信息服务产业的科学基础是什么?   传统工业,尤其是制造业的科学基础是自然科学。物理学提供了自然科学最基本的原理。在此之上,化学、生命科学、地球物理、天文学以及各种各样的工程科学为传统工业提供了科学指导。从大学、科研机构到企业、政府部门,都已经建立起了一整套从教学、科研、开发、生产到市场的机制。   信息服务产业的科学基础是数据科学。简单说来,它由两个部分组成,即用数据的方法来研究科学和用科学的方法来研究数据。   先谈第一点。科学研究有两个最基本的模式,姑且叫做开普勒模式和牛顿模式。开普勒关于行星运动的三大定律完全是从前人所观察到的数据中总结出来的。而牛顿则更进了一步,他寻求的是基本原理。他对行星运动规律的认识是建立在基本原理的基础之上的。牛顿不仅知其然,而且知其所以然。牛顿的认识无疑比开普勒要深刻得多。所以牛顿模式成了科学研究的首选模式。几百年来的科学研究都是沿着一条以寻求基本原理为目标,而从根本上认识世界、认识自然这样一条道路走过来的。   时至今日,科学家在对基本原理的寻求方面取得了长足进步。随着量子力学的建立,人们已经基本了解了在生命科学、化学、能源、环境等与日常生活息息相关的领域所需要的基本原理。现实的困难在于这些系统的复杂性——从基本原理出发去理解这些系统在目前和不太遥远的未来基本上都是一件不可能的事情。牛顿模式因此而面临着难以逾越的困难。而另一方面,由于人们获取数据和分析数据能力的提高,从数据中直接总结出客观规律的开普勒模式的优势就体现了出来。生物信息学的成功就是一个很好的例子。   再谈第二点。从传统的角度来看,分析数据属于统计学的范畴。但近年来,随着机器学习、数据挖掘、生物信息、图像处理、信号处理等方面的发展,数据分析已经深入到了计算机科学、社会学、电子工程、生命科学、天文、地理、气象等领域。而且,从数据分析的角度来看,这些不同学科中的不同问题有着相当程度的统一性。正是这种统一性,使得数据科学有存在和发展的必要。    现行教育方式抑制创新   这里特别值得一提的是数学的作用。从根本上来讲,自然科学的基本原理来自于物理;而数据科学的基本原理则来自于数学。数据分析的主要手段就是给数据建立起数学结构。这种数学结构可以是多方面的:拓扑的、几何的或代数的。最简单的结构是图的结构,这也可以看做是一种拓扑结构。传统的统计学中最常用的是分析方面的结构,如参数化模型。所以数据科学给数学也带来了许多根本性的问题:例如怎样把数据集(如网页)坐标化,怎样给数据集定义拓扑结构或曲率,怎样利用数据集中可能隐含的对称性,怎样设计高效的算法,怎样处理噪声等等。数据和数、方程以及图形一样,也将成为数学研究的基本元素之一。这不仅能给数学的各个领域提供新的问题,同时也会加深我们对数学中一些最基本概念的认识。   数据科学中最受瞩目的成就之一是小波理论。系统的小波理论出现之前,人们对在信号处理中引进局部基函数和对信号按尺度作分解都有过很多的尝试。但这些工作都是经验性的,缺乏系统性,小波理论从根本上解决了这一问题。它使这些尝试性的工作由经验变成了科学,这样的转变是本质性的。它所带来的变化也是有目共睹的。压缩感知理论也经历了一个类似的过程,它所产生的影响也将是巨大的。   另外需要强调的一点是,由自然科学的成就转换成工业产品往往要经过一个漫长的过程。而数据科学则不同,数据科学与应用、与产业有着更为密切的联系。从小波理论的出现到它在图像处理方面的应用仅仅经过了几年的时间。正因为如此,对数据科学的研究更应该努力地走在最前沿,因为落后一步就意味着彻底失去机会。   目前数据科学的发展存在着如下几个问题:一是缺乏一个统一的平台。数据科学被瓜分到计算机科学、统计、数学、生物等学科。它们之间还缺乏应有的联系。这使数据科学的发展受到制约。二是数学作为数据科学的基础,其作用还没有被充分认识到,更没有充分发挥出来。这在一定程度上限制了数据科学研究的深度。三是企业界与学术界之间的相互影响还不够完善。企业界搜集的数据经常不够规范,企业界和学术界之间协同创新的模式还有待完善。   具体到我国的实际情况,在很多方面更是令人担忧。我国现行的教育和科研体制几乎将学科分类推到了极致。这更加不利于数据科学这样一个新型的、跨学科的领域的发展。另一方面,从谷歌、脸谱等例子来看,信息服务产业中许多最有创造性的想法都来自于年轻人。而我们国家所通行的教育方式,如中学的应试式教育和大学的灌输式教育都极大抑制了年轻人的创造性。    统一规划数据科学和信息产业发展   认识到这些以后,我们自然要问:怎样应对数据科学和信息服务产业所提出的新的要求?   从大学的层面来看,应该充分认识到数据科学发展的巨大空间,将数据科学提高到一个和自然科学并列的高度。以数学、计算机科学、统计、生物信息、金融和经济学、社会学等学科为依托,建立起一个数据科学的教育和科研平台。同时要建立起一个完整的本科生和研究生培养计划。这个教学计划的基础课程应该包括线性代数、逼近论、离散数学、概率论和随机过程以及数理统计等数学课程;同时也应包括数据库、数据结构、机器学习、数据挖掘等计算机科学的课程。   这里应该特别强调算法的重要性:没有高效的算法,所有的理论模型都将被束之高阁。而在传统的框架下,算法被分割到了计算数学和计算机科学两个学科中。这两个学科对算法研究的风格和出发点各不相同,但它们所研究的许多问题在本质上是相同的。数据科学的发展更是要求把这两种不同风格、不同背景的算法研究紧密结合起来。   课程设置仅仅是教学计划的一部分,更富有挑战性的是怎样创造出一个能充分发挥学生主动性和积极性的教育环境,并能使教学计划和信息服务产业的前瞻性需求紧密结合起来。   从企业界的角度来看,要充分认识到创新的重要性。中国本身就是一个很大的市场。其很多方面,如政策、语言、经济等方面的特点给国内的企业在占据国内市场方面提供了很多优势。但应该认识到,仅仅依靠这样的自然保护是难以持久发展的。要保证中国的信息产业能走到世界的前列,就必须走创新的道路,必须开拓国际市场。企业界应该学会充分利用大学和其他研究机构等资源来提高自己的创新能力。   从政府的层面来看,要把发展数据科学和信息服务产业作为一项战略计划来抓。充分认识到这是关系到国计民生,关系到国家的经济、科学和文化发展的根本利益和长远利益的一件大事。从组织、资源、政策等多方面制定出一整套的相关计划。   从我国的具体情况来看,政府的指导作用尤其重要。首先,我们必须有意识地积累数据这种资源并使之成为可利用的资源。这就需要政府在数据搜集、存储,特别是在开放数据等方面提供一系列的指导政策。其次,数据科学和信息服务产业的发展需要学术界和企业界的密切配合。政府可以通过各种方式鼓励这种配合,尤其是在前瞻性的研究方面。最后,数据科学是一门跨学科的领域,而我国目前的科研和教育体系对跨学科领域的发展是极为不利的。我们不能等体制方面的问题都解决了再去发展数据科学,而应该通过政府的一些引导措施有效避免体制方面的问题所造成的困难。   总的来说,数据科学的研究还处在一个初级阶段,尽管一些西方国家占据着领先位置,但所形成的差距还不是太大。从另一方面来讲,有理由相信数据科学和相关的信息产业比较适合中国人的习惯性思维。关键是我们必须把握住这个历史时机,迅速建立起一整套适合数据科学及相关的信息产业发展的体制和环境。要做到这一点,政府、学术界和企业界之间的密切配合是必不可少的。 作者简介 :鄂维南,男,泰州靖江人,1963年9月出生。中国科学院院士。现任北京大学长江讲座教授,同时也是美国普林斯顿大学教授。1978年考入中国科技大学数学系,1985年获得中科院计算数学所硕士学位,并在著名应用数学家BjornEngquist教授指导下获得美国加州大学洛杉矶分校博士学位。鄂维南教授从事的研究领域极其广泛,分布在数学、力学和理论物理的诸多方向,并均有重要的发现和贡献。他的研究把数学模型、分析和计算美妙地结合起来,并能对现实世界的重要现象提供新的见解。他还曾获得过美国青年科学家和工程师总统奖以及第五届国际工业与应用数学家大会科拉兹奖。
2764 次阅读|0 个评论
数据科学与信息服务产业
热度 10 WeinanE 2012-8-27 14:57
我们生活在一个信息时代,一个海量信息和海量数据的时代:互联网,计算技术,电子商务和各种其它的新兴技术使我们获取数据、分析数据和利用数据的能力有了一个本质的变化。这个变化正在不断深入地、全面地影响着我们的日常生活。由此也影响着社会、文化、国防和国民经济的发展。信息服务产业已成为发达国家经济转型的主要支柱。以谷歌和脸书为代表的信息服务企业,在短短几年的时间里就进入了全世界最大、最受瞩目的企业的行列。它们的发展速度是在传统的工业模式下难以想象的。它们的成功也展示了信息服务产业巨大的发展空间。另外,数据和信息资源已成为继人力资源和物质资源以外的第三大资源。数据资源的开发和利用将是未来社会和经济发展的主要手段之一,也应该成为制定国家长远发展计划需要考虑的主要因素之一。 我们自然要问,信息时代对社会,对政府,特别是对我们的教育和科学研究体制提出了什么样的新的要求;信息服务产业的科学基础是什么? 传统工业,尤其是制造业的科学基础是自然科学。物理学提供了自然科学最基本的原理。在此之上、化学、生命科学、地球物理、天文学以及各种各样的工程科学为传统工业提供了科学指导。从大学、科研机构,到企业、政府部门,我们都已经建立起了一整套教学、科研、开发、生产到市场的机制。 信息服务产业的科学基础是数据科学。简单说来,它由两个部分组成:即用数据的方法来研究科学和用科学的方法来研究数据。 先谈第一点。科学研究有两个最基本的模式,姑且叫做开普勒模式和牛顿模式。开普勒关于行星运动的三大定律完全是从前人所观察到的数据中所总结出来的。而牛顿则更进了一步,他寻求的是基本原理。他对行星运动规律的认识是建立在基本原理的基础之上的。牛顿不仅知其然,而且知其所以然。牛顿的认识无疑比开普勒要深刻得多。所以牛顿模式成了科学研究的首选模式。几百年来的科学研究都是沿着一条以寻求基本原理为目标,而从根本上认识世界,认识自然这样一条道路走过来的。 时至今日,科学家们在对基本原理的寻求方面取得了长足的进步。随着量子力学的建立,人们已经基本了解了在生命科学、化学、能源、环境等与日常生活息息相关的领域所需要的基本原理。现实的困难在于这些系统的复杂性 —— 从基本原理出发去理解这些系统在目前和不太遥远的未来基本上都是一件不可能的事情。牛顿模式因此而面临着难以逾越的困难。而另一方面,由于人们获取数据和分析数据能力的提高,从数据中直接总结出客观规律的开普勒模式的优势就体现了出来。生物信息学的成功就是一个很好的例子。 再谈第二点。从传统的角度来看,分析数据属于统计学的范畴。但近年来,随着机器学习、数据挖掘、生物信息、图像处理、信号处理等方面的发展,数据分析已经深入到了计算机科学、社会学、电子工程、生命科学、天文、地理、气象等各个领域。而且,从数据分析的角度来看,这些不同学科中的不同问题有着相当程度的统一性。正是这种统一性,使得数据科学有存在和发展的必要。 这里特别值得一提的是数学的作用。从根本上来讲,自然科学的基本原理来自于物理;而数据科学的基本原理则来自于数学。数据分析的主要手段就是给数据建立起数学结构。这种数学结构可以是多方面的:拓扑的、几何的、或代数的。最简单的结构是图的结构。 这也可以看作是一种拓扑结构。传统的统计学中最最常用的是分析方面的结构,如参数化模型。所以数据科学给数学也带来了许多根本性的问题:例如怎样把数据集(如网页)坐标化?怎样给数据集定义拓扑结构或曲率?怎样利用数据集中可能隐含的对称性?怎样设计高效的算法?怎样处理噪声,等等?数据和数,方程以及图形一样,也将成为数学研究的基本元素之一。这不仅能给数学的各个领域提供了新的问题,同时也会加深我们对数学中一些最基本的概念的认识。 数据科学中最受瞩目的成就之一是小波理论。系统的小波理论出现之前,人们对在信号处理中引进局部基函数和对信号按尺度作分解都有过很多的尝试。但这些工作都是经验性的,缺乏系统性。小波理论从根本上解决了这一问题。它使这些尝试性的工作由经验变成了科学。这样的转变是本质性的。它所带来的变化也是有目共睹的。压缩感知理论也经历了一个类似的过程。它所产生的影响也将是巨大的。 另外需要强调的一点是,由自然科学的成就转换成工业产品往往要经过一个漫长的过程。而数据科学则不同,数据科学与应用,与产业有着更为密切的联系。从小波理论的出现到它在图像处理方面的应用仅仅经过了几年的时间。正因为如此,对数据科学的研究更应该努力地走在最前沿:因为落后一步就意味着彻底失去机会。 目前数据科学的发展存在着如下几个问题:一是缺乏一个统一的平台。数据科学被瓜分到计算机科学、统计、数学、生物等等学科。他们之间还缺乏应有的联系。这使数据科学的发展受到了制约。二是数学作为数据科学的基础,其作用还没有被充分认识到,更没有充分发挥出来。这在一定程度上限制了数据科学研究的深度。三是企业界与学术界之间的相互影响还不够完善。企业界搜集的数据经常不够规范,企业界和学术界之间协同创新的模式还有待完善。 具体到我国的实际情况,在很多方面更是令人担忧。我国现行的教育和科研体制几乎将学科分类推到了极致。这更加不利于数据科学这样一个新型的,跨学科的领域的发展。另一方面,从谷歌、脸书等例子来看,信息服务产业中许多最有创造的想法都来自于年青人。而我们国家所通行的教育方式,如中学里的应试式教育和大学里的灌输式教育都极大地抑制了年青人的创造性。 认识到这些以后,我们自然要问:怎样应对数据科学和信息服务产业所提出的新的要求? 从大学的层面来看,应该充分认识到数据科学发展的巨大空间,将数据科学提高到一个和自然科学并列的高度。以数学、计算机科学、统计、生物信息、金融和经济学、社会学等学科为依托,建立起一个数据科学的教育和科研平台。要建立起一个完整的本科生和研究生培养计划。这个教学计划的基础课程应该包括象线性代数、逼近论、离散数学、概率论和随机过程、以及数理统计等数学课程;同时也应包括象数据库、数据结构、机器学习、数据挖掘等计算机科学的课程。 这里应该特别强调算法的重要性:没有高效的算法,所有的理论模型都将被束之于高阁。而在传统的框架下,算法被分割到了计算数学和计算机科学两个学科中。这两个学科对算法研究的风格和出发点各不相同,但它们所研究的许多问题在本质上是相同的。数据科学的发展更是要求把这两种不同风格,不同背景的算法研究紧密结合起来。 课程设置仅仅是这个教学计划的一部分,更富有挑战性的是怎样创造出一个能充分发挥学生主动性和积极性的教育环境,并能使教学计划和信息服务产业的前瞻性需求紧密结合起来。 从企业界的角度来看,要充分认识到创新的重要性。中国本身就是一个很大的市场。其很多方面,如政策、语言、经济等方面的特点给国内的企业在占据国内市场方面提供了很多优势。但应该认识到,仅仅依靠这样的自然保护是难以持久发展的。要保证中国的信息产业能走到世界的前列,就必须走创新的道路,必须开拓国际市场。企业界应该学会充分利用大学和其它研究机构等资源,来提高自己的创新能力。 从政府的层面来看,要把发展数据科学和信息服务产业作为一项战略计划来抓。充分认识到这是关系到国计民生,关系到国家的经济、科学、和文化发展的根本利益和长远利益的一件大事。从组织、资源、政策等多方面制定出一整套的相关计划。 从我国的具体情况来看,政府的指导作用尤其重要。首先,数据作为一种资源,我们必须有意识地积累这种资源并使之成为可利用的资源。这就需要政府在数据搜集、存储、特别是在开放数据等方面提供一系列的指导政策。其次,数据科学和信息服务产业的发展需要学术界和企业界的密切配合。政府可以通过各种方式鼓励这种配合,尤其是在前瞻性的研究方面。再次,数据科学是一门跨学科的领域,而我国目前的科研和教育体系对跨学科领域的发展是极为不利的。我们不能等体制方面的问题都解决了以后再去发展数据科学,而应该通过政府的一些引导性的措施来有效地避免体制方面的问题所造成的困难。 总的来说,数据科学的研究还处在一个初级阶段:尽管一些西方国家占据着领先位置,但所形成的差距还不是太大。从另一方面来讲,有理由相信数据科学和相关的信息产业比较适合于中国人的习惯性思维。关键是我们必须把握住这个历史时机,迅速建立起一整套适合于数据科学及相关的信息产业发展的体制和环境。要做到这一点,政府,学术界和企业界之间的密切配合是必不可少的。
2204 次阅读|14 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 11:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部