101实验室分享 http://blog.sciencenet.cn/u/yneversky 1. 数据库、数据挖掘、机器学习 2. 系统计算

博文

应该做什么样的研究:以Google为例 精选

已有 16422 次阅读 2013-1-6 01:46 |系统分类:观点评述|关键词:学者| google


今天一早,读到了闵老师的博文“科学网应该为科技强国做贡献”,里面主张工程技术研究应该更多地面向实际应用。对此我深表赞同,这里我想以Google公司为例,说说我的感触,算是对闵老师博文的读后感。

无庸置疑,Google公司是当今世界信息产业的翘楚,同时,我们更应该看到,它和微软等一大批知名公司一样,也是信息技术的研究者和开拓者。且不说Google创立之初提出的PageRank算法解决了网页排名问题,在一定程度上奠定了实用的现代信息搜索产业的基础,单说最近比较热门的、跟大家生活工作密切相关的云计算和大数据,其成功应用和深入研究,正是以Google的研究成果为基础的。2003年,Google在19th ACM Symposium on Operating Systems Principles (SOSP‘03)上发表论文,提出了Google File System(GFS)[1],用以支持以搜索引擎为典型实例的大规模、分布式、数据密集应用,解决了海量数据的底层存储和检索问题。2004年,Google接着在6th Symposium on Operating Systems Design & Implementation (OSDI 2004)上发表论文,提出了MapReduce计算架构及其实现[2],解决了海量数据的分布式计算处理问题。2006年,Google又在OSDI 2006上发表论文,提出了Bigtable架构及其实现[3],解决了海量数据,尤其是海量超链接数据的结构化存储和检索问题。

Google的上述三篇经典论文,都出现在高水平的会议论文集中,既不被SCI检索,也不被EI检索,按现在国内的主流评价方式,完全是垃圾。但正是这三篇经典“垃圾”,真正突破了云计算和大数据应用的主要瓶颈,奠定了这两个相关领域的应用基础和研究基础。这三篇论文所发表的研究成果,是Google公司每天都在实际运行的系统、无数用户每天都在实际应用的技术,经受住了实践的检验。这三篇论文对于云计算和大数据两个领域的研究和产业应用的影响是深远的。这三篇论文的引用次数分别为:2781、6124、1623,其内容已经写进教科书。同时,我们看到,这三篇论文出来之后,掀起了云计算和大数据应用和研究的热潮,Amazon、微软等纷纷推出了自己云计算平台。此外,值得一提的是,作为对Google上述三篇论文的开源实现,Hadoop的出现让更多的草根研究者也有机会玩儿云计算和大数据,一时间各种层次的学术论文和应用系统汗牛充栋。

值得注意的是,在这三篇论文之后,Google公司并没有止步于此,还有一些高水平论文陆续出来,例如在OSDI 2010,Google发表论文指出采用MapReduce在更新海量索引时因为其批处理方式而效率较低,提出了海量数据索引的增量式更新算法[4],我们完全有理由相信,这些算法,也正在实践中得到切实的应用。

这就是Google,和以Google为代表的一大批产业巨头们做的应用基础科研。其特点是从实际应用中来,到实际应用中去,其结果是引领产业方向。它们熟悉产业实际,非常清楚哪些基础性问题需要研究,哪些基础性问题值得研究。它们的研究从应用出发,从用户的需要出发,既有现实性,又有预见性,有理论价值,也有实践价值。尤其可贵的是,它们积极参与学术交流,乐于与学术界、产业界同行分享自己已被证明有效的研究成果,它们才是真正的产学研高手。

也许有人会说,只有Google这样财大气粗的公司,才有能力做这些研究。我完全不赞同这样的说法!首先,Google花的是自己的钱,它在成立之初,也没有什么钱。而我们花的是纳税人的钱,国家每年花这么多纳税人的钱(远超Google),但我们心思尽放在SCI甚至是垃圾SCI上去了,不能不说是舍本逐末。其次,这里的重点不在于要求人人都要做象Google这样的全局性、突破性的研究。这里的重点在于我们研究的出发点和目的是什么,以及如何评价我们的研究。

要想成为科技强国,至少在信息技术领域,有了Google这样的镜子,我们应该怎么做,是不言而喻的。

[1] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. 2003. The Google file system. SIGOPS Oper. Syst. Rev. 37, 5 (October 2003), 29-43. gfs-sosp2003[1].pdf
[2] Jeffrey Dean and Sanjay Ghemawat. MapReduce: Simplied Data Processing on Large Clusters. In OSDI 2004.mapreduce-osdi04[1].pdf
[3] D. A., BURROWS, M., CHANDRA, T., FIKES, A., AND GRUBER, R. E. Bigtable: A distributed storage system for structured data. In 7th OSDI (Nov. 2006), pp. 205–218.bigtable-osdi06[1].pdf
[4] Peng, Daniel, and Frank Dabek. "Large-scale incremental processing using distributed transactions and notifications." In Proceedings of the 9th USENIX conference on Operating systems design and implementation, pp. 1-15. USENIX Association, 2010.Large-scale Incremental Processing Using Distributed Transactions and Notifications.PDF




https://m.sciencenet.cn/blog-64396-649988.html


下一篇:从稀疏数据中重建隐藏轨迹 CIKM 2016论文

42 李天成 曹聪 杨建军 李伟钢 许培扬 苏德辰 闵应骅 王英安 温世正 柯浩 魏武 王恪铭 喻海良 吴浩宇 武夷山 曹裕波 肖建华 石磊 刘洋 曹征 杨海涛 范丁丁 吴桂生 葛兆斌 陈冬生 何学锋 杨洪强 陈其林 孙学军 李汝江 庄世宇 包云岗 宁利中 陶代琴 章成志 刘锋 王枫 李宁 唐常杰 田刚 张强 zzjtcm

该博文允许注册用户评论 请点击登录 评论 (45 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 04:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部