博文

大数据的商业、科学和弊端精选

已有 32952 次阅读 2013-2-6 17:14 |个人分类:生活点滴|系统分类:科普集锦|关键词:学者| 大数据

一个简短的书面采访纪要，供大家参考拍砖~~

也吹了吹互联网科学中心和百分点科技~~

----------------------------------------------

问题一：什么是大数据？

“大数据”首先是指规模大的数据，但又不仅如此。“大数据”还有“交叉复用”和“全息可见”两个特征。

如果每一个数据都是一个孤岛，只能在其直接关联的领域发挥自身的价值，那么这不是值得我们兴奋的所谓“大数据”。我们要找到和实现数据之间一加一远大于二的价值，也就是发挥数据的外部性。譬如国家电网的用电数据可以用于判断经济走势，移动通讯基站定位数据可以用于优化城市交通设计，微博上的关注关系和内容信息可以用于购物推荐和广告推送……以用户为中心，结合用户在不同系统留下的数据，充分利用个性化的数据挖掘技术，是实现通过数据交叉而产生巨大价值的最可行的途径。一句话，大数据要求数据能充分发挥其外部性并通过与某些相关数据交叉融合产生远大于简单加和的巨大价值！

如果谷歌把每天所有更新的数据按照他们内部约定的格式开放给一个三四个人组成的科研或创业团队，这种仁善之举不会对这个团队有任何的帮助，因为他们没有针对这种量级的数据进行检索、抓取、计算、分析的能力。也许他们仅仅只对数据内部的一个特定逻辑片段有兴趣，但是他们没有办法知道这个逻辑片段位于这个数据的哪个位置，以及通过什么办法获取。想象一个披着盔甲的二维生物，其他二维生物无法看到它的内部，但是我们作为三维人，却可以通过第三个维度看到它所有的一切细节——低维物品对于高维生物而言是全息可见的。所以说，大数据规模可以很大，但是用起来应该举重若轻，像操作“小数据”一样简单，这就要求数据组织地非常好，内部的各种内容及关联清晰可见且容易调用获取，使得一般研究人员和开发人员可以自如获取数据的逻辑片段并进行分析处理。

问题二：大数据时代下的商业未来是什么样的？

大数据时代最尖锐的矛盾之一，是可获取信息量的爆炸性增长和用户甄别选择信息能力的有限性。大数据时代最重要的机会这一，是大量数据开始围绕个人流动。结合矛盾和机会，我认为在大数据时代，个性化将颠覆一切传统商业模式，成为未来商业发展的终极方向和新驱动力。

随着消费者个体行为数据的爆发性增长，新的商业理论与商业模式不断涌现，无论是精准社会化营销还是基于用户偏好的市场细分，其所指向的趋势是一致的，即为每一个终端消费者提供他们最想要的产品与服务。大数据为个性化商业应用提供了充足的养分和可持续发展的沃土，基于交叉融合后的可流转性数据,以及全息可见的消费者个体行为与偏好数据，未来的商业可以精准地根据每一位消费者不同的兴趣与偏好为他们提供专属性的个性化产品和服务。

在以互联网和移动互联网为代表的信息产业，由于用户个体行为数据的可追踪性以及实施个性化的边际成本相对较低，基于个性化的商业应用首先破茧而出。在我国电子商务领域，百分点科技率先通过个性化技术为用户进行智能导购，大幅提升用户体验与销售业绩。而更好信息服务的基础，恰是基于百分点科技累积的2亿多不同用户对8000多万种商品的浏览、收藏、购物等行为。百分点科技亦在媒体、金融、医疗等领域尝试提供个性化服务。在不远的未来，个性化技术与应用将全面扩展到人们生活的每一个领域。

我建议读者结合阅读牛津大学互联网研究所维克托教授的著作《大数据时代》和北京大学光华管理学院苏萌教授的著作《个性化：商业的未来》，必有所获。

问题三：大数据时代最核心的科学问题是什么？

预测是大数据最核心的科学问题。目前学术界主要关心两类预测问题，一是趋势预测，二是缺失信息预测。

趋势预测是指通过事物的一些基本属性信息和早期的态势分析，预测事物发展的轨迹和最终影响力。譬如通过分析社交网络中注册一个月的用户的行为以及这些用户与其他用户的互动，预测哪些用户将来会成为很有影响力的用户；通过用户-商品二部分图中产品的早期表现，例如一首新歌或一个新歌手上线一周的情况，来预测这首歌或者这个歌手有没有可能走红；通过一条信息早期数小时在微博网络上的传播情况，来预测这条信息最终的影响力等等。趋势预测的经济价值重大。互联网科学中心曾与华为合作研发了手机彩铃下载量预测系统，该系统帮助营销部门设计市场推广策略，获得了巨大的经济回报。

缺失信息预测假设我们观察到的信息只是全部真实信息的一部分，在这个基础上探讨如何利用当前信息去预测未观察到得信息。譬如我们现在通过实验所知道的蛋白质之间的相关作用关系只是全部关系中很小的一部分，但是实验验证费用昂贵，通过预测，预先判断哪些蛋白质之间可能有相互作用并以此指导实验，能够大大节省实验成本。又比如，新浪微博上的关注对象推荐是一种典型的缺失信息预测，因为做出推荐的基本假设是“某甲应该关注某乙，只不过现在还没有关注”。

问题四：大数据会带来什么弊端？

同一切新兴事物一样，大数据向我们展现美好前景的同时，也会带来若干不安因素。其中，站在普通用户的角度，我觉得最应该担心的是隐私泄露的问题。隐私问题一直存在，但是以前泄露的方式和途径比较零散，而大数据的技术和理念，使得企业和政府有可能以前所未有的力度和粒度掌握我们个人的信息，拼出一个人的全景信息。

与战战兢兢于如何更好保护自己的观念不同，我认为普通用户如果要真正融入大数据时代，享受个性化专属信息服务，不得不牺牲一部分个人隐私——实际上，即便你不愿意，一般用户也没有能力保护自己的隐私。所以，付出巨大努力，放弃很多有意义的服务，尝试保护自己，往往是得不偿失。反过来，政府和业界需要做的，是设计非常苛刻严格的法律条例和行业规则，全力打击那些除了提供非侵入性的或用户同意的服务外，还以伤害用户的方式利用用户隐私牟利的企业。通过提高侵害用户隐私的惩罚力度，使得这种行为本身变得得不偿失，这才是根本治理的办法。

对于其他可能的弊端也应类似，一方面要提高用户的警惕性，另一方面也不能把防范弊端的担子放到用户身上，而要由政府和业界承担更多责任！

转载本文请联系原作者获取授权，同时请注明本文来自周涛科学网博客。
链接地址：https://m.sciencenet.cn/blog-3075-660056.html

上一篇：Zipf定律和Heaps定律之间的关系
下一篇：我的谷歌学术主页-欢迎访问

收藏分享

complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

大数据的商业、科学和弊端精选

当前推荐数：21 推荐人：许培扬 刘钢 肖重发 曹聪 张洁 杨海涛 薛宇 李天成 徐建良 罗春元 徐大彬 赵凤光 徐晓 俞立平 龚凯 李本先 周猛 丁国如 王桂颖 fishman936 rosejump

该博文允许注册用户评论请点击登录评论 (18 个评论)

周涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

大数据的商业、科学和弊端 精选

当前推荐数：21 推荐人： 许培扬 刘钢 肖重发 曹聪 张洁 杨海涛 薛宇 李天成 徐建良 罗春元 徐大彬 赵凤光 徐晓 俞立平 龚凯 李本先 周猛 丁国如 王桂颖 fishman936 rosejump

该博文允许注册用户评论 请点击登录 评论 (18 个评论)

周涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

大数据的商业、科学和弊端精选

当前推荐数：21 推荐人：许培扬刘钢肖重发曹聪张洁杨海涛薛宇李天成徐建良罗春元徐大彬赵凤光徐晓俞立平龚凯李本先周猛丁国如王桂颖 fishman936 rosejump

该博文允许注册用户评论请点击登录评论 (18 个评论)