博文

科普协同过滤[改良版本] 精选

已有 26524 次阅读 2011-8-17 12:21 |个人分类:生活点滴|系统分类:科研笔记|关键词:学者

原版本：http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=456134

[因为有博友说我原来讲协同过滤存在的问题讲得不清楚，不好意思]

协同过滤是最早提出，研究最深入，商业应用最广泛的个性化技术[1]。协同过滤技术服务的对象是个体，却利用了所有用户的信息。

在以用户为中心，基于相似性的经典协同过滤算法中，首先通过比较历史数据，计算目标用户和其他用户的相似性，然后把和目标用户非常相似的用户喜欢的商品推荐给目标用户。计算相似性的办法非常多[2]，在讨论关联规则时提到的方法（参考上一篇主流推荐算法评述的文章），例如Cosine相似性（分母是两个用户购买商品数目乘积的平方根）和Jaccard相似性（分母是两个用户购买商品的并集大小），都是常用的。举个例子，如果用户A购买了商品1,2,3，用户B购买了商品2,3,4,5，则分母是共同购买的商品数2，Cosine相似性等于2除以根号下3乘4，约为0.577，Jaccard相似性则是2除以5，等于0.4。得到相似性后，可以把所有其他用户对商品的评价按照相似性加权求和的方式排序，推荐给目标用户；也可以选择相似性最高的k个用户，只考虑他们的影响；还可以设定一个相似性阈值，只考虑相似性高于这个阈值的用户的影响。

上面讲到的协同过滤，是以用户为中心的。另外一种应用非常广泛的方法，是以商品为中心的，一般叫做基于商品的协同过滤。这种方法的基本思路是，分析目标用户购买过的商品，向其推荐和他曾经购买过的商品相似的商品。考虑互联网用户兴趣的实时性，一般而言只分析用户近期的购买行为，或者认为以前的购买行为对当前推荐的影响是随着时间递减的。在定义商品的相似性的时候，既可以通过行为，也就是看两个商品是否频繁被同一个用户购买过，也可以通过内容，也就是看两个商品的属性或者描述是否具有相似性。后者和接下来要讲的内容分析紧密结合，事实上，Amazon所使用的推荐算法的核心就是建立在内容分析基础上的基于商品的协同过滤[3]。由于图书的内容很丰富，判断内容之间的相似性非常准确，所以该方法在Amazon上效果很好。但是需要注意的是，这种方法移植到其他商品的推荐上，效果可能大打折扣。

基于商品的协同过滤方法有两个特别的优势：一是方便设计实时响应的算法，因为商品之间的相似性可以离线计算，这样的话，用户每次浏览新的商品后，包括放入购物车或者购买，容易实时计算并立刻更新用户看到的推荐商品栏；二是该方法可解释性强，因为在对用户进行推荐的时候，可以告诉用户推荐给你这个商品的主要原因是因为参考了你曾经购买或者浏览的若干商品——可解释性可以大大提高用户体验，在个性化电子邮件营销中有很大用途。与之相对，基于用户的协同过滤可以挖掘一些更深层次的潜在关联，帮助提高交叉销售量，也就是在用户购买某品类产品的时候，向用户推荐其他品类的产品，从而提高用户购买的多样性。这不仅仅是眼前提高了用户的客单价，更重要的是扩充了用户新的购物品类，从而可以整体提高该用户的价值。基于商品的协同过滤往往倾向于推荐同品类商品，在交叉销售方面价值较小。

这两种方法遇到的一个共同的问题就是倾向于推荐热门产品。如果用户是从网上买食品或者生活家具用品，推荐热门的东西没有问题。但如果用户是希望买书、在线看电影或者浏览新闻，总是推荐大热门会降低用户的体验，让用户觉得这个服务无法带来任何信息价值——推荐的东西大部分我已经知道了！从这个意义上讲，提高信息价值，提高推荐的多样性和新颖性，使非常重要的。事实上，如何在不伤害推荐精确性的前提下提高推荐的多样性和新颖性，是个性化推荐技术研究的重大挑战[4,5]。2011年10月芝加哥召开的推荐系统ACM年会上，我们将组织了一个专门的研讨班讨论推荐的多样性和新颖性[6]。

在利用用户行为计算相似性的时候，另外一个需要注意的问题，就是每一个共同选择的商品，其对相似性的贡献原则上应该是不一样的。以看电影电视为例，如果知道两个用户同时看过新闻联播或者春节联欢晚会，很难说他们有什么共同的兴趣，因为这实在太“流行”了！反过来，如果两个用户都看过《德州电锯杀人狂》，那么我们就知道他们都是金属级重口味！当然，我们无法先验地知道哪些商品蕴涵的价值大，一种简单的办法就是降低共同选择流行商品对相似性的贡献。尽管这个思路非常简单，我们最近的尝试发现，其效果非常明显[7,8]。事实上，在计算商品的相似度的时候，可以考虑降低购物狂对商品相似度的影响，也能得到很好的效果[9]。

[1] X. Su, T. M. Khoshgoftaar, A survey of collaborative filtering techniques, Advances in Artificial Intelligence (2009) 4.

[2] L. Lü, T. Zhou, Link prediction in complex networks: a survey, Physica A 390 (2011) 1150-1170.

[3] G. Linden, B. Smith, J. York, Amazon.com recommendations: item-to-item collaborative filtering, IEEE Internet Computing 7(1) (2003) 76-80.

[4] C.-N. Ziegler, S. M. McNee, J. A. Konstan, G. Lausen, Improving recommendation lists through topic diversification, Proceedings of the 14th international conference on World Wide Web, ACM Press, New York, 2005.

[5] T. Zhou, Z. Kuscsik, J.-G. Liu, M. Medo, J. R. Wakeling, Y.-C. Zhang, Solving the apparent diversity-accuracy dilemma of recommender systems, Proceedings of the National Academy of Sciences of the United States of America 107 (2010) 4511-4515.

[6] ACM推荐系统年会 http://recsys.acm.org/2011/index.shtml；推荐系统的多样性和新颖性研讨班 http://ir.ii.uam.es/divers2011/.

[7] T. Zhou, L.-L. Jiang, R.-Q. Su, Y.-C. Zhang, Effect of initial configuration on network-based recommendation, Europhysics Letters 81 (2008) 58004.

[8] T. Zhou, L. Lü, Y.-C. Zhang, Predicting missing links via local information, The European Physical Journal B 71 (2009) 623-630.

[9] R.-R. Liu, C.-X. Jia, T. Zhou, D. Sun, B.-H. Wang, Personal Recommendation via Modified Collaborative Filtering, Physica A 388 (2009) 462-468.

转载本文请联系原作者获取授权，同时请注明本文来自周涛科学网博客。
链接地址：https://m.sciencenet.cn/blog-3075-476226.html

上一篇：负责任地使用微博的9大原则
下一篇：个性化推荐引擎获720万美元融资

收藏分享

complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

科普协同过滤[改良版本] 精选

当前推荐数：10 推荐人：杨华磊 谢鑫 赵凤光 许小可 王启云 章成志 武夷山 赵金丽 张千明 年福忠

该博文允许注册用户评论请点击登录评论 (15 个评论)

周涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

科普协同过滤[改良版本] 精选

当前推荐数：10 推荐人： 杨华磊 谢鑫 赵凤光 许小可 王启云 章成志 武夷山 赵金丽 张千明 年福忠

该博文允许注册用户评论 请点击登录 评论 (15 个评论)

周涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：10 推荐人：杨华磊谢鑫赵凤光许小可王启云章成志武夷山赵金丽张千明年福忠

该博文允许注册用户评论请点击登录评论 (15 个评论)