科学网

 找回密码
  注册
科学网 标签 推荐系统 相关日志

tag 标签: 推荐系统

相关日志

基于深度学习的推荐系统——“大数据与智能决策”讨论班
郭崇慧 2019-11-26 08:28
推荐系统 互联网的出现和普及给用户带来了大量的数据和信息,满足了用户在大数据时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(Information Overload)问题。 解决信息超载问题的一个有效途径是个性化推荐系统(Recommender Systems)。推荐系统根据用户的信息需求、兴趣等,利用推荐算法将用户感兴趣的信息、产品等推荐给用户。和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖。作为一种信息过滤系统,推荐系统具有主动性和个性化两个最显著的特性。 多数推荐系统的结构都是由线上和线下两部分组成。线下部分通过学习用户资料和行为日志建立模型,在新的上下文背景之下,计算相应的推荐内容,呈现于线上用户页面中。 图1 推荐系统的结构 目前,推荐系统已广泛应用于诸多领域,其中最典型的便是电子商务领域。ACM RecSys会议上最常提及的应用落地场景为:电子商务、在线视频、社交网络、在线音乐、互联网广告等,这些领域是推荐系统大展身手的舞台,也是近年来业界研究和应用推荐系统的重要实验场景。 基于深度神经网络的视频推荐 文献:Covington P, Adams J, Sargin E. Deep neural networks for YouTube recommendations //Proceedings of the 10th ACM conference on recommender systems. ACM, 2016: 191-198. 论文主要介绍了YouTube使用深度神经网络进行视频推荐的相关工作。文章发表在2016年ACM RecSys会议上,是利用深度学习进行推荐这方面研究中比较经典的文章。 一、引言 在YouTube视频推荐场景中,存在的主要挑战有3个: 1 、规模大。表现在用户和视频两个方面,首先YouTube宣称坐拥十亿用户,其次视频的存量巨大,是百万量级的视频,所以那种只能处理小规模数据的模型在YouTube推荐场景中是完全不能使用的。 2 、更新快。一方面,视频更新速度快,YouTube上每秒具有小时级别的视频进行上传;另一方面,用户的实时行为切换很快。要求模型能够捕捉到这些更新的信息。 3 、噪声。首先,用户的历史行为是存在噪声的,面对百万量级的视频,每个用户只对其中一小部分视频存在观看行为,所以用户观看的相关日志是高度稀疏的。再加上用户的行为会受到外界一些推荐系统察觉不到的因素影响,比如用户受诱导点击了一个视频,但这个视频不是用户关心的内容,用户并没有进行观看,如果我们把这次点击认为是用户喜欢此视频,就引入了噪声。其次,从视频本身来看,视频内容是非结构化的。这些都对模型的鲁棒性提出了很高的要求。 二、系统概述 针对以上挑战,YouTube使用了一个两阶段的推荐模型。 第一阶段是个深度召回模型,主要作用是从百万量级的视频里粗略筛选出几百个用户很可能感兴趣的视频,这一阶段对效率要求比较高,耗费较少的资源获得用户有很大可能喜欢的视频。在召回阶段,使用神经网络模型进行召回,实际上现在召回阶段大都使用多路召回,除了模型筛选出一部分视频外,可能还要根据视频的热度、具体业务需求等通过其他途径召回,多路召回的结果进入排序模型进行更细的排序筛选。 第二阶段是深度排序模型,对召回的结果进行更细致的筛选,这时相对召回阶段,排序阶段面临的数据量已经大大减少,所以可以引入更多视频相关以及用户相关的内容来进行内容的筛选,最后展示给用户十几条推荐内容。 图2 两阶段的推荐模型 三、召回模型 在召回模型部分,作者将推荐问题转化成一个多分类问题,其中视频库中的每一个视频各自对应着一种类别,推荐问题变为:在时刻t,给定用户以及上下文(观看记录、搜索记录等),预测用户接下来会观看哪一种类别的视频。如果我们能求得用户接下来看每种类别视频的概率,那么就可以按照概率,将概率大的视频筛选出来。所以召回模型训练阶段的样本如下: 输入:用户观看的视频记录+搜索记录等;标签:某个视频。 在构建训练样本的时候, 需要注意以下几点: 1 )作者使用的是用户隐性反馈数据,就是那些没有明确地表示出用户喜恶,但可以从中推测用户喜恶的数据。比如,用户观看了某个视频,系统就认为用户喜欢这个视频,用户搜索了某个视频,系统就认为用户喜欢这个视频等,这类的用户反馈就是隐性反馈。相对于显性反馈数据(明显表示出喜恶,如点赞、差评、问卷调查到的内容等),隐性反馈数据量比较大,在深度学习这种需要大规模数据的情况下使用隐性反馈数据是很合适的。 2 )在选择样本的时候,考虑的是整个YouTube上的用户日志(甚至用户在其他网站上的观看记录),而不是只考虑YouTube推荐系统的用户日志信息,这就能够更全面地捕捉用户偏好,而不是只受推荐结果诱导。 3 )对每个用户提取等数量的训练样本,而不是使用原始用户日志,减少活跃用户对模型的过度影响。 4 )作为标签的视频所处的时间点一定要在作为特征的视频的时间点之后, 传统的随机留一法没有考虑特征与标签的时间顺序,这点是不符合认知的。 5 )用户有一种观看新视频的偏好,作者引入了“视频年龄”这个特征表示样本的新鲜度,这样模型就能够很好的表示视频上传之后随时间的点击率分布,从而捕捉到一些视频新鲜度的信息。 四、排序模型 虽然神经网络的优势是能够自动产生高维的特征表示,但一些特征还是需要人工设计之后才能较好地表示。在排序阶段,引入了更多特征来表示视频及用户与视频之间关系,比如一个视频属于某个频道,那么就构造一个特征表示“用户看了多少这个频道的视频”,如果视频属于某个主题,就可以构造一个特征表示“用户上一次观看这一主题的视频是什么时候”,甚至还考虑了视频曾经是否曝光给用户等信息。 在排序阶段,作者将排序问题转化为一个二分类问题,原意是用样本数据来预测用户会不会对某个视频进行点击,其中,用户观看了的视频作为正样本,用户没有观看的视频作为负样本。但作者考虑到用点击率来表示用户喜好具有较大的偏差,比如,误点击、骗点击等都不能表示用户对视频的喜好,所以作者通过预测用户对一个视频的预期观看时长来代表用户对视频的喜爱程度。 为了能够使用逻辑回归预测视频预期观看时长,作者使用了加权逻辑回归,对于正样本,将其观看时间作为样本权重,对于负样本,权重为1。在训练阶段,标签仍然为0、1两类,但在线上使用阶段,输出 即为视频的预期观看时长。 备注:2019年10月22日晚上,“糖果之家”相约星期二,“大数据与智能决策”讨论班(Seminar)继续开讲,本次讨论班以推荐系统为题,共讨论了一篇文献,由硕士生进行讲解,共有青年教师、博士后、博士生和硕士生16人参加。
个人分类: 科研笔记|3233 次阅读|0 个评论
推荐系统与推荐方法
taiyangqi 2014-10-30 09:29
在这信息过载的时代,无论是信息生产者还是信息消费者都遇到了很大的挑战:对于信息消费者而言,从海量的信息中找到自己感兴趣的信息是一件非常困难的事情;对信息生产者而言,让自己生产的信息脱颖而出,受到广泛用户关注也是非常困难的事。推荐系统就是为了联系用户和信息,一方面帮助信息消费者发现对自己有价值的信息,另一方面让信息生产者生产的信息能够有针对性地展现在对它感兴趣的用户面前,实现用户和信息生产者间的共赢。推荐系统是能够通过用户行为的变化来改变用户浏览所看到的东西的系统。 推荐的思想如今已经得到广泛的使用,如相关搜索、话题推荐、电子商务的各种商品推荐、社交网络的交友推荐。 有代表性的企业如下: 亚马逊的个性化产品推荐,号称推荐之王 Netflix 的视频和DVD推荐(《纸牌屋》的成功拍摄是它大数据应用的另一个神话) Pandora 的音乐推荐 Facebook 的好友推荐 GoogleReader 的个性化阅读 各种个性化广告(亚马逊公司正在追求的行为广告) Foursquare的基于位置的服务。(餐馆推荐等) 雅虎垃圾邮件智能过滤。 当前主要推荐方法对比 推荐方法 定义 优点 缺点 基于内容推荐 认为用户会喜欢和他以前喜欢的物品在内容上相似的物品 没有冷启动和稀疏问题;没有新项目问题;透明性 新用户问题;不能显式利用其它用户的数据 协同过滤推荐 不依赖于用户的属性信息和物品的内容信息,仅仅通过分析大量的用户对物品的行为数据,从中找出特定行为模式,据此来预测用户的兴趣并做出推荐 新的兴趣点发现、不需要领域知识;推荐个性化;能处理复制的非结构化对象 新用户问题;质量取决于历史数据;初始推荐质量差 基于关联规则推荐 以关联规则为基础,把已购买商品作为规则头,规则体为推荐对象。 能发现新的兴趣点;不需要领域知识 规则的抽取好时且难;个性化程度低;产品名同义性问题 基于效用推荐 根据用户资料创建效用函数,基于效用函数做推荐 无冷启动和稀疏问题;对用户偏好变化敏感;加入考虑非产品特性问题 用户需提供多种信息以形成效用函数;推荐是静态的,灵活性差; 基于知识推荐 根据用户知识结构建模从而进行推荐 能考虑非产品特性 知识难以获取;推荐是静态的 推荐系统的性能优劣,很大程度上取决于推荐方法,它是整个推荐系统的核心和关键部分。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、 基于内容推荐 基于内容的推荐 (Content-based Recommendation)根据用户历史信息(如评价、分享、收藏过的文档)构成用户偏好文档,计算推荐项目与用户偏好文档的相似度,将最相似的项目推荐给用户。 它是建立在项目的内容信息上作出推荐的,而不需要依据其他用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户感兴趣的资料。 常用方法:常用决策树、神经网络和基于向量的表示方法来学习用户的资料形成用户资料模型。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。 例子:在电影推荐中,基于内容的推荐系统首先分析用户已经看过的打分比较高的电影的共性(演员、导演、风格等),再推荐与用户感兴趣的电影内容相似度很高的其他电影。 优点: 1.用户独立性:不需要其它用户的数据,没有冷启动问题和稀疏问题。 2.个性化:能为具有特殊兴趣爱好的用户进行推荐。 3. 能推荐新的或不是很流行的项目,没有新项目问题。 4. 透明性:通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。 5. 已有比较好的技术,如关于分类学习方面的技术已相当成熟。 缺点: 1. 内容过于规范:只能发现和用户已有兴趣相似的资源,不能为用户发现新的感兴趣的资源。 2. 新用户问题:当一个新的用户没有货很少对商品进行评分时,系统很难向用户提供可信的推荐 3. 要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。 二、 协同过滤推荐 协同过滤推荐(Collaborative Filtering Recommendation)基于一组兴趣相同的用户或项目进行的推荐,根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。分为基于用户的协同过滤算法和基于项目的协同过滤算法。 1) 基于用户(user-based)的协同过滤算法:在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以找到和他有相似兴趣的其他用户,然后把那些用户 的而用户A 听说过的物品推荐给A。(用户相似性度量—最近邻居查询—预测评分)。 UserCF给用户推荐那些和他们有共同兴趣偏好的用户喜欢的物品,它的推荐结果着重反映和用户兴趣点类似的小群体热点,它的推荐更社会化,反映了用户所在的小型兴趣群体中物品的热门程度。 2) 基于项目(item-based)的协同过滤算法:主要通过分析用户行为记录计算物品之间的相似度,物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都喜欢物品B。 ItemCF给用户推荐那些和他之前喜欢的物品类似的物品,它的推荐着重用户的历史兴趣,它的推荐更加个性化。 优点: 1.能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。 2. 共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。 3. 有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容,而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。 4. 能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。 缺点: 1. 用户对商品的评价非常稀疏,这样基于用户的评价所得到的用户间的相似性可能不准确(即稀疏性问题); 2. 随着用户和商品的增多,系统的性能会越来越低(即可扩展性问题); 3. 如果从来没有用户对某一商品加以评价,则这个商品就不可能被推荐(即最初评价问题)。 三、基于关联规则推荐 基于关联规则的推荐(Association Rule-based Recommendation)是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零售业中已经得到了成功的应用。关联规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。 以喜欢图书A的用户还喜欢其他哪些图书为例,说明推荐流程: 1. 数据清理:对用户和图书分别计数,过滤掉一些超不活跃的用户和超冷门的图书 2. 计算两两图书之间的支持度、置信度、提升度,根据最低支持度、最低置信度、最低提升度剪枝,把低于最小值的规则扔掉 3. 对图书A进行推荐:找出图书A的所有规则,按照置信度降序排序,Top-N即为和图书A最相关的前N本图书 四、 基于效用推荐 基于效用的推荐(Utility-based Recommendation)是建立在对用户使用项目的效用情况(不以该物品的价格为基础,而是该物品对人的有用程度,或是人对该物品的价值的认可程度)上计算的,其核心问题是怎么样为每一个用户去创建一个效用函数,因此,用户资料模型很大程度上是由系统所采用的效用函数决定的。基于效用推荐的好处是它能把非产品的属性,如提供商的可靠性(Vendor Reliability)和产品的可得性(ProductAvailability)等考虑到效用计算中。 五、 基于知识推荐 基于知识的推荐(Knowledge-basedRecommendation)在某种程度是可以看成是一种推理(Inference)技术,它不是建立在用户需要和偏好基础上推荐的。基于知识的方法因它们所用的功能知识不同而有明显区别。效用知识(Functional Knowledge)是一种关于一个项目如何满足某一特定用户的知识,因此能解释需要和推荐的关系,所以用户资料可以是任何能支持推理的知识结构,它可以是用户已经规范化的查询,也可以是一个更详细的用户需要的表示。 例子:用户一般隔好久才会购买相机,系统不可能构建用户记录或推荐其他人喜欢的相机,只能推荐畅销的机型,因此系统需要而外的因果知识生成推荐,这些有关用户和商品效用的额外信息(一般由用户提供),如用户喜欢冲洗大照片,那么高分辨率相机会好点,系统会询问用户有关特征的相对重要性,如分辨率是不是比重量更重要。 六、 组合推荐 由于各种推荐方法都有缺陷,所以实际运用中,组合推荐常被采用。通常是基于内容推荐和协同过滤推荐的组合。 组合方式有: 1. 加权(Weight):加权多种推荐技术结果 2. 变换(Switch):根据问题背景和实际情况或要求决定变换采用不同的推荐技术 3. 混合(Mixed):同时采用多种技术给出多种推荐结果为用户提供参考 4. 特征组合(Feature combination):组合来自不同推荐数据源的特征被另一种推荐算法所采用 5. 层叠(Cascade):先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐 6. 特征扩充(Feature augmentation):一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中 7. 元级别(meta-level):用一种推荐方法产生的模型作为另一种推荐方法的输入。 参考:推荐系统实践 项亮 推荐系统-项亮博士论文
个人分类: 读书笔记|5898 次阅读|0 个评论
Avoiding congestion in recommender systems
babyann519 2014-8-18 11:59
本文针对推荐系统广泛存在的系统拥塞问题,首次提出了一种量化推荐拥塞程度的指标并比较了几种经典推荐算法的抗拥塞能力。结果显示推荐精度高的算法抗拥塞能力往往很差,而那些能较好防止推荐用塞的算法推荐精度又很低。为了解决这一两难问题,作者基于有向含权网络上的热传导过程提出一种新的推荐算法 DWC(Directed Weighted Conduction) 。在多个数据集上的实验表明该算法与以往经典算法相比,能够在保持推荐的准确性和多样性的同时,有效避免推荐系统陷入拥塞。本文提出的算法可应用于有限资源的产品或服务的推荐中,在电子商务领域具有广泛的应用前景。 论文下载地址: http://iopscience.iop.org/1367-2630/16/6/063057 作者:Xiaolong Ren, Linyuan Lu*, Runran Liu and Jianlin Zhang 摘要:Recommender systems use the historical activities and personal profiles of users to uncover their preferences and recommend objects. Most of the previous methods are based on objects' (and/or users') similarity rather than on their difference. Such approaches are subject to a high risk of increasingly exposing users to a narrowing band of popular objects. As a result, a few objects may be recommended to an enormous number of users, resulting in the problem of recommendation congestion, which is to be avoided, especially when the recommended objects are limited resources. In order to quantitatively measure a recommendation algorithm's ability to avoid congestion, we proposed a new metric inspired by the Gini index, which is used to measure the inequality of the individual wealth distribution in an economy. Besides this, a new recommendation method called directed weighted conduction (DWC) was developed by considering the heat conduction process on a user-object bipartite network with different thermal conductivities. Experimental results obtained for three benchmark data sets showed that the DWC algorithm can effectively avoid system congestion, and greatly improve the novelty and diversity, while retaining relatively high accuracy, in comparison with the state-of-the-art methods.
个人分类: 科研工作|10397 次阅读|0 个评论
万有引力与网络科学-兼论科学网在具体科研工作中的正能量
热度 7 zico 2014-3-20 13:56
2013 年上映的电影《地心引力》浓墨重彩地描述了人类 失去 赖以生存的母体作用,生命也将随时面临危机,其关联关系显而易见。然而,万有引力与网络科学,与互联网有什么关系呢? 最近,虎哥的处女作 ” Gravity Effects on Information Filtering and Network Evolving ” 刚刚在 PLoSONE 上发表,详细地阐述了这方面的研究进展。 利用万有引力模型,进行社会经济信息方面的研究由来已久。如人口迁移 ,国际贸易 ,交通分析 ,人类空间行为预测 等。然而,在人类在线行为分析、建模和预测的工作中,万有引力模型的应用还很少见。本文利用人们的在线标注行为中的蕴藏的丰富信息,将用户和物品的标签数视为“质量”,将二者之间的共同兴趣大小 ( 相同标签个数 ) 视为“距离”,这样很自然地将引力模型引入到推荐系统中,刻画和预测未知二元关系的似然程度。进一步地,为了理解“万有引力”和网络增长的关系,我们将所改进的引力模型和 ER 及 BA 模型进行比较,发现基于引力模型演化的网络,其拓扑性质比 ER 、 BA 等随机网络更加贴近真实网络结构。总结而言,本文的贡献有以下三点: 1. 将万有引力模型引入到推荐系统中,方法简洁而新颖,结果也更优; 2. 基于兴趣的万有引力模型,比随机网络模型更能刻画真实网络; 3. 在推荐算法设计中,没有像传统推荐模型一样,显式地利用网络关系,而是从人的兴趣行为这一根本驱动力出发,匹配“人 - 物”这一对二元关系。更优算法的结果预示着人的兴趣行为可以用来有效地预测网络结构。这种从网络底层到网络表层的预测方法,越来越显示出一系列有趣、有效也更有解释性的优越性,我们在后面其他的工作中还会持续介绍。 另外,本文用到的数据,可在 论文官方网页 上提供免费下载。 编后注:利用引力模型做信息推荐,最初的灵感来自于博友 章成志 对博主一篇博文的评论,并介绍了一篇相关的计算机会议论文。当时我看完后,第一感觉是,问题很有趣,方法太繁琐,有如隔靴搔痒般的不爽利。经过大家几番试验后,终于采用最接近引力模型原始方式来处理。可以说,本工作完全是来自于科学网互动交流的启发。本文在最后也特别致谢了 章成志 博友。 参考文献:  Karemera D, Oguledo VI, Davis B (2000) Agravity model analysis of international migration to north america. Appl Econ 32: 1745 – 1755. Rose AK (2004) Do we really know that thewto increases trade. Am Econ Rev 94: 98 – 114. Jung, WS, Wang F, Stanley, HE (2008)Gravity model in the Korean highway. EPL. 81: 48005 Simini, F, Gonz á lez MC, Maritan A, Barab á si, AL (2012). A universal model for mobility and migration patterns. Nature 484, 96-100 论文信息 :Jin-Hu Liu, Zi-Ke Zhang, Chengcheng Yang, Lingjiao Chen, Chuang Liu, XueqiWang. Gravity Effects on Information Filtering and Network Evolving. PLoS ONE 9(2014) e91070. 论文在线: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0091070 本地下载: 2014PO-Gravity Effects on Information Filtering and Network Evolving.pdf
个人分类: 科研笔记|6408 次阅读|18 个评论
搭建轻量级的开源推荐系统-Python-recsys
热度 2 maoxianmenlian 2013-11-23 15:04
昨天看到 清风运文 一条微博,推荐系统开源软件汇总和评点: http://weibo.com/1527369027/AhDVst56j 于是就想搭建一个学习下,挑了一个最简单的Python-recsys。 网址是: https://github.com/ocelma/python-recsys 我昨天是打算在自己电脑上安装的,但折腾了一天也没装好,翻遍了国内国外的相关网页,主要是因为我电脑是64位的操作系统,很多python安装包水土不服,安装Divisi2就一直没通过,昨天一直到今天上午都在 http://csc.media.mit.edu/docs/divisi2/install.html 这个页面停滞不前,搞得灰头土脸。 下午找了一台win7 32位的操作系统,竟然就装好了!激动之情难以言说,总算没枉费我这两天的心血。 1、先安装python-2.7.6, http://www.python.org/download/releases/2.7.6/ (不要用Python3.3.3!因为Python 3比起2语法规则有变化,且不兼容2,而当前的很多python工具包都是基于2的,用Python3编译会各种错误) 2、下载并安装setuptools-1.3.2.win32-py2.7.exe、numpy-MKL-1.8.0.win32-py2.7.exe、networkx-1.8.1.win32-py2.7.exe、pip-1.4.1.win32-py2.7.exe、scipy-0.13.1.win32-py2.7.exe。(一个都不能少)可以在官方页面,也可以在 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 3、安装MinGW,标配即可。(依照 http://csc.media.mit.edu/docs/divisi2/install.html 的要求) 4、添加环境变量:C:\Python27\Scripts;C:\Python27;C:\MinGW\bin 5、下载 python-recsys ,进入目录,执行python setup.py install 安装成功。 6、下载MovieLens 1M数据 :http://grouplens.org/datasets/movielens/ 7、执行 python-recsys 下面的代码测试下系统,注意filename要改成本地目录。
个人分类: python|15150 次阅读|4 个评论
《现代信息检索-研究进展》课程总结
热度 1 leileiya 2013-7-14 21:01
6月24日到28日每天上午8:30-12:00,美国匹兹堡大学何大庆副教授给我们 讲授了《现代信息检索研究进展》课程。 课程共五天,每天一个研究话题,依次为信息检索中 用户建模和推荐系统、交互检索系统、协同检索行为、社会检索 、公民科学,每一个话题都是信息检索领域的最新最前沿的话题,现将每天课程进行总结。 第一天话题为用户建模和推荐系统。何老师给我们讲解了信息检索相关的基础知识。信息检索即为根据用户的需要从按一定方式组织起来的信息中找出有关信息的过程和技术。随着大数据时代的到来以及非结构化数据量急剧增大,给信息检索的研究提出了更大的挑战,如何从大量的信息中准确的找到用户需要的信息,是信息检索研究的核心内容。接着何老师给我们具体讲解了信息检索中用户建模和推荐系统的相关内容。用户建模就是明确、理解和定义用户的信息需要的过程。用户建模具体包括3个方面,第一个为用户信息需求,即为通过用户提交的查询式明确具体的用户信息需求;第二个是用户的基本信息,包括用户的教育背景、工作、年龄、技能等;第三个是用户对现有资源和系统的评价。对于用户信息的收集可以通过两者方式,一种是利用显性方式,直接让用户填写相关信息,一种是利用隐性方式,通过用户的浏览、点击、保存等行为推测用户的相关信息。接下来一个重要的问题就是在信息检索的过程中何时使用构建的用户模型,何老师给我们讲解了三者方式:第一种是应用于用户的查询式,第二种是应用于搜索引擎,第三种是应用于查询结果。每一种方式都有其优缺点,没有形成统一的认识,值得深入讨论。推荐系统根据用户的兴趣特点和行为,向用户推荐用户感兴趣的信息和商品。推荐算法有很多种,但是基础的是三种,第一种是基于内容的推荐系统,根据用户的购买历史、用户的好恶进行推荐;第二种是协同推荐系统,根据其他相似用户的购买行为进行推荐;第三种是上述两种方法的结合。最后何老师就用户建模和推荐系统相关研究中可以提升的部分进行了讲解,包括如何使推荐系统透明化,让用户明确推荐系统的用途;如何鼓励用户多进行资源评价;以及跨领域推荐和用户信息安全与保密工作。 第二节课讲授了交互检索系统相关内容。现有的检索系统缺乏与用户动态的交互,仅仅只是查询式与文档的匹配过程。信息检索本身就是一个用户和系统进行交互的过程,首先是用户提交查询式的过程,用户在此过程中需要用查询式明确的表达自己的信息需求,系统可以通过与用户交互,使用户提供更多的信息,例如系统可以通过提供搜索提示,来丰富用户的查询内容。接着就是查询结果表达的过程,在此过程中系统需要高效的识别用户需要的信息,并以用户可以理解的方式展示出来。例如google使用的KWIC资源表示方式,是一种一维的展现方式,同样的也可以使用二维、三维的展现方式。由于资源的类型多种多样,也可以将不同的资料类型分类检索出来,也可以将检索结果按照已有的分类体系进行分类展示,也可以对检索出的结果进行聚类处理,以便用户可以选择自己需要的类别。查询出的结果如果用户不是很满意,下一步的想法就是更改查询式,此时系统可以在上次查询出的界面中显示相关查询式以便用户更改查询式。接着何老师给我们简单的讲解了手机的检索交互问题,用户在手机端进行检索时有着特殊的特点,注重时效性、位置信息、没有很多的时间来浏览网页等,这件要求界面的设计简单明了,要提供更多的查询结果信息而不是链接,提供更多的查询途径,例如通过语音的方式等,此领域还有很大的提升途径,值得深入研究。最后何老师就交互检索系统相关研究中可以提升的部分进行了讲解,包括提供全球信息检索服务、将国外检索信息翻译成本国语言进行检索等。 第三节课讲授了协同检索行为相关内容。现有的检索系统只是针对一个用户的查询目标,现实情况中存在一些人同时完成一个查询目标的情况,可能是同时进行,也可能是异步进行。根据协同检索行为参与者的分工不同可以将协同检索系统分为对称协同检索和非对称协同检索,对称协同检索中参与者的分工相同,一般为两人,而非对称协同检索中参与者分工不同,一般为多人。协同检索的参与者可能处于同一地点,也可能位于不同的地点。何老师讲到现有的研究主要集中在两个人协同检索的行为上,对于多个人由于分工的不同情况复杂,值得深入研究。接着何老师讲解了已有的协同检索系统,包括参与者交流部分、检索历史、推荐查询式、查询结果关键词表示、当前的检索页面及其相关评论和排序。最后何老师就协同检索行为相关研究中可以提升的部分进行了讲解,包括不同年龄、地位、知识水平参与者的协同系统设计、使用不同设备的协同检索系统设计等。 第四节课讲授了社会信息检索相关内容。何老师提出随着互联网的发展,产生了大量的用户生成内容(UGC),其可以分为两类,一类是显性的UGC包括社会化标签、评论、排序,一类是隐性的UGC包括用户查询式、点击浏览情况,这些信息就给我们提供了大量可供我们研究用户的数据,通过研究这些数据可以帮助用户更好的获取社会信息。首先讲解了社会化标签和信息检索的关系。社会化标签已经普遍利用在图片、图书、视频、URL上,已有对delicious上URL的标签与用户查询式重合度进行研究、将标签与主题词进行比对研究。接着讲解了社会检索的相关问题,最有代表性的就是Google++检索,Google++是一个SNS社交网站,在这个社交网站上你可以和不同兴趣的好友分享好玩的东西。其中一个功能就是用户提交了一个问题,系统可以在你的好友中寻找可以回答此问题的人,然后将回答结果第一时间返回给用户。下来讲解了社会问答系统,如中国的百度知道、soso问问等,国外的yahoo answers,都是社会问答系统,何老师讲解了现有对问答系统的研究集中在对问答系统中用户的研究、问题领域研究、回答速度研究、回答质量研究以及将社会问答系统与图书馆参考咨询服务的比较研究。最后何老师就社会信息检索相关研究中可以提升的部分进行了讲解,包括社会信息获取方式会越来越广泛、如何鼓励用户参与网络社交活动、如何保护用户的隐私、如果组织社会信息等方面。 第五节课讲授了公民科学相关内容。何老师首先给我们介绍了公民科学的基本概念。大量没受过专业训练的业余科学爱好者,通过网络组织的号召,去参与科研任务,这种科研组织模式被称为公民科学。例如最早的圣诞节数鸟工程,就是由公民自发参与的科研活动,参与者通过网络传输数据;将古籍上的文字取出,由不同地域的参与者共同翻译;从航海日志中分析过去的天气信息。公民科学项目可以分为四类,分别是Community-based field work、Observation Network、Virtual Data Processing、Participatory Sensing。最后何老师就公民科学相关研究中可以提升的部分进行了讲解,包括参与者的动机、地域的问题、数据的使用维护和更新问题等。 通过这一周的学习,我们受益很多,了解了信息检索领域的前沿热点问题,对我们以后的科研有很多的启示,值得我们好好学习回顾。
3930 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 17:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部