科学网

 找回密码
  注册

tag 标签: 推荐算法

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

机器学习之关联分析——Apriori算法一
iggcas010 2018-6-19 23:53
千呼万唤始出来,犹抱琵琶半遮面。 本文仍旧进展很慢,因为 纯粹的说教毫无意义,不放代码的博文都是耍流氓。 本文暂时耍个流氓,明天或者后天将代码补上这里。因为这周比较忙,开始慌了。 \0 \0 \0 \0 一、Apriori 到底是什么 ? 学过 反演理论 的童鞋应该对 A priori 不陌生,对,就是‘一个先验信息’,先验信息在优化问题、数值求解中非常重要。如果先验信息找的好,非常省力,求解时间很短,找的不好可能得不到真实解,也可能无解。 1.1 先验信息到是什么? 我们对要求解的问题总会或多或少地知道 ‘一点’答案信息,比如双色球,蓝球肯定是 1~16 之间,红球肯定是在 1~33 之间,并且 6 个球不一样,顺序无要求。有人说,这是废话,知道这些东西还是中不了奖,哈哈,正常!再比如,我可以知道你要么单身,要么有对象,如果有对象,虽然我猜不到你对象是男女,但我能猜到你对象一般应该有两个胳膊、两条腿,不要说就你特殊哈,不耐烦了吧,其实 先验信息就是依据惯例所知道的东西,关键在于怎么用。 在上次的博文中提到路边摊卖的早点,根据先验信息,我们知道五种食品的组合(项集)只有以下几种(不可能出现什么都不买,让老板给你打印个购物单,肯定怼死你, “ 神经病 ”)。若采用暴力算法去算,经繁琐计算知道其项集组合应该有下面 31 种情况,分别是组合 ,其和就是31。采用二项式系数展开定理我们知道,如果有 n 个项,那么所有的项集有?种可能(如果自己推不出,可以发邮件问我) 上图在排列组合过程中很费劲,因为要把所有的情况考虑到,因此暴力算法也称蛮力算法、穷举算法。如果某店铺有 20 种零食,它们的项集有多少种可能呢?来,心算一下,结果是 1048576-1=1048575 ,你把这个数字给老板还不一巴掌啪死你。因此,我们要考虑实际情况,参照实际的售卖情况进行简单的统计, 如果出现某个项集(比如 { 油条,豆浆 } )的概率较大(也就是频繁),那么我们可以确定出现 { 油条 } 或 { 豆浆 } 的概率也很大 ,这就是所谓的 Apriori 原理, R U Clear? 这是什么鬼??它的逆否命题为, 如果子集不频繁,那么该子集的超集也不频繁 。 1.2 超集是什么? 在上一个博文中,支持度的概念里面应该提到超集,支持度是出现的项集只要包含指定项集即可,也可能有其他项。此时,包含项集的集合就是超集,超集的概念与子集相对。咱玩点文字游戏:空集是任何非空集合的真子集,此时的非空集合就是空集的真超集。 任何集合都是它本身的子集,同样也是它本身的超集。( 无聊 ) Apriori原理很强,如果儿子不肖,那么老子也不怎么样!是不是很强?! 咱回到初衷 ——关联分析,那么 关联分析的目的 就是 寻找频繁项集,并发掘关联规则 那么Apriori到底有什么用,是不是还没发现? 回想一下怎么提出 Apriori 的,是不是因为项的组合——项集太多,而不能用暴力算法计算,又因为我们只关注频繁项集,对于那些不频繁的项集就不予考虑,而 Apriori 就是一种发现频繁项集的方法,如果 { 豆浆 , 香肠 } 是不频繁项集,那么它的超集也是不频繁的,其支持度无需再计算了。因此 Apriori 只需知道最小的 支持度( 这是需要知道的参数,需要指定 ) ,将大于该支持度的项集保留,而其他项集去掉。这就是Apriori的具体作用。 1.3 伪代码在这 那么Apriori算法流程是:参考人民邮电出版社《机器学习实战》 1 首先生成所有单个物品的项集列表 2 遍历数据集中所有项集,将不满足最小支持度的项集去掉 3 对剩下的项集组合,生成包含两个元素的项集 4 重新遍历数据集,去掉不满足最小支持度的项集 5 重复上述过程,直到所有项集都被去掉 代码在哪里?欲知后事如何,且听下回分解。 (还在调代码中……)
6090 次阅读|0 个评论
推荐算法——排序算法
chrisyi 2013-11-10 22:39
coming 11月16日
个人分类: 推荐系统|2027 次阅读|0 个评论
浅谈推荐系统
热度 1 chrisyi 2013-11-10 22:30
从12年11月至今,我的工作主线是推荐系统,一年的时间内,踩过许多的坑,说不完的血和泪。用户的投诉,同事的质疑等等,这些都是我进步的因素。 本文对推荐算法和推荐系统的架构进行总结,希望以后能够做的更好。 第一部分,推荐系统的算法篇。 (1)排序算法——特征的提取、正负样本选择 (2)链路预测——社交网络的 (3)社会化推荐——好友信任度 第二部分,推荐系统的架构篇。 (1)离线计算系统(Hadoop,实现推荐算法,算法调度) (2)在线计算系统(实时调整推荐结果) (3)算法ABTEST通道设计 (4)用户行为反馈系统
个人分类: 推荐系统|2038 次阅读|1 个评论
文献推荐算法
xiaoronglv 2012-9-29 15:19
google新闻可以推荐相关的新闻给我,google reader可以基于我的订阅推荐相关的博文。今天我在思考,文献的推荐算法问题。顺手整理了一下思路。 1. 引用关系 如果两篇文献引用的参考文献相同,那么相关性必然很高 2. 关键词 Keywords:两篇文章的关键词如果相同,可能有相关性 MeSH词:收录到PubMed中的医学文献都被标引了MeSH词,如果相同可以作为参考依据 SCI Topic:被SCI收录的数据库都被标引了主题词,可以作为参考依据 以上方法也有缺陷,忽略了词与词之间的关系,比如父子级。 3. 余弦定理 方法来自吴军博士的书籍《数学之美》 取出文章所有的实词,对他们的TF/IDF值进行排序,计算两篇文献的向量夹角。 如果当两篇文献向量的夹角为0,说明是论文抄袭, 如果接近1,说明高相关, 如果接近0,说明不相关。 如果每篇文献都两辆比较,计算量大,不现实,可以采用矩阵运算中的奇异值分解(SVD) 这是我能想到的所有方法,抛砖引玉,各位看官如果有更好的建议,可以留言给我。 原文链接: http://www.mednoter.com/archives/503.html
个人分类: 数据库|4386 次阅读|0 个评论
哈哈,PRE文章发出来啦:基于偏向热传导的信息过滤算法
热度 3 halcon 2011-9-14 21:29
物质扩散和热传导过程物理过程已经在信息过滤领域发挥了重要作用:基于物质扩散过程的推荐算法可以提供很高的准确度,但在推荐列表多样性方面表现一般。而基于热传导过程的算法具有很高的推荐多样性,然而,准确性却表现不佳。我们认为,热传导算法之所以表现不佳,其原因在于给非流行的产品过多的权重。因此应该适当地给予度信息不太小的产品一些推荐权重,也提出了相应的基于偏向热传导的推荐算法。尽管操作简单,但是算法的准确度却可以和混合算法 达到相当的准确度,而推荐列表多样性比混合算法的结果还要好。 进一步对推荐列表中的产品进行分析发现,算法之所以表现好是以为既能将流行产品放到推荐列表的顶端,也能适当地将冷门产品放在推荐列表的顶端。这与Facebook中用户的兴趣可以分为两大类(大众都喜欢的流行产品和自己独特喜好的冷门产品)的结果相吻合。 Information filtering via biased heat conduction Heat conduction process hasrecently found its application in personalized recommendation , which is of highdiversity but low accuracy. By decreasing the temperatures ofsmall-degree objects, we present an improved algorithm, calledbiased heat conduction (BHC), which could simultaneously enhance theaccuracy and diversity. Extensive experimental analyses demonstratethat the accuracy on MovieLens, Netflix and Delicious datasets couldbe improved by 43.5%, 55.4% and 19.2% compared with the standardheat conduction algorithm, and the diversity is also increased orapproximately unchanged. Further statistical analyses suggest thatthe present algorithm could simultaneously identify users'mainstream and special tastes, resulting in better performance thanthe standard heat conduction algorithm. This work provides acreditable way for highly efficient information filtering. PhysRevE.84.037101.pdf
5126 次阅读|6 个评论
推荐系统最新进展
热度 9 babyann519 2011-7-1 16:27
推荐系统最新进展
Information filtering via preferential diffusion Linyuan L ü and Weiping Liu Phys. Rev. E 83, 066119 (2011) 全文链接: http://pre.aps.org/abstract/PRE/v83/i6/e066119 全文下载: Information Filtering via Preferential Diffusion.pdf Recommender systems have shown great potential in addressing the information overload problem, namely helping users in finding interesting and relevant objects within a huge information space. Some physical dynamics, including the heat conduction process and mass or energy diffusion on networks, have recently found applications in personalized recommendation. Most of the previous studies focus overwhelmingly on recommendation accuracy as the only important factor, while overlooking the significance of diversity and novelty that indeed provide the vitality of the system. In this paper, we propose a recommendation algorithm based on the preferential diffusion process on a user-object bipartite network. Numerical analyses on two benchmark data sets, MovieLens and Netflix , indicate that our method outperforms the state-of-the-art methods. Specifically, it can not only provide more accurate recommendations, but also generate more diverse and novel recommendations by accurately recommending unpopular objects. 一个好的推荐算法不仅要有高的精确度(即推荐的东西用户喜欢)也要有一定的多样性。这里的多样性有两个方面: 1) 针对一个用户而言的多样性:推荐算法能够找到用户喜欢的冷门 item 的能力。比如我喜欢动画片,如果推荐系统给我推荐了《功夫熊猫 2 》我肯定喜欢(高精确度),但是我并不满意这次推荐,因为对于这种热片我早已在电影院看过了。相比较如果能给我推荐一部我不知道的动画片,又符合我的口味,那么这次推荐就是相当成功的。我们用 Intrasimilarity 刻画这种多样性。一个用户的推荐列表中推荐产品的相似性越低表示推荐多样性越高。 PD 算法在此方面具有优势。 一个好的推荐算法能够开拓用户的视野,就像一个凹透镜可将用户的兴趣发散出去,当然这种发散也最好是在不影响精度的前提下进行。 2) 用户间的推荐多样性:针对不同用户的推荐尽可能的不同。这个指标用两个推荐列表的 Hamming 距离衡量,即在长度为 L 的两个推荐列表中有多少是不同的 item 。显然此值越大表示越多样。 给定推荐列表长度 L ,针对一种推荐算法统计推荐的结果中不同的 item 数目,以及每个 item 被推荐的次数 Q ,按照 Q 从大到小排序得到下图。其中 NBI 为最基本的物质扩散算法 , HPH 为物质扩散和热传导的混合算法 。可以看出,相比较 NBI 和 HPH , PD 能够推荐更多不同的 item 给用户。例如在 MovieLens 数据集上,当 L=50 时, NBI 只能推荐 293 个 item , HPH 可以推荐 787 个,而 PD 可以推荐上千种产品。在 Netflix 上, PD 可以推荐 5000 以上的产品。由于 Neflix 一共才 5586 个 item ,这意味着几乎所有的 item 都有机会被推荐。由此可见, PD 能够产生更加多样性的推荐结果。 推荐系统的大部分研究过分强调了推荐的精确性而忽略了多样性问题。然而精确的推荐不一定是用户满意的推荐。用户更喜欢新奇的体验,从而在很大程度上提高系统的粘性。虽然已经有一些指标刻画推荐的满意度,如 half-life utility ,但是这些指标是否能够反应真实系统中用户的体验感呢?如何设计以用户体验为中心的推荐系统仍然是一个长期具有挑战的的问题。
个人分类: 科研工作|9467 次阅读|18 个评论
[转载]贾春晓博士论文摘要--基于复杂网络的推荐算法和合作行为研究
热度 2 bhwangustc 2011-6-12 15:24
基于复杂网络的推荐算法和合作行为研究 贾春晓 随着社会和经济的快速发展,人类的生活方式发生了巨大的变化。对人类行为的分析与解读已成为一个重要的研究课题。近些年来,复杂网络的兴起及快速发展,使其已经成为探索自然界和社会系统中很多问题的重要工具。另外,计算机技术的快速发展,使大量数据的采集和统计都成为可能,这也为很多问题的研究提供了新的思路和方法。本文中我们首先介绍了一些复杂网络的背景知识,然后重点介绍了基于网络的推荐算法和网络上合作行为的研究。 随着人们面临的信息爆炸性增长,在这些海量信息中想找出自己感兴趣的信息越来越难。个性化推荐被认为是解决这个问题的有效途径。个性化推荐算法是通过对用户历史行为进行分析,揭示用户习惯和喜好。然后据此帮助用户找出他们可能感兴趣的信息。我们的一个重要工作是对基于网络推荐算法的改进。不同于以往的算法,在资源扩散过程中,我们不仅考虑了接收节点收到资源的量,而且还考虑了它自身所拥有资源的影响,即节点收到资源的相对的量要比绝对量更具有参考意义。利用一个真实数据集,计算发现适当的加强对度大节点(即流行产品)的推荐,不仅可以大幅提高算法的精度,而且还可以大幅提高算法的个性化程度。另外,我们还提出了一种改进的协同过滤算法。与原来算法不同的是,在计算事物相似性的时候不仅考虑它们公共属性的影响,还考虑公共属性流行程度的影响。我们认为公共属性越流行的,其对相似性的贡献越小,越不流行的属性,越具有更个性化的特征,其对相似性的贡献也就越大。引入这种公共属性对事物相似性的负相关作用,我们提出了修正的协同过滤算法。计算发现不论是以用户为基还是以产品为基,新算法所得推荐列表的准确性都比原来的算法有很大的提高。 我们知道很多个体间的相互作用可以抽象成特定的网络。博弈行为在人类社会和动物界中是普遍存在的。研究网络上个体间的博弈过程,可以对自然社会中合作现象有一些探索。 在现实生活中,普遍存在着各种不确定的因素,这些不确定因素可能会直接影响到个体的适应能力。因此个体的适应能力会存在一定程度的涨落。在本文中我们以囚徒困境博弈为例,研究了个体适应性的涨落对二维规则格子和 NW 小世界网络上的合作演化的影响。引入了两个参数 和 表征适应性涨落的情况,其中 表示适应性涨落的个体比例, 表示适应性涨落的幅度。模拟发现在涨落幅度不是很大而涨落人数适中的情况下,合作频率会得到加强。我们的结果对理解现实生活中在涨落情况下合作的涌现有一定的帮助。另外我们还研究了遗传性对公共物品博弈和囚徒困境博弈的影响。遗传性在真实的生物系统和社会系统中是一种普遍特性,子代可以遗传父代的相关特征,例如适应性﹑策略以及父代学习策略的方式等。考虑个体适应性受遗传因素和当前收益影响,研究发现个体遗传性的引入,可以使合作簇有效的抵御背叛者的入侵,从而使合作行为能够持续存在。最后我们还研究了地理距离对命名博弈的影响。众所周知,人类语言的形成是个复杂而漫长的过程,各地的语言有各地的特点,但是随着社会的发展,不同语言之间相互影响和渗透,其中地域在语言的形成和发展过程中的影响不可忽视。我们以一个简单的命名博弈为模型,研究地理距离对整个博弈过程的影响。模拟发现过长或过短的加边长度都不利于最终一致的形成,只有适当的加边长度才有利于一致意见的形成。文中还详细研究了整个博弈过程中相关参数的变化,例如最大词汇数目﹑不同词汇数﹑收敛时间等。 已经发表论文: Chun-Xiao Jia , Run-Ran Liu, Han-Xin Yang, and Bing-Hong Wang, “Effects of fluctuations on the evolution of cooperation in the prisoner's dilemma game”, EPL 90, (2010) 30001. Chun-Xiao Jia , Run-Ran Liu, Duo Sun, and Bing-Hong Wang, “A new weighting method in network-based recommendation”, Physica A 387, (2008) 5887. Run-Ran Liu, Chun-Xiao Jia , Tao Zhou, and Bing-Hong Wang, “Personal recommendation via modified collaborative filtering”, Physica A 388, (2009) 462. Run-Ran Liu, Chun-Xiao Jia , Han-Xin Yang, and Bing-Hong Wang, “Naming game on small-world networks with geographical effects”, Physica A 388, (2009) 3615. Run-Ran Liu, Chun-Xiao Jia, and Bing-Hong Wang, “Effects of heritability on evolutionary cooperation in spatial prisoner’s dilemma games”, Physics Procedia 3, (2010) 1853. Run-Ran Liu, Chun-Xiao Jia , and Bing-Hong Wang, “Heritability promotes cooperation in spatial public goods games”, Physica A 389, (2010) 5719. Run-Ran Liu, Zhihai Rong, Chun-Xiao Jia , and Bing-Hong Wang, “Effects of diverse inertia on scale-free-networked prisoner's dilemma games”, EPL 91, (2010) 20002. Run-Ran Liu, Jian-Guo Liu, Chun-Xiao Jia , and Bing-Hong Wang, “Personal recommendation via unequal resource allocation on bipartite networks”, Physica A 389, (2010) 3282. Wen-Bo Du, Xian-Bin Cao, Run-Ran Liu, and Chun-Xiao Jia , “The effect of a history-fitness-based updating rule on evolutionary games”, IJMPC 21, (2010) 1433. Duo Sun, Tao Zhou, Jian-Guo Liu, Run-Ran Liu, Chun-Xiao Jia, and Bing-Hong Wang, “Information filtering based on transferring similarity” , Phys. Rev. E 80, (2009) 017101.
个人分类: 博士论文|3342 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 05:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部