complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

关联规则挖掘 之 时间关联

已有 28607 次阅读 2011-6-9 22:43 |个人分类:生活点滴|系统分类:科研笔记|关键词:学者| style, 空间, 消费者

相对于空间关联而言,时间关联的研究和应用都比较少,但事实上其应用价值并不一定比空间关联逊色!其实,顺序关联和周期关联两种模式都非常容易理解。顺序关联是指购买了商品X的消费者,倾向于在一个特定的时间间隔后购买商品Y。更严格地说,如果商品X和商品Y之间存在很强的时间关联性,则所有购买过XY的消费者购买XY的间隔时间的分布具有一个比较窄而高的峰值。要特别注意的是,刚才我们讲的空间关联,只是顺序时间关联的一个特例,对应的峰值在间隔时间为0处。举个简单的例子,如果一位消费者今天购买了一罐针对半岁幼儿的奶粉,那么大约半年后,他会购买针对一岁幼儿的奶粉,也就是说半岁奶粉和一岁奶粉这两个商品被同一个消费者购买的时间间隔分布在半年左右会有一个峰。

周期关联和空间关联与顺序时间关联不同,不是两个商品之间的关联,而是同一个商品在被同一个消费者购买时在购买时间上的周期性。举个例子来说,如果一个家庭,总是在同一个超市购买酱油,而每瓶500毫升的酱油大约使用25天,那么该商品针对此消费者的销售时间间隔总是在25天左右。如果把所有购买过这种酱油至少两次的消费者的购买间隔时间放在一起,相应的时间间隔分布在25天左右会存在峰值。这里要注意的是,有的时候消费者会购买多件商品,所以需要归一化。如果某消费者今天购买了3瓶酱油,下次购买酱油的时间是在60天后,则应该认为单位商品对应的间隔是20天。由于不同消费者消耗同一件商品的速率不同(酱油可以是一个人用,一个家庭用,甚至一个餐馆用),所以噪音很大。另外,有些用户或许会在两次购买某商品X的中间,在另外一个地方购买过X,造成周期变长的假想。周期关联挖掘虽然看起来很直观,事实上还没有比较成熟的技术,一般而言都是通过数据分析,先判断哪些商品可能存在销售上的周期性,然后需要人工帮助一起进行判断。

时间关联挖掘中要注意的一个特别重要的问题,就是选择合适的数据粒度!这里要特别小心一个误区,就是并非数据分辨率越高,关联挖掘效果就越好。举个例子来说,一般消费者对于纸巾的品牌依赖度比较小,在超市里面可能随意选取或者购买当时的打折品。如果在单个商品的粒度上,噪音非常大(消费者很可能会在两次购买同一款纸巾之间购买其他纸巾),往往无法挖掘有效关联;但是如果在类目的粒度上(例如抽纸类),虽然消费者更换了品牌,但是单位数量抽纸消耗的时间往往能够比较清晰的反映出来。事实上,我们只需要知道消费者快要用完抽纸,在这个时候就可以通过电子邮件促销的方式通知他购买,至于具体推荐哪种品牌的抽纸,反而不那么重要——可以是当期促销品,可以是用户以前购买最多的,可以是新品推广,也可以是用户上次购买的款式。针对数据比较稀疏,噪音比较大的环境,选择较大粒度进行分析,往往会得到更好的效果。当然,粒度的选择本身也是很困难,不同类商品的最佳粒度可能很不一样,有的可以到单品,有的到品牌,有的只能到类目。

时间关联挖掘能够从数据交叉融合中得到更大的益处。考虑两个购物网站AB,如果要进行AB之间商品的空间关联挖掘,就必须要分析几乎同一时间在A站和B站进行过消费的用户。遗憾的是,这样的用户非常少,即便是针对较相关的垂直电子商务网站,例如麦包包和名鞋库,访问过一个电商后一个月内访问过另外一个的用户比例一般都不到1%,都有购买行为的就更加微乎其微了。这种情况下进行空间关联挖掘的效果是有限的[1]。时间关联挖掘则完全不需要在AB站同时有访问或者购买行为的用户。只要存在一些在两个网站都出现的单品或者类目,就可以把两处的消费者行为直接合并起来处理。


[1] 尽管如此,我们最近以麦包包和果皮网的数据为例进行的研究发现,利用交叉数据进行空间关联分析,然后基于此做推荐,其精确性可以超过随机推荐50倍。



https://m.sciencenet.cn/blog-3075-453443.html

上一篇:H++
下一篇:搜索引擎 vs. 推荐引擎

8 田灿荣 杨华磊 唐常杰 徐迎晓 潘玮 赵志丹 叶文菁 langmalee

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 21:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部