ZhangQM的个人博客分享 http://blog.sciencenet.cn/u/ZhangQM

博文

坎坷——要按步就班

已有 3196 次阅读 2011-4-3 10:52 |系统分类:科研笔记|关键词:学者

有了每天的工作计划,工作效率确实有所提高,然而如果工作实施计划出现了纰漏,就真的要痛哭流涕了。本次事件发生于近几天,由于颠倒了实验原本需要的次序,使得前几天的工作全部成为了泡沫。

前些天开始了一个数据挖掘的比赛,拖了几天终于开始进行实验。由于之前的工作中用到的数据,几乎都是大家非常熟悉其结构特征之类的都比较清楚的,因此在这次拿到数据之后,只看了一下数据类型,就开始设计方法准备进行实验了。

首先想了一个简单的方法,仅仅是基于每个节点的能力(影响力、受欢迎程度),得到了结果并提交,发现效果并不如预想的那么好,但却没有更多的去想是否是数据的问题;之后就回到了本行,将Jaccard相似度指标作了改进,想应用到这个试验中,就这样如火如荼的搞了两天,算法调试通过,在手绘的小网络上表现良好,然后屁颠屁颠地拿去跑大的实验数据,发现傻眼了,怎么得到的分数值几乎全都是0呢……直到这个时候,才开始怀疑,这个数据是否根本构不成网络,而只是像一朵朵菊花,或已开、或未开。

没办法,回到实验本该进行的第一步,分析数据。这个数据中,本有数十万的用于,然而在给定的训练集中,却仅给出了15000个活跃用户,即为这些个用户进行了推荐,而被推荐的用户也仅仅有55871个,这15000个和55871个用户之间却仅仅有96是重合的;在测试集中,类似的问题也同样存在,10433 VS 54409,但是重合的用户较多,有7490个;关键是对比训练集和测试集后会发现,在1500010433这些用户中没有一个是相同的,而对于5587154409这些用户,也仅有356个是相同的。

至此……彻底无语……什么基于结构的方法就不用在这里搞了,什么协同过滤思想也在此也是空谈……只有老老实实的去训练一些参数,直接根据属性就行了!真的是泪流满面啊!

谨以此文记住这次教训,不要再犯!



https://m.sciencenet.cn/blog-458509-429252.html

上一篇:链路预测:三阶路径VS二阶路径
下一篇:琼花开了~ 花大如盘

1 张伟

发表评论 评论 (15 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-21 00:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部