博文

坎坷——要按步就班

已有 3196 次阅读 2011-4-3 10:52 |系统分类:科研笔记|关键词:学者

有了每天的工作计划，工作效率确实有所提高，然而如果工作实施计划出现了纰漏，就真的要痛哭流涕了。本次事件发生于近几天，由于颠倒了实验原本需要的次序，使得前几天的工作全部成为了泡沫。

前些天开始了一个数据挖掘的比赛，拖了几天终于开始进行实验。由于之前的工作中用到的数据，几乎都是大家非常熟悉其结构特征之类的都比较清楚的，因此在这次拿到数据之后，只看了一下数据类型，就开始设计方法准备进行实验了。

首先想了一个简单的方法，仅仅是基于每个节点的能力（影响力、受欢迎程度），得到了结果并提交，发现效果并不如预想的那么好，但却没有更多的去想是否是数据的问题；之后就回到了本行，将Jaccard相似度指标作了改进，想应用到这个试验中，就这样如火如荼的搞了两天，算法调试通过，在手绘的小网络上表现良好，然后屁颠屁颠地拿去跑大的实验数据，发现傻眼了，怎么得到的分数值几乎全都是0呢……直到这个时候，才开始怀疑，这个数据是否根本构不成网络，而只是像一朵朵菊花，或已开、或未开。

没办法，回到实验本该进行的第一步，分析数据。这个数据中，本有数十万的用于，然而在给定的训练集中，却仅给出了15000个活跃用户，即为这些个用户进行了推荐，而被推荐的用户也仅仅有55871个，这15000个和55871个用户之间却仅仅有96是重合的；在测试集中，类似的问题也同样存在，10433 VS 54409，但是重合的用户较多，有7490个；关键是对比训练集和测试集后会发现，在15000和10433这些用户中没有一个是相同的，而对于55871和54409这些用户，也仅有356个是相同的。

至此……彻底无语……什么基于结构的方法就不用在这里搞了，什么协同过滤思想也在此也是空谈……只有老老实实的去训练一些参数，直接根据属性就行了！真的是泪流满面啊！

谨以此文记住这次教训，不要再犯！

转载本文请联系原作者获取授权，同时请注明本文来自张千明科学网博客。
链接地址：https://m.sciencenet.cn/blog-458509-429252.html

上一篇：链路预测：三阶路径VS二阶路径
下一篇：琼花开了~ 花大如盘

收藏分享

当前推荐数：1 推荐人：张伟

发表评论评论 (15 个评论)

数据加载中...

返回顶部

张千明

扫一扫，分享此博文

全部作者的精选博文

• 有感于菜鸟撰写报告

ZhangQM的个人博客分享 http://blog.sciencenet.cn/u/ZhangQM

博文

坎坷——要按步就班

当前推荐数：1 推荐人：张伟

发表评论评论 (15 个评论)

张千明

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

ZhangQM的个人博客分享 http://blog.sciencenet.cn/u/ZhangQM

博文

坎坷——要按步就班

当前推荐数：1 推荐人： 张伟

发表评论 评论 (15 个评论)

张千明

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：张伟

发表评论评论 (15 个评论)