tiangang的个人博客分享 http://blog.sciencenet.cn/u/tiangang

博文

试验1总结

已有 2552 次阅读 2013-3-8 11:09 |个人分类:试验|系统分类:科研笔记|关键词:学者| 用户, 试验, 网页

经过2天不间断的调试,终于把试验1所需要的环境搭建成功,总结下问题,顺便给自己鼓鼓劲,希望得出点结论的时候能够拿个导师看看。
1、遇到的困难。
1.1win7下的ie保护模式权限问题。
 从win7开始,开启了保护模式之后bho的权限受到极大的限制。为了把从浏览器抓取到的数据记录下来,先后采用了写xml,io写文件,数据库,web服务的多种技术。其中前三种都不能再保护模式下运行,web服务可以使用,但是有参数长度限制,导致网页源码无法存放。
解决办法:很简单,把保护模式关闭,哈哈...
因为我的目的是做试验,采集我自己访问网页的数据,所以开放保护模式没有关系,如果是网站采集用户的数据,肯定要重新考虑。
1.2试验流程
1、设计一个浏览器扩展BHO,当我每次点击一个网页的时候,通过BHO获取下列信息(iday 日期, itime 事件, iurl 网址, loadtime 网页加载时间, staytime 我在该网页的停留事件, pageinfo 网页源代码, homepage 网页所属的网站)
在点击流仓库的设计中,很多研究都是基于网站日志,最后做出的分析都是基于用户访问的轨迹,停留时间等等,我设计方案和他们不同的地方在于 基于网页源码的语义分析我的访问习惯。这一点应该是创新的地方,语义+机器学习+点击流分析--》用户访问习惯模型--》个性化推荐。
2、因为存储过程将网页源码插入数据库总是出现问题,而将源码存放于文件夹下已经成功,所以放弃用数据库存放源码的方式。第二步的工作是将采集到的源代码存放到我的本机服务器
3、下一步的工作是阅读网页源码语义抽取的方法
4、根据语义聚类学习分析。
 
 

面向微博的信息抽取研究 刘晓华 自然语言处理组 微软亚洲研究院



https://m.sciencenet.cn/blog-794010-668297.html

上一篇:试验1
下一篇:流数据处理方法

1 李本先

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 01:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部