博文

试验1总结

已有 2552 次阅读 2013-3-8 11:09 |个人分类:试验|系统分类:科研笔记|关键词:学者| 用户, 试验, 网页

经过2天不间断的调试，终于把试验1所需要的环境搭建成功，总结下问题，顺便给自己鼓鼓劲，希望得出点结论的时候能够拿个导师看看。

1、遇到的困难。

1.1win7下的ie保护模式权限问题。

从win7开始，开启了保护模式之后bho的权限受到极大的限制。为了把从浏览器抓取到的数据记录下来，先后采用了写xml，io写文件，数据库，web服务的多种技术。其中前三种都不能再保护模式下运行，web服务可以使用，但是有参数长度限制，导致网页源码无法存放。

解决办法：很简单，把保护模式关闭，哈哈...

因为我的目的是做试验，采集我自己访问网页的数据，所以开放保护模式没有关系，如果是网站采集用户的数据，肯定要重新考虑。

1.2试验流程

1、设计一个浏览器扩展BHO，当我每次点击一个网页的时候，通过BHO获取下列信息（iday 日期, itime 事件, iurl 网址, loadtime 网页加载时间, staytime 我在该网页的停留事件, pageinfo 网页源代码, homepage 网页所属的网站）

在点击流仓库的设计中，很多研究都是基于网站日志，最后做出的分析都是基于用户访问的轨迹，停留时间等等，我设计方案和他们不同的地方在于基于网页源码的语义分析我的访问习惯。这一点应该是创新的地方，语义+机器学习+点击流分析--》用户访问习惯模型--》个性化推荐。

2、因为存储过程将网页源码插入数据库总是出现问题，而将源码存放于文件夹下已经成功，所以放弃用数据库存放源码的方式。第二步的工作是将采集到的源代码存放到我的本机服务器

3、下一步的工作是阅读网页源码语义抽取的方法

4、根据语义聚类学习分析。

面向微博的信息抽取研究刘晓华自然语言处理组微软亚洲研究院

转载本文请联系原作者获取授权，同时请注明本文来自田刚科学网博客。
链接地址：https://m.sciencenet.cn/blog-794010-668297.html

上一篇：试验1
下一篇：流数据处理方法

数据加载中...

返回顶部

扫一扫，分享此博文