消去网页模板以提升信息检索性能 Yu S,Cai D,Wen J R,etal.Improving pseudo-relevance feedback in Web information retrieval using Web page segmentation Proc of the 12th World Wide Web Conf.New York:ACM,2003. Pseudo-Relevance Feedback 从初始查询结果中选取 k 个页 ...
利用信息熵进行网页去噪的方法 Yi L,Liu B.Web Page Cleaningfor Web Mining through Feature Weighting Proc of the 18th Int Joint Conf onArtificial Intelligence(IJCAI-03).SanFrancisco:MorganKaufmann,2003:43-50 本文的方法 先将 DOM 树转化为 CST 树 (Compressed Structure T ...
几种基于 DOM 的网页去噪方法 李剑 . 基于 DOM 和神经网络的网页净化应用 . 电子科技 ,2012(1):109-111. 去噪步骤 l 运用 HTML Parser 将 HTML 文档解析成 DOM 树 . 把 DOM 树节点分成两类:组织节点(如 TABLE,TR,DIV,UL 标签)、 ...