网页去噪效果评价方法 张恒,屈景辉,张亮.网页文本信息提取及结果评价_张恒 .微计算机应用,2007(9):27-30. 1 )文章创新点: 提出了信噪比的概念作为网页去噪的性能衡量指标。信噪比的定义:要提取信息的字符总数与噪声信息的字符数之比。公式如下: 2 )评价方法: 本文并没有对网页直接进行去噪,而是先利用URL 下载得到网页内容,继而获取网页的HTML 文档,通过提取HTML 文档中的TITLE,P 标记的内容得到文本信息,再进一步去掉TITLE,P 等标记符,得到纯文本,最后进行信噪比的计算。如下图所示: 3 )质疑: 提取前跟提取后的平均信噪比是怎么得到的? 4 )概念定义 全局噪音: 在对Web上得到的一组页面集进行挖掘或聚类时 , 若一个网页所存留的副本 , 如镜像网站、复制的页面及旧版本的页面也在此页面集合中 , 则这些副本成为噪音数据 , 即全局噪音。 局部噪音: 即在一个页面内与页面主题无关的区域及项。这些噪音包括广告栏、导航条、修饰作用的图片等。(定义参考文献: YiLan,Liu Bing,Li Xiaoli. Eliminating noisy informationin Web pages for data mining . Proceeding of the8thACMSIG XDDInternational Conference on Knowledge Discovery and Data Mining . 2003 , 296 ~ 305 ) VieiraK,Silva A S D,Pinto N,et al.A fast and robustmethod for Web page templatedetection and removal Proc of the 15th ACM Int Conf on InformationandKnowledge Management.New York:ACM,2006:258-267 1) 概念定义 F-Measure 又称为 F-Score ,是 IR (信息检索)领域的常用的一个评价标准,计算公式为: 其中β 是参数, P 是精确率 (Precision) , R 是 召回率 ( Recall) , F 是衡量 P 和 R 的综合指数。其中精度是检索出 相关文档数 与 检索出的文档总数 的比率,衡量的是检索系统的查准率;召回率是指 检索出的相关文档数 和文档库中 所有的相关文档数 的比率,衡量的是检索系统的查全率 。 精确率 (precision) 的公式是 召回率 (recall) 的公式是 当参数β =1 时,就是最常见的 F1-Measure : 2) 评价方法 研究思路: First, the costly process of template detection is performed over asmall set of sample pages. Then, the derived (推导出的) template isremoved from the remaining pages in the collection. 评价方法: a. 人工判断与计算机判断作对比,用 F1-Measure 衡量 。We selected 10 (real) web sites. For each site i, we manually identified the template byvisually inspecting the pages.We built a reference set Si containing the terms(words)present in the template. Then, for each of these sites we applied ourmethod to automatically remove the template and generated a corresponding setTi of the terms present in the detected template. Sets Si and Ti were then comparedusing the well-known F-measure defined as: Fi=2(Ri.Pi)/(Ri+ Pi), where Ri= |Si ∩ Ti|/|Si|(Recall) andPi= |Si ∩Ti|/|Ti| (Precision). b. 比较应用去噪方法和不应用去噪方法对WEB 挖掘(分类和聚类)的影响。 总结: 评估去噪效果的方法有以下这些,一种是从算法的效率和精度方面直接评价去噪方法的性能;一种是把去噪方法应用到搜索引擎和数据挖掘(分类和聚类),判断应用去噪方法和不应用去噪方法导致的区别;一些方法采用F-measure 、召回率、精度等性能指标;一种方法是定义信噪比的概念作为性能衡量指标。