科学网

 找回密码
  注册

tag 标签: 网页去噪

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文献阅读笔记(14)-布局信息/锚文本/块分析
FangliXie 2014-7-7 11:15
布局信息 / 锚文本 / 块分析 荆涛 , 左万利 . 基于可视布局信息的网页噪音去除算法 _ 荆涛 . 华南理工大学学报 ( 自然科学版 ),2004(0):90-93+104. 摘 要 主要探讨了网页中的噪音去除问题 . 针对单一页面中包含的丰富的可视信息 , 提出了一个更加精确的噪音去除算法 : 首先获得页面中各元紊标记的布局信息 , 然后利用布局信息对页面进行划分 , 最后在此基础上去除噪音 . 与采用 “ 布局信息 ” 的算法相比 , 本文提出的算法时页面布局信息的提取更加准确 , 并能处理动态 HTML 页面 . 实脸结果表明 , 该算法优于同类算法 , 可有效地去除网页噪音 . 算法源文献 Kovacevic, Milos, et al. Recognition ofCommon Areas in a Web Page Using Visual Information: a possible application ina page classification. Data Mining, 2002. ICDM 2003. Proceedings.2002 IEEE International Conference on. IEEE, 2002. 算法改进点 1) 采用精确的页面显示算法 , 将源文献中显示算法未能处理的包含框架、图层及 CSS 的页面进行了显示 , 使得页面划分时所用的布局与用户浏览时所见的一致 . 2) 以实际的页面大小来决定各区域闷值的选取 , 而非源文献中采用固定大小页面及固定阈值的方法 , 使页面划分与实际一致 . 3) 划分过程中可根据页面中任一标记元素的布局信息来决定此元素属于哪一块 , 而非源文献中强依赖于 TABLE 标记作为分块的依据 . 4) 在划分结束后 , 将 Cenetr 区域中的页面内容作为主题返回 , 而将处于其余四个区域中的内容视为嗓音 . 虽然此仅为一启发式规则 , 但在实验中发现此规则对大多数页面是合理的 . 实验设计 由于目前对于网页噪音去除仍未有标准数据集 , 故本实验采用与源文献中类似的方法实现 . 首先在已由爬行器下载的页面集中选取 5000 页面集 , 然后手工对这些页面进行区域标记 , 记录结果 . 然后应用算法对这些页面进行自动处理 , 并记录结果 . 对两结果进行比较对照以验证页面划分的正确性 . 欧健文 , 董守斌 , 蔡斌 . 模板化网页主题信息的提取方法 _ 欧健文 . 清华大学学报 ( 自然科学版 ),2005(0):17-21. 摘 要 为了消除网页噪音 , 有效地提取基于模板的网页主题信息 , 提出了一种新的信息提取方法 . 该方法采用机器自动学习方式生成网页集的模板 ; 以网页链接关系中的 锚点文本 作为提取目标对模板进行标记 , 生成对应模板的提取规则 ; 依据模板的提取规则对网页主题信息进行提取 . 对国内 2588 个新闻网页进行了检测 . 实验结果表明 , 该方法可以快速、有效地提取模板生成的网页集主题信息 , 准确率达 99.5%. 将该方法应用于搜索引擎系统 ( 木棉检索 ) 中 , 与原来的检索系统相比较 , 索引文件的大小减少约 50%, 检索的速度和精确度也得到提高 . URL 树 算法假设 本文算法基于以下 3 个假设 :1) 在 URL 树中 , 模板节点下的网页存在大量由同一模板生成的网页 .2) 由模板生成的网页结构布局是基本一致的 , 如上图所示 , 只是黑点为根节点的子树所表示的网页主题部分不同 .3) 网页链接中的锚点文本是对目标网页主题内容的概括 . 下图是模板的生成过程 . 实验分析 1) 数据集 . 实验数据来源于木棉搜索引擎对新浪网在 2005-05-15 到 2005-05-18 期间所抓取的 230894 个网页 . 2) 衡量指标 . 实验结果分为 3 种情况 :1) 正确提取 , 表示达到网页主题信息提取效果 ;2) 错误提取 , 表示提取效果不好 , 仍存在较多网页噪音 ;3) 无法提取 , 表示提取算法对该网页没有作用 . 论文点评 该方法的主要特点为 : 1) 直接对主题信息进行提取 , 而不需要通过去除网页噪音的方式来提取主题信息 ;2) 对同模板产生的大量网页 , 通过机器学习生成模板后 , 便可直接提取网页主题信息 , 而不需要对每一个网页都进行分析处理 . 刘晨曦 , 吴扬扬 . 一种基于块分析的网页去噪音方法 _ 刘晨曦 . 广西师范大学学报 ( 自然科学版 ),2007(2): 155-158. 算法思想 (1) 对于〈 IMG 〉 , 〈 SCRIPT 〉 , 〈 STYLE 〉等节点 , 过滤器简单地将这些节点从网页中移除 , 即删除这些节点 . (2) 对 DOM 树中的每一个分块节点 , 计算其相应的链接个数和非链接文字长度 , 并计算分块节点的大小 . 根据块的大小和位置调整阈值 , 根据节点的链接个数 / 非链接文字长度的比值来判断 , 当比值大于阈值的时候 , 即认为该节点是链接列表并移除该节点 . 实验分析 1) 数据集 . 原始网页分类器基于北京大学天网实验室提供的 CWT100G 中的 180M 数据集 , 该数据集共有 12 个顶层类 , 共包括 15571 篇网页 , 在对训练集中的网页进行切词后 , 使用 SVM 进行训练和分类 . 在分类时 , 我们将数据集随机划分出 3/4 用于构建分类器模型 , 剩余的 1/4 作为开放测试集 , 连续测试 10 次求平均值作为最终测试数据 . 2) 衡量指标 . 查准率、查全率和 F1 值 .
个人分类: 科研笔记|2465 次阅读|0 个评论
文献阅读笔记(12)-LRU分页算法对网页去噪的启示
FangliXie 2014-7-2 23:08
最近最少使用( LRU )分页算法对网页去噪的启示 LRU(Least Recently Used), 最近最少使用方法 . 由于基于 DOM 树的方法通常复杂度比较高 , 并且时间代价也很大 , 所以本文提出了 LRU 的方法以期来改善网页去噪 . 本文并没有详细介绍 LRU 在网页去噪的算法实现及具体实施过程 , 只是在理论上给出了可行性论述 . LRU 的启示 只有一少部分指令 (instructions) 会被经常重复使用 , 另外 , 如果一个页面长时间没被使用那么它将越来越不会被使用 . 鉴于此可以建立一个链表用于存放页面 , 最常用到的页面放在链表前面 , 不常用的放在最后 , 当页面出错时 (when a page fault occurs), 扔掉末尾的页面 . 该方法的复杂性就是要时刻对链表中的页面进行排序的更新 , 文中提出用 64-bit 的计数器 (counter) 来记录页面 . 下图所示 , 蓝线表示 LRU 的复杂性 , 红线表示 DOM 的复杂性 . LRU 优劣势并存 , 如果能较好地将该方法移植到网页去噪中 , 那么它会有很好的表现 . 参考文献 Sharma, Rajni, MaxBhatia. Eliminating the Noise from Web Pages using Page ReplacementAlgorithm.”International Journal of Computer Science and Technology,Vol.5(3),2014,3066-3068.
个人分类: 科研笔记|2330 次阅读|0 个评论
文献阅读笔记(10)-利用信息熵进行网页去噪的方法
FangliXie 2014-6-30 15:29
利用信息熵进行网页去噪的方法 Yi L,Liu B.Web Page Cleaningfor Web Mining through Feature Weighting Proc of the 18th Int Joint Conf onArtificial Intelligence(IJCAI-03).SanFrancisco:MorganKaufmann,2003:43-50 本文的方法 先将 DOM 树转化为 CST 树 (Compressed Structure Tree, 压缩结构树 ), 然后计算 CST 树中节点的信息熵及叶子节点 ( 即页面中的各个块 ) 中的特征的权重 , 继而得到页面的特征向量 (feature vector). ( 疑问:根据特征权重怎么去判断网页噪声呢? ) 几个定义 Global noise( 全局噪声 ) : It refers to redundantobjects with large granularities, which are no smaller than individual pages.Global noise includes mirror sites, duplicated Web pages and old versioned Webpages to be deleted, etc. Local (intra-page) noise( 局部噪声 ): It refers to irrelevant items within a Webpage. Local noise is usually incoherent withthe main content of the page. Such noise includes banner ads, navigationalguides, decoration pictures, etc. 呈现样式 (presentation style) : DOM 树中节点 T 的呈现样式用 S T : r1,r2,…,rn 表示 . 其中 ri 由 Tag,Attr 构成 , 表示节点 T 中的第 i 个孩子节点的标签和属性 . 当两个节点的样式满足下面条件时可以说这两个节点的样式相同: 1) 孩子节点树相同 2) 两个节点的第 i 个孩子节点的 Tag 和 Attr 都分别相同 . 元素节点 (element node ) : 元素节点 E 表示 CST 树中的节点 , 用 Tag, Attr, TAGs, STYLEs,CHILDs 表示 , 其中 Tag 是 E 的标签名称 ,Attr 是 E 的属性 ,TAGs 是 E 的孩子节点的标签序列 ,STYLEs 是 E 所覆盖的 DOM 树中的所有节点 ( 标签 ) 的样式集 ,CHILDs 指向 E 孩子节点的指针 . 下图是 CST 树的一个例子 . CST 树的构造过程 1. 将所有 DOM 树的根节点合并成 CST 树的第一个元素节点 (root). TAGs 是 DOM 树根节点的标签集合 . 2. 计算元素节点的 STYLEs. 即原来 DOM 树中的所有节点的样式 , 相同的呈现样式会被合并 . 3. 进一步合并孩子节点 . 由于 E1,E2 的 Tag 和 Attr 都分别相同 , 接下来比较 E1,E2 的文本内容 . 如果两个节点的文本特征 ( 用 Ii 表示单词出现的频次 , 当 Ii=γ 时则认为是文本特征 ) 满足 |I1∩I2|/|I1 ∪ I2| ≥ λ , 那么就进行合并 . 本文取 γ,λ 为 0.85. 4. 如果没有孩子节点可以合并 , 那么就结束 . 否则取出孩子节点 , 进入第 2 步 . 权重策略 1) CST 树的内部节点 E 的重要度用下式计算 . 其中 ,l=| E.STYLEs|, m=E.TAGs. pi 表示 E.TAGs 中的标签使用第 i 种样式的概率 . 2) CST 树的叶子节点 E 的重要度用特征的 平均重要度 来计算 . ai 表示节点 E 的内容特征 .H E (ai) 表示特征的信息熵 . 由于 NodeImp(E) 只是反映了 E 的局部重要性 , 为了计算叶子节点的权重 , 还需要考虑从根节点到叶子节点的路径的重要度 . 最后权重的计算公式为: 其中 f ij 为特征 ai 在标签 Tj 下出现的频率 . 在实际操作中 , 并没有采用真实的 CST 树的叶子节点来计算 , 而是用叶子节点的祖父母节点来计算 , 因为真实的叶子节点粒度很小 . 3) 页面中块的权重计算出来之后 , 就把具有相同特征的块赋予权重 , 所有的这些特征权重构成页面的特征向量 , 用作聚类和分类的输入量 . 实验分析 1) 数据集 . 2) 衡量指标 . 用 FScore 来评价该方法在分类 (k-means) 和聚类 (SVM) 中的表现 . Lin S H,Ho J M.Discoveringinformative content blocksfrom Web documents Proc of the 8th ACM SIGKDDInt Conf on Knowledge Discovery and DataMining.NewYork:ACM,2002:588-593. 本文的方法 本文认为 TABLE 是 HTML 分块的依据 , 并且认为一个网站的网页同属一个页面群 (page cluster, 即共用相同的网页模板 ). 方法步骤如下: 基于 TABLE 标签从 HTML 中抽取出内容块 然后再从每个内容块中抽取特征 ( 与关键字相关的文本或术语 ) 根据特征在页面群中出现的频率计算特征熵 通过加和得到内容块的信息熵 ( 用 H(CB) 表示 ) 若 H(CB) 值大于阈值或越接近于 1 那么判为冗余块 , 反之则认为该内容块是信息块 . 其中 , 阈值由贪婪法来确定 , 从 0.1 到 0.9 进行实验 , 依次增加 0.1. 实验分析 1) 数据集 . 选取 13 个新闻网站 ( 都用 TABLE 来布局 ), 每个网站选取 10 个页面 2) 衡量指标 . 查准率 (Precision), 召回率 (Recall). 论文点评 由于是较早的一篇文献 , 文中所提出的方法依赖很强的假设前提 , 比如 1) 认为大多数网站利用 TABLE 来布局 2) 认为网站的所有页面属于同一个页面群 3) 认为 dot-com 类的网站都是 ” 上下左右 ” 四个块的布局样式 4) 基于信息熵来判定冗余块的标准跟后续的相关研究有出入 , 即后续研究认为 H(CB) 值大于阈值或越接近于 1 那么判为信息块 , 反之则认为该内容块是冗余块 . 除此之外 , 本文在内容块的抽取 , 信息熵的计算等关键环节描述得很模糊 , 使得读者难以细入研究 .
个人分类: 科研笔记|2865 次阅读|0 个评论
文献阅读笔记(9)-基于风格树的网页去噪方法
FangliXie 2014-6-29 12:05
基于风格树的网页去噪方法 风格树 (StyleTree) StyleTree 由 DOM 演化而来 , 包含两类节点 , 风格节点 (style nodes) 和元素节点 (element nodes). 风格节点 (S) 描述布局 (layout) 或呈现 (presentation) 风格 , 用 (Es,n) 表示 , 其中 Es 是元素节点序列 ,n 是含有相同样式的页面数量 . 元素节点 (E) 用 (TAG,Attr,Ss) 表示 , 其中 TAG 是标签名 ,Attr 是 TAG 的属性 ,Ss 是该元素节点下一层的风格节点集 . 为了便于区别通常把风格节点用一个标签序列来表示 , 而元素节点直接用标签名表示 . 如下图 ,P-IMG-P-A,P-BR-P 都是是风格节点 ,n=1. 前提假设 1) 元素节点的呈现风格越多样表明节点越重要 , 反之亦然 . 2) 元素节点的实际内容越多样表明节点越重要 , 反之亦然 . 去噪过程 上图是整个去噪过程的算法表示 , 解释如下 : 1. 爬取 k 个页面 . 2. 为 SST( 风格树 ) 虚拟一个根节点 . 3. 逐一调用每个页面 . 4. 对每一个页面生成一棵 DOM 树 , 也即单个页面的风格树 (PST). 5. 将 k 个 PST 组合成一棵完备的 SST. 6-7. 计算 SST 中每个元素节点的 复合重要度 (compositeimportance) . 复合重要度由形式重要度 (presentation importance) 和内容重要度 (content importance) 组成 . 复合重要度 (composite importance) 用信息熵来衡量 , 对于 SST 内部元素节点和叶子元素节点 , 计算公式依次如下 : 8-9. 通过元素节点的复合重要度与阈值进行比较 , 判断出是噪声节点 , 还是意义节点 . 去掉噪声节点 , 保留意义节点 , 得到一棵简化后的 SST, 即用于去噪的模板 . 10. 取出待去噪的页面 . 11. 生成该页面的 PST. 12. 将 PST 与 SST 进行模式匹配 , 进行去噪 . 13. 返回去噪后的页面 . 实验分析 1 )数据集 . 2 )衡量指标 . 将该去噪方法分别用于网页聚类 (k-means 聚类 ) 和网页分类 ( 朴素贝叶斯分类 ), 利用 F Score 指标对比处理前后的结果 . 论文评价 这是一篇经典文献 , 有很多借鉴和学习的地方 . 参考文献 Yi L,Liu B,Li X.Eliminating noisy information in Webpages for datamining Proc of the 9th ACM SIGKDDIntConf on Knowledge Discovery and Data Mining.NewYork:ACM,2003:296-305
个人分类: 科研笔记|3167 次阅读|0 个评论
文献阅读笔记(7)-几种基于DOM的网页去噪方法
FangliXie 2014-6-27 21:28
几种基于 DOM 的网页去噪方法 李剑 . 基于 DOM 和神经网络的网页净化应用 . 电子科技 ,2012(1):109-111. 去噪步骤 l 运用 HTML Parser 将 HTML 文档解析成 DOM 树 . 把 DOM 树节点分成两类:组织节点(如 TABLE,TR,DIV,UL 标签)、非组织节点(如 TD,LI,P,IMG 标签)。通常非组织节点包含在组织节点内。 l 基于 DOM 树建立内容块树 . 即把以 HTML 为根节点的 DOM 树转化为以 BODY 为根节点以 TABLE 或 DIV 为孩子节点的内容块树 . l 初步选择子内容块 . 内容块树由内容块子树构成 . 计算子内容块占内容块的 文本比例和 HTML 编码比例 ,与设定好的临界值比较,选择出用于神经网络的训练输入子内容块 . l 运用 BP 神经网络选择出主内容块,得到过滤模型 . 将上一步所得的子内容块输入 BP 神经网络进行训练和测试 . 本文所用神经网络由 3 层组成:输入层、隐藏层、输出层 . 作用函数为非线性的 Singmod 型函数 . l 运用过滤模型去噪 . 实验分析 1 ) 数据集 . 从新浪博客、网易体育、百度知道分别获取 600 个网页,其中分别取 500 个网页用作训练, 100 个用于测试 . 2 ) 衡量指标 . 正确率 CR=CB/TB. 误取率 ER=EB/TB. 漏取率 LR=LB/TB. 其中 TB 是总的内容块数, CB 是提取出的正确的内容块数, EB 是误取的内容块数, LB 是漏取的内容块数 . 论文点评 本文的算法简单来说: DOM 树 à 内容块树 à 子内容块 à BP 神经网络训练得到过滤模型 à 去噪 . 论文有三点不足 .1 )算法描述部分纯用文字描述,导致读者不易看懂算法过程 .2 )神经网络部分介绍的篇幅过少 .3 )没有给出实验结果具体数据,只有一个光秃秃的图表,有隐藏真实实验结果牵强附会之嫌 . 何友全 , 徐澄 , 徐小乐 , 等 . 一种基于统计学特征和 DOM 树的网页去噪技术 . 重庆理工大学学报 ( 自然科学版 ),2011(1):58-62. 去噪步骤 l 预处理网页 . 运用正则表达式过滤 SCRIPT,STYLE 等标签 . l 建立 DOM 树 . 运用 HTML Parser 将网页解析为 DOM 树 . l 分析容器标签并进行取舍 . 容器标签 是本文用到的基本概念,指用来规划网页布局的较大粒度的标签,如 BODY,OL,UL,TABLE,FORM,DIV 等 . (像 TR,TD,SPAN 等属于粒度较小的标签 .B,BR,HL 属于展现标签 . 另外,本文也规定:如果内容块(即 DOM 节点)有子节点,那么内容块的文本除了自身还加上所有子节点的文本) . 这一步考虑容器标签所包含文本长度与网页总文本 长度之比 、容器标签内的 文本密度, 通过跟阈值比较来判定是否是噪声节点 . 满足阈值的容器标签保留在 节点列表里 . l 将节点列表的容器标签(这些标签都标记着正文)组合为最终页面 . 即得到去除噪声后的页面 . 实验分析 1) 数据集 . 采用 12 个站点的 860 个网页测试,最后随机抽取 100 个网页进行手工检查 . 2 ) 衡量指标 . 优良中差 . 算法假定 1) 考虑到实际页面中,正文整体所处的容器标签不会太深,所以采用迭代深度参数为 3 层 . 2 )大部分情况下标签密度超过某个阈值或文本长度未达到一定比例的节点认为是噪声节点 . 节点的标签密度和文本长度是判定噪声节点的关键切入点 . 论文点评 本文的算法简单来说:定义容器标签 à DOM 树 à 取舍容器标签 à 去噪 . 由于网页去噪目前并没有标准的算法评价标准,所以本文采用粗糙的“优良中差”来进行评价,因为缺乏对比所以并不能知道该算法的实际效果如何 . 另外,在最后的结果评价时需要手工进行检查,这也是一个不足 . 罗成 , 李弼程 , 张先飞 . 一种有效的网页噪声消除的方法 . 计算机工程 ,2007(8):89-91. 去噪步骤 l 给每一个页面建立一棵文档树 , 即 DOM 树 . l 将多个 DOM 树合并为一个模式树 , 即 PT 树 . 模式树能将 DOM 树集合中相同的部分和不同的部分表示出来 . 如下图所示,阴影部分为不同部分 . l 根据模式树中的节点的信息熵对网页的噪声进行判断和消除 . 节点 E 信息熵定义为: 其中 P i 表示基本节点 E 下一层的第 i 个节点在每个网页中出现的概率: . 式中, K 表示网页集合中的网页个数, n i 表示节点 E 下一层的第 i 个节点出现的网页的个数 . l 确定噪声节点之后并去除,得到去除噪声的模板 . l 运用模板对网页去噪 . 实验分析 1 )数据集 . 用 SVM 分类器作为基准分类器,训练集合测试集共有 2000 个网页 . 随机抽取 300 个网页得到模板 . 用 1200 个网页训练, 800 个网页作测试 . 2 )衡量指标 . 查准率 precision, 查全率 recall,F1. 先不对网页进行净化,用基准分类器训练、测试得到基准结果。然后对网页进行净化,分别进行训练和测试,得到净化结果,通过对比可以评价出算法的去噪效果 . 论文评价 本文的算法简单表示: DOM 树 à 模式树 à 信息熵 à 去噪 .
个人分类: 科研笔记|3553 次阅读|0 个评论
文献阅读笔记(3)-网页去噪效果评价方法
FangliXie 2014-6-3 15:59
网页去噪效果评价方法 张恒,屈景辉,张亮.网页文本信息提取及结果评价_张恒 .微计算机应用,2007(9):27-30. 1 )文章创新点: 提出了信噪比的概念作为网页去噪的性能衡量指标。信噪比的定义:要提取信息的字符总数与噪声信息的字符数之比。公式如下: 2 )评价方法: 本文并没有对网页直接进行去噪,而是先利用URL 下载得到网页内容,继而获取网页的HTML 文档,通过提取HTML 文档中的TITLE,P 标记的内容得到文本信息,再进一步去掉TITLE,P 等标记符,得到纯文本,最后进行信噪比的计算。如下图所示: 3 )质疑: 提取前跟提取后的平均信噪比是怎么得到的? 4 )概念定义 全局噪音: 在对Web上得到的一组页面集进行挖掘或聚类时 , 若一个网页所存留的副本 , 如镜像网站、复制的页面及旧版本的页面也在此页面集合中 , 则这些副本成为噪音数据 , 即全局噪音。 局部噪音: 即在一个页面内与页面主题无关的区域及项。这些噪音包括广告栏、导航条、修饰作用的图片等。(定义参考文献: YiLan,Liu Bing,Li Xiaoli. Eliminating noisy informationin Web pages for data mining . Proceeding of the8thACMSIG XDDInternational Conference on Knowledge Discovery and Data Mining . 2003 , 296 ~ 305 ) VieiraK,Silva A S D,Pinto N,et al.A fast and robustmethod for Web page templatedetection and removal Proc of the 15th ACM Int Conf on InformationandKnowledge Management.New York:ACM,2006:258-267 1) 概念定义 F-Measure 又称为 F-Score ,是 IR (信息检索)领域的常用的一个评价标准,计算公式为: 其中β 是参数, P 是精确率 (Precision) , R 是 召回率 ( Recall) , F 是衡量 P 和 R 的综合指数。其中精度是检索出 相关文档数 与 检索出的文档总数 的比率,衡量的是检索系统的查准率;召回率是指 检索出的相关文档数 和文档库中 所有的相关文档数 的比率,衡量的是检索系统的查全率 。 精确率 (precision) 的公式是 召回率 (recall) 的公式是 当参数β =1 时,就是最常见的 F1-Measure : 2) 评价方法 研究思路: First, the costly process of template detection is performed over asmall set of sample pages. Then, the derived (推导出的) template isremoved from the remaining pages in the collection. 评价方法: a. 人工判断与计算机判断作对比,用 F1-Measure 衡量 。We selected 10 (real) web sites. For each site i, we manually identified the template byvisually inspecting the pages.We built a reference set Si containing the terms(words)present in the template. Then, for each of these sites we applied ourmethod to automatically remove the template and generated a corresponding setTi of the terms present in the detected template. Sets Si and Ti were then comparedusing the well-known F-measure defined as: Fi=2(Ri.Pi)/(Ri+ Pi), where Ri= |Si ∩ Ti|/|Si|(Recall) andPi= |Si ∩Ti|/|Ti| (Precision). b. 比较应用去噪方法和不应用去噪方法对WEB 挖掘(分类和聚类)的影响。 总结: 评估去噪效果的方法有以下这些,一种是从算法的效率和精度方面直接评价去噪方法的性能;一种是把去噪方法应用到搜索引擎和数据挖掘(分类和聚类),判断应用去噪方法和不应用去噪方法导致的区别;一些方法采用F-measure 、召回率、精度等性能指标;一种方法是定义信噪比的概念作为性能衡量指标。
个人分类: 科研笔记|3311 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 13:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部