科学网

 找回密码
  注册

tag 标签: Detection

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

对称图形检测的神经机制研究进展
热度 1 Joshua3769 2016-6-8 17:02
对称图形检测的神经机制研究进展 动物可以区分对称图形和非对称图,比如实验发现鸽子比较偏好非对称图,研究人员甚至可以训练鸽子辨别对称与非对称图形(Delius and Nowak, 1982)。人们倾向于认为:大脑具有自动检测对称性的能力,并能利用对称性进行知觉组织。研究发现:对称检测在大脑中是一个 pre-attentive 的,比如偏侧忽视症患者虽然不能注意到完整的对称图案,但仍然不自觉地利用对称性来组织图案( Driver J et al. 1992 Nature ),可见 对称检测在大脑中是潜在地、自动地 发挥着作用。这种作用被格式塔学派认为是促进了知觉组织:那些对称的轮廓线条容易被我们归为同一个物体的轮廓,并且对称性能如同线索( Cue )一样帮助大脑快速将图形轮廓从背景噪音中分离出来( Bart Machilsen et al. 2009 Journal of Vision ),而那些非对称的图形则比较难以检测(但周边视野没有symmetry facilitation,参考Sassi et al.2014 Symmetry )。比如下面两张图,据说上面的里面含有对称图形,所以被试更容易发现上面里面有图形。 可是有一个问题仍然不太清楚:我们都知道,世界上充满了对称的事物,动物一生下来就接触各种对称图形,在我们的记忆中存储了各种各样的对称事物或对称形态,那么究竟是丰富的对称经验在促进我们对对称图形的检测力呢,还是因为大脑先天具有对称检测功能从而使大脑对对称图形的检测更敏感呢?(这个问题我还没有找到相关论文) 抛开上面的问题,我们还对这样的问题感兴趣:大脑的哪些区域在负责对称图形的加工?是如何加工的? Sasaki 于 2005 年在 PNAS 上发表了一项研究,他们发现,与非对称图相比,对称图案能使人类和猴子的某些比较高级的视觉皮层的活动加强,比如 V3 和 V4 ,而 V1 和 V2 在对称和非对称没有表现出差异。令人惊讶的是, IT ( inferior temporal cortex )这个高级脑区也没有表现出差异,而 C.R.Olson 与 2007 年发表在 Journal of Neurophysiology 上的文章发现猴子的 IT 区神经元在看到对称图形时比非对称图形发放高出 3% 左右。 Sasaki 对此的解释是: Olson 用了实心的对称图形,他自己用了点状对称图案,而 IT 更喜欢实心图案。有人在 Trends in Cognitive Science (如果我没记错的话)撰文点评 Sasaki 2005 年的工作具有开创性,并相信未来会知道电生理的研究,使人们对对称加工的神经机制有更深了解。然而, 11 年过去了,对称性的神经机制研究还在原地踏步。事实上, Sasaki 与 Olson 的所谓对对称敏感的神经活动是值得怀疑的,在 Sasaki 实验刺激中,对称图形本身含有许多小的规则形状,而非对称图形则缺少规则的局部元素,而视觉记忆和视觉识别本身是偏爱规则图形的,所以不是对称图形引起了更高的神经活动,而是对称图内部的小部件对神经元而言属于较优刺激。 Olson 的刺激面临同样的问题,此外还面临一个问题,就是那微弱的 3% 究竟是个别对称图形引起的,还是说每个对称图形都比非对称图形更能引起 IT 神经活动,更具大量的 IT 研究,后者可能性极小。所以 Olson 自那以后也没有对对称性进行过什么研究。可见我们不能把这二位的数据太当回事,况且这些数据对我们了解对称检测的神经机制没有太大意义。下图分别是Olson和Sasaki用的刺激举例。 我想真正有价值的研究,还是对称检测在大脑中是怎样发生的以及对称信息是如何促进其他视觉加工过程的。人们曾经提出若干个对称检测的机制, Johan Wagemans 于 1997 年在 Trends in Cognitive Sciences 上总结了这些机制,也列举了它们的问题,这些机制都不太合理,但作者最后肯定了 Dakin 和 Watt 的计算模型。 Dakin 与 Watt 于 1994 年在 Spatial Vision 发表了他们的计算模型,能以人工的方法有效地解决对称检测的问题,他们先用 Spatial filter 对图形进行处理,然后计算 Alighment measure ,效果很好。但这个过程与大脑比起来蛮笨拙的,因为它相当于让计算机假定了若干个可能的对称轴然后挨个试,但我们的大脑可不是这么干的。尽管如此,这个计算模型能有效地寻找对称轴,也能帮助心理学家分析自己的视觉刺激的对称强度(参考 Cohen and Zaidi 2013 Journal of Vision )。 总结:大脑能快速区别对称与非对称图形,并能精确找出对称轴,这个过程是如何在大脑中实现的,我们可以说是一无所知。
3728 次阅读|1 个评论
Reading List
Austindglx 2012-11-3 15:48
Reading List
最相关的五篇: 2007 WWW Review Spam Detection 2008 WSDM Opinion Spam and Analysis 2011 WWW Detecting Group Review Spam 2011 ACL Finding Deceptive Opinion Spam by Any Stretch of the Imagination 2011 ICDM Review Graph based Online Store Review Spammer Detection 直接相关的( 18 ): 2007 ACL Automatically assessing the post quality in online discussions on software * 2007 WWW Review Spam Detection • The first reported study for review spam detection • Background : E-commerce Web sites enable their customers to write reviews of products that they have purchased. Such reviews provide valuable sources of information on these products. They are used by potential customers to find opinions of existing users before deciding to purchase a product. They are also used by product manufacturers to identify problems of their products and to find competitive intelligence information about their competitors. Unfortunately, this importance of reviews also gives good incentive for spam( mainly manufactures), which contains false positive or malicious negative opinions.→ review spam • Review spammer : Reviewers who always write fake reviews. • 2008 WSDM Opinion Spam and Analysis • 是在 2007 年论文 (Review Spam Detection) 上的进一步的细化和完善,也是第一篇比较成形的有关 review spam 的文章 , 具有很强的代表性。作者都是 Bing Liu 等。 • 本篇论文第一次正式提出了 review spam 的几种类型: – Type 1: untruthful opinions – Type 2: reviews on brand only – Type 3: non-reviews • 与 web spam 和 Email-spam 做了简单的对比,指出 review spam 是基于内容的,与前两者相比,后者的检测更困难,尤其是对于 Type 1 的 review spam 。 • 可以将 spam 检测转化为分类问题: spam 和 non-spam 。 • 对于 2 、 3 类 spam ,可以采用传统分类学习方法,首先人工评测一部分训练集,然后抽取特征(关键)训练模型,最后用模型检测未标记数据即可。 • 对于 1 类 spam ,大致也可以采用相同的思路,但这时会出现一个 问题 :人工标记 review spam 训练集非常困难,因为有些 fake reviews 也可以写的和 truthful reviews 相差无几。 解决方法:利用 duplicate 或 near-duplicate 检测来标记训练集 • Duplicate 检测方法: 2-gram , Jaccard Distance • 采用的三类 duplicate : – Duplicates from different userids on the same product – Duplicates from the same userid on different products – Duplicates from different userids on different products – 说明: 1. 同一用户在同一产品上进行多条评论很可能是 spam ,但是这里不将其加入训练集,因为很有可能是用户连击提交导致的; 2. 同一用户对同一种产品的不同版本(比如一本书的简装版和精装版)可能有重复的评论,但是这样的情况只有 3% ,因此不再做特殊处理了。统一将以上的三类 duplicate 当做“正例”来处理。 • 数据集:来自权威性,非常有代表性。 包含: Books, Music, DVD, mProducts. • 涉及到的三类对象: – Review 内容; – Reviewer – 被评论的 Product • 针对三类对象提取出三大类特征: – ( 1 ) Review Centric Features (共 21 个特征) – ( 2 ) Reviewer Centric Features (共 11 个特征) – ( 3 ) Product Centric Features (共 4 个特征) • 实验证明,通过特征提取构造训练器这种方法,检测 2 、 3 类 spam 的效果是非常好的 • 离群点( Outlier Review ):评论的评分跟其他 review 的评分相差很远,则为离群点。 • 对于第 3 类评论的检测效果,才是真正的评价分类模型的关键。因此,在很大程度上,对离群点的预测效果可以判断一个分类器的效果(用转移曲线)。 • 10-fold cross validation • AUC 评测,第 3 类: 78% • 一些其他方面的分析: – 1. Only Reviews. 即每个产品上只有一条评论。这样的评论更可能是 spam 。 – 2. Reviews from Top-Ranked Reviewers. 排名较高的用户写的评论更可疑。一方面因为排名较高的用户写了大量的评论;另一方面排名较高的人在评价 spam 度的特征上的得分也比较高。 – 3. Reviews with Different Levels of Feedbacks. 垃圾评论可能得到坏的反馈,非垃圾评论也可以得到坏的评论。 – 4. Reviews of Products with Varied Sales Ranks. 排名较低的产品上更趋向于含垃圾评论,因为一方面想改变排名较高的产品的信誉非常困难,另一方面排名比较低的产品才更“需要”垃圾评论。 2010 CIKM Detecting Product Review Spammers using Rating Behaviors • 本文的目标: review spammer detection (第一次, spammer )。 • 本文提出 reviewer 比 review 更有研究价值,应该关注评论者的行为特征来检测 spammer 进而检测 review spam ,而不是仅关注评论本身。 • 因此检测方法:以用户为中心,以用户行为为驱动。 • 应用了四类 spamming behavior 检测模型: – (1) targeting product( TP ) (3) general rating deviation( GD ) – (2) targeting group( TG ) (4) early rating deviation( ED ) • Target Based Spamming: – TP: 若某用户在某种产品上发表过多次评论,则评分越接近,其为 spammer 的可能性越大。这部分得分记做 c p ( u i ) – TG: 如果一个用户在一个较短的时间段内,对于某种品牌上的产品群给予重复评论,且评分或者都很高或者都很低的可疑性大。这部分得分记做 c g ( u i ) • Deviation-Based Spamming: – GD: 如果一个用户在某种或者某些产品上的的评分跟其他用户的评分的平均值偏离程度很大,则很可疑。这部分得分记做 c d ( u i ) – ED: 主要捕捉某些用户对一些刚上架的产品马上进行评分的行为,这样的评分更容易影响其他用户。利用两个标准( 1 )评分偏离程度( 2 )评分的“早期”程度来计算本部分得分,记做 c e ( u i ) • 总得分记做: c(u i ) = 1/2 c p ( u i ) + 1/4 c g ( u i ) + 1/8 c d ( u i ) + 1/8 c e ( u i ) – 选取一部分有代表性的数据进行人工分析可以得出, TP 和 TG 具有更强的 spam 指示性。 2010 CIKM Finding Unusual Review Patterns Using Unexpected Rules • 这篇文章和前篇文章都是 Bing Liu 等人写的,和前一篇文章的共同点是都是通过对用户的行为进行分析来检测 spammer ,不同的是前一篇文章建立了几个模型来观测、评估用户的 spam 程度,而本篇文章则是利用检测用户的“非正常评论模式”,通过研究“非期望规则”来识别 spammer 。值得说明的是,本文中提出的技术是领域独立的。 • 本文只关注短规则。即“ 1- 条件”规则和“ 2- 条件”规则 • “1- 条件”规则: – Confidence Unexpectedness: 用 Cu ( v jk →c i ) 表示,条件概率,来度量某个属性值和某个类之间的关系。即某个属性值 v jk 总是和类别 c i 有着超出期望值的置信度关系。 – Support Unexpectedness: 用 Su( v jk →c i ) 表示,联合概率,度量的是 v jk 对 c i 的支持度。即 v jk 总是和 c i 一起出现的频率超过了期望值。 – Attribute Distribution Unexpectedness: 用 ADu( A j →c i ) 表示,用此量来观测是否某个属性和某个类之间存在很大的关系,比如在某个类别 c i 上属性 A j 的分布呈现出比较强烈的波动。 – Attribute Unexpectedness: 用 Au( A j →C ) 表示,采用了信息熵理论,即属性 A j 的特定值对 C 中某类的预测能力。例如,某用户在品牌 Brand1 上提供的评论全为 Positive ,在 Brand2 上提供的评论全为 Negtive. 这样这个用户提供的信息就非常多了。 • “2- 条件”规则:利用“ 1- 条件”规则计算而得,统计量也是四个与上面“ 1- 条件”规则相同。 • 实验: 每条记录由 reviewer-id, product-id, brand-id 和 class 四部分组成。即在这三个属性和一个类别上计算前面所述的短规则。 • 结论:通过对结果分析,本实验可以发现很多可疑行为。 2010 ICDMW High-Order Concept Associations Mining and Inferential Language Modeling for Online Review Spam Detection • 本文的主要贡献在于提出了一个无监督的语言模型( LM ),这个模型通过计算任意一对评论之间的相似度来检测 review spam 。 • 然后在这个基础上加入了 WordNet ,即通过搜索与某些词相关联的近义词来加强其计算精度,从而达到一些不能通过传统的挖掘算法计算出来的目的。比如,计算相似度的时候, ”fabulous” 、 ”fantastic” 表达的含义是相同的,而这些只能通过使用 WordNet 查找近义词的方式识别出来。因此称加入 WordNet 的这个模型为“含高层次概念关联挖掘”模型,记做 ILM 。 • 本文中模型的应用主要包含三个阶段: – ( 1 )概念抽取。预处理,只保留每条评论中有意义的词汇。 – ( 2 )概念剪枝。把出现频率较低的词汇,即与此领域内不太相关的词汇给剪掉 – ( 3 )关联抽取。也是高层次概念关联挖掘的最后一步,基于“ subsumption” 的概念。 2010 SOMA Distortion as a validation criterion in the identification of suspicious reviews • 这篇文章曾被 2010 CIKM Detecting Product Review Spammers using Rating Behaviors 引用,本篇文章基于假评论在很大程度上会导致排名失真的原则,提出一个新的失真标准来揭露可疑评论。 • 本文的重点在于使用“失真验证”来揭露可疑评论,着重于验证,因此在识别 review spam 时仅采用了基本的特征,并没有过多赘述。 • 首先,本文提出了两个排名标准: ( 1 ) “ 正单件比例( PPS ,正单件为那些只发表过一次正评论的用户所写)”排名 ;( 2 )“正单件时间集中度”排名。 在后续的工作中,将分别使用这两个排名进行失真验证。 • 然后在识别出一些可疑评论后,将其删掉,并计算删除前后的“ Spearman 排名协方差”(此值越小,失真越大),记做 RD 。 • 接下来,在原数据的基础上随机删掉与可疑评论同等数量的评论,将之后的协方差记做“期望协方差( ED )”。多次重复这一步骤。 • 最后计算“调整失真度” AD = ED – RD ,越大,则说明删掉的可疑评论的可疑性越大。 2011 WWW Detecting Group Review Spam • 本篇文章是发在 WWW 上的一篇短文,也是由 Bing Liu 实验室所写,本篇文章与其写的前几篇文章不同的是,改变了其以往的思路,不是从单个的 review 或者 reviewer 入手,而是利用了频繁模式挖掘算法( FPM )辅助,从作弊群的角度进行了分析。 • 本文是第一篇从“作弊群”的角度进行垃圾评论检测的文章,其合理性在于,如果想要达到提升或者贬低某一个产品信誉的时候,一个人的力量往往是不够的,而且也更容易被识别出来,因此专业的作弊者(中国称之为“水军”)会联合很多人一起作案,或者一个人申请多个账户进行作案,因此这些人之间的耦合性肯定会比正常评论者之间要强。 • 基于上述原则,本文的实验步骤分为三步完成: • ( 1 ) FPM ,提取候选作弊群。将每种产品上的评论者作为一条记录。 • ( 2 )计算作弊指示量。提取指示量 TW , GD , GCS , MCS , ETF , RGS , GS , SC 来计算每一个群组的可疑程度。 • ( 3 )将上述指示量按照一定方式进行组合并使用 SVM rank 进行排序。 2011 ACL Finding Deceptive Opinion Spam by Any Stretch of the Imagination • 本文第一个贡献 就是标注了标准的虚假评论和真实评论各 400 条,组成了 800 条 gold-standard 数据。数据的构造过程使用了 AMT(Amazon Mechanical Turk) ,很严谨,据说用这种方法非常靠谱。 • 第二个贡献: 同前面的文章所述,本文将 spam 识别看成一个二元分类问题,分别尝试了 3 种方法,并尝试了 3 种方法的融合: – 第 1 种方法是通过文本的风格识别 (Genre identification) ,特征是使用 POS 的频率 – 第 2 种方法是进行心理学的欺骗检测,使用的 LIWC2007 工具,这个工具实际是依靠关键词( keywords )的,将 4500 个关键词映射到 80 个维度上,最终将其融合到了 SVM 中; – 第 3 种方法是基本的文本分类方法,可以尝试 Unigram 和 +Bigram 和 +Trigram 。 • 最终的实验结果表明,单独使用一种方法,是单纯的文本分类 Unigram + Bigram(SVM) 最佳;全文最佳的实验效果是使用 LIWC + Unigram + Bigram(SVM) 效果最佳, Accuracy 达到了 89.8% 。 2011 IJCAI Learning to identify review Spam • 本篇论文采用了机器学习中的半监督多视图协同训练的方法来检测 review spam 。本文通过调研发现 review spammer 一般都会持续写 review spam ,因此除单一的从 review spam 角度进行检测之外,还可以从 review spammer 的角度同时进行检测。事实上我们知道,无论是从 review 本身还是从 reviewer 的角度进行 spam 检测,之前的文章中都已经提到,但是把两者结合起来,进行二视图学习的做法是非常有创新意义的。实验证明,这种半监督方法的检测效果还是非常好的。 • 本文首先进行数据集的构造: – ( 1 )通过预处理过程将匿名用户发表的评论剔除,然后提取那些得到“ helpfulness” 等反馈数大于 5 的评论,并根据得到的 helpfulness 反馈数对其排名,分别在 top-helpful , middle-helpful 和 low-helpful 的部分随机选取 1000,1000,4000 条评论,将这些评论及与其关联的评论者、目标产品等各种信息提取出来。 注:这样选取的原因基于一个原则: low-helpful 的 review 含 spam 更多。 – ( 2 )雇佣 10 个大学生对上述数据集进行标注,标注原则及方法: http://consumerist.com/2010/04/how-you-spot-fake-onlinereviews.html • 分别从 review 和 reviewer 两个角度提取特征: – 与 Review 相关的特征( F r ):( 1 ) Content Features ( 2 ) Sentiment Features ( 3 ) Product Features ( 4 ) Product Features – 与 Reviewer 相关的特征( F u ):( 1 ) Profile Features ( 2 ) Behavior Features • 实验算法步骤: – 准备:人工标注的小部分 reviews L ;未标记的大部分 reviews U ; – 迭代: – ( 1 )基于 Fr ,用 L 训练 Cr ,然后用 Cr 标记 U – ( 2 )从标记的 U 中提取数据 T review : p 个正的, n 个负的 – ( 3 )基于 Fu ,用 L 训练 Cu ,然后用 Cu 标记 U – ( 4 )从标记的 U 中提取数据 T reviewer ’ : p 个正的, n 个负的 – ( 5 )根据 T reviewer ’ 提取其所写的评论 T review ’ – ( 6 )将 T review ∪ T review ’ 从 U 移动至 L ,注意的是,当两部分的 review 大部分相同时,改为∩。 2011 ICDM Review Graph based Online Store Review Spammer Detection • 本文由 Bing Liu 等所做,其最大贡献在于继前面的研究成果,再次提出了一种创新的关于 review spammer 检测的方法。这篇文章跟以前的文章最大的不同点是,其不是利用与 review 或 reviewer 相关的特征进行检测,而是充分利用了 reviewer , review 以及被评 store 三者之间的交互关系进行挖掘和检测。 • 本文构造了一个创新性的 review graph ,此图包含了 review , reviewer , store 三类节点,并且根据三者之间的交互关系在节点之间加上边。比如 reviewer1 发表了评论 review1 , review1 是针对 store1 的,则在 reviewer1-review1 , review1-store 之间分别加上一条边,最后的结构类似于两个二部图的结合。 • 针对图中的三类节点,提出三个概念: – ( 1 ) Trustiness of reviewers – ( 2 ) Honesty of reviews – ( 3 ) Reliability of stores • 上述三个概念之间的关系:( 1 )写过越多的诚实 reviews , reviewer 的可信度越高;( 2 )若某 store 被写了很多诚实 review 的 reviewer 给予很多正面评价,则这个 store 的可信度很高;( 3 )一条评论受到越多其他真实评论的支持,其真实度越高。 • 然后本文利用上述三个概念之间的关系及构造的多重图,迭代的计算上述三类节点的可信度值,然后排名。 2011.10 , ACM Transactions on Intelligent Systems and Technology , Identify Online Store Review Spammers via Social Review Graph (对前一篇文章的扩展,期刊) 2012 WWW Estimating the Prevalence of Deception • 这篇文章由 Myle Ott 等所做,前面讲过一篇其 2011 年在 ACL 上发表的一篇文章。 和前篇文章不同的是,这篇文章目的在于使用了一个生成模型测试某些在线评论社区上的欺骗流行度,即某社区被作弊的程度。例如 Expedia , Hotels.com, Orbitz, Priceline, TripAdvisor, Yelp 等。 本文还提出了一个使用经济学中信号量的理论来模拟在线评论的一个假设推理模型,从而达到尽可能的减少消费者和商家之间的信息不对称。 • Myle Ott 在上一篇文章中涉及到了心理学的知识,这篇文章中又涉及到经济学、心理学的一些研究方式,可见其知识面非常广,因此对这种文章研究透彻比较困难,不做具体阐述。 2012 WWW Exploiting Shopping and Reviewing Behavior to Re-score online evaluations • 本篇文章是我看到第一篇关于对评论重新打分的文章,想法来源是有很多评论的内容和评分不一致,某些用户不能给出公平的评价,比如其写的评论内容是负面的但是评分恰恰又是正面的。 • 本文通过对在线商店和评论行为的分析,重新给商品评论和店铺打分。 • 数据集:淘宝 • 观察: – ( 1 )淘宝上的差评商品一般作弊的可能性较小,因为淘宝需要先购买后评价,做差评代价很大。 – ( 2 )许多商品虽然评分很高,但是评论内容是不满意的。 – ( 3 )消费者,商品,店铺之间可以构造一个复杂的“双二分图” • 基于上述观察,可以构造三个模型: – ( 1 )构造训练集,训练分类器,根据评论内容重新给评论评分。利用最大熵模型进行。 – ( 2 )在双二分图上利用关系互相加强的方法,计算消费者的可信度,类似于 HITS 。 – ( 3 )对产品质量重新打分。根据上一步 rank 值。 • 第二步基于两个假设: – 产品 / 店铺:如果可信消费者给店铺(商品)好评,则认为店铺(商品)是好的,好的店铺(商品)通常会有高比例的可信消费者 – 消费者:如果给好(坏)的店铺(商品)差(好)评,则降低其可信度;如果给好(坏)的店铺(商品)好(差)评,则提高其可信度 • 评测:基于一个好的网站或商品回头客的数量肯定相对比较多。因此评测标准设为前 k% 的店铺(商品)中含有回头客的数目比例。 2012 WWW Spotting Fake Reviewer Groups in Consumer Reviews • 本文是继 2011 年 WWW 上的一篇短文( Detecting Group Review Spam )的另一篇关于作弊群的检测的文章。 • 本文的主要贡献: – ( 1 )产生了一个已标注的作弊群数据集。 – ( 2 )提出一个创新的基于关系的检测作弊群的方法 – ( 3 )提出一个针对本文算法 GSRank 的综合的评测方法。 • 本文首先进行了数据集的构造,利用 FIM 挖掘侯选集,然后请 8 名来自 Rediff Shopping(4) 和 eBay.in (4) 的专家进行标记。(其中标记记做 spammcity 的值, spam-1 , borderline-0.5 , non-spam-0 ) • 然后分别从两个角度进行特征提取: – Group Spam Behavior Indicators ( 8 个) – Individual Spam Behavior Indicators(4 个 ) • 仅利用特征的传统方法的缺点: – ( 1 )训练集和测试集之间的数据被认为是独立的或者雷同的,而很多情况可能是服从某种分布 – ( 2 )如只用群特征只能揭示群的一些行为特征,不能揭示个体 review 或者 reviewer 的特征,造成信息损失。 – ( 3 )难以设计用来标识某商品被群作弊程度的特征。 • 本文中提出了三种关系模型: – Group spam——Products – Member Spam——Products – Group Spam——Member Spam • 然后基于这三种模型提出一个迭代算法来检测 spam : GSRank • 评测:( 1 ) NDCG :常用于信息检索中来评测是否相关查询反馈的排名处于比较靠前的位置,此处用于评测是否具有高 spammcity 的群处于排名较高的位置( 2 ) AUC ,见下页表。 2012 WWW Review Spam Detection via Time Series Pattern Discovery • 这是一篇发在 WWW 上的短文,其长文发表在 KDD2012 上。本篇文章仍然是做 review spam 检测的,但是其解决的问题是前面文章都未曾提出的: 有很多作弊者为了避免被轻易封号,使自己的作弊行为更具有隐蔽性,他们会每次作弊时申请很多账号,然后利用每一个账号发表很少甚至一条 fake review ( singleton review ,简称 SR )后就弃号,从而在最大程度上、以非常隐蔽的手段达到自己的目的。 • 本文利用时间序列模式来检测 SR 。 – 将每个 store 上的所有评论按照评论时间进行排序,然后在这些评论上用时间窗口进行滑动。注:时间窗口大小经过合理的调整。 – 在每个时间窗口上,计算三个统计量(维度): ( 1 ) f 1 : 位于本窗口内的所有评分的均值( 2 ) f 2 : 位于本窗口内的所有评论的评分数量( 3 ) f 3 : 本窗口内 SR 所占比例。 – 然后在上述三个维度上利用分别进行时间窗口的滑动,如果在某个窗口上三个维度同时发生突发性变化,则其非常可疑。 • 实验结果: • 53 个含多于 1000 条 SR 的 store ,本算法检测出 33 个。评测这 33 个: • • 在某个可疑的 store 上的某个突发窗口中选取 147 条评论: • 2012 KDD Review Spam Detection via Temporal Pattern Discovery (前一篇的长文) 2012 EALC In Search of a Gold Standard in Studies of Deception 关于 Rank 的 : FutureRank: Ranking Scientic Articles by Predicting their Future PageRank 2004 ACL Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization 2004 VLDB Combating Web Spam with TurstRank 2005 WWW Incremental Page Rank Computation on Evolving Graphs 2007 BIBE Supervised HITS Algorithm for MEDLINE Citation Ranking 2012 WWW Poster Exploiting shopping and reviewing behavior to re-score online evaluations 关于 Truth Discovery 的 : Truth Discovery 这个方向的论文和 Review Spam Detection 这个方向的论文有着很密切的联系,从方法上借鉴性很大,而且这两个方向上的一个更大的共同点是:都可以将这个领域涉及到的实体等看成一个异构网络(比如都可以看成一个双二部图结构的网络,如 truth discovery 中的 source-fact-object 以及 review spam detection 中的 reviewer-review-product/store 等) 。韩家炜等在这个方向上做了很大的研究。 2007 TKDE Truth discovery with multiple conflicting information providers on the web 2011 WWW Semi-Supervised Truth Discovery 2011 WWW poster Trust Analysis with Clustering 2012 VLDB A Bayesian Approach to Discovering Truth from Conflicting Sources for Data Intergration 用概率图模型来做的,创新性的用两个指标FPR和Sensitvity对源的质量进行建模。(具体内容请参照博文《文献阅读 2012 VLDB A Bayesian Approach to Discovering Truth from Conflicting Sources for Data Intergration》)
58 次阅读|0 个评论
CiteSpace中的Burst Detection
热度 16 ChaomeiChen 2012-5-3 02:03
CiteSpace中的Burst Detection
Burst detection 有突变,突发, 剧增 , 等等几种常见的翻译。基本意思是一个变量的值在短期内有很大变化。 CiteSpace将这种突变信息视为一种可用来度量更深层变化的手段。 CiteSpace中Burst detection用于两类变量: 1。施引文献所用的单词或短语的频次 2。被引文献所得到的引文频次 下面简单说明以下具体步骤。 1。施引文献所用的单词或短语的频次 A) 选Burst Terms之后,如看到如下提示: CiteSpace found existing burst terms. You may use them, or re-run the detection proccess, which may take several seconds to complete. 这说明你已经做过burst detection, 如果你愿意使用上次的结果,你不再需要做什么,可直接按GO. 这样产生的网络会包括你上次burst detection所选中的词。见图1。 如果你想重新做一遍burst detection, 按Detect Bursts的按键。CiteSpace会给你两个选择(见图2)。 B) 如选plain text, 稍等片刻之后,Space Status 窗口中会出现像:870 burst terms detected. 这说明CiteSpace发现870个词有跃迁现象。下面的操作和A相同。 C) 如选noun phrases,如果当前的数据从未抽取过名词短语,则会看到提示:Run noun phrase selection first, then run this function. 接步骤D. D) 抽取名词短语 在Term Type中选Noun Phrases, 提示两个选择:Create POS Tags 和 Do Not Create POS Tags. 注意,Create POS Tags 可能会需要几分钟或者更长的时间来完成。 在Space Status可见类似下面的提示: CiteSpace is pre-processing data files. Please wait ... Years: 10 Unique source records: 3255 这时抽取程序尚未开始运行。 如想看到抽取结果,可在Node Types中选Terms, 也可同时选掉Cited References(当然保留也可以)。总之,这个过程只是个中间步骤。可将Top N per slice 选得很低,像5或10。按GO. 这一步完成后,可继续C. 便会在Space Status里看到这样的提示: 29 burst terms detected. 短语burst的个数一般会比单词的小许多。见图3。 2. 引用次数的Burst 这个操作就简单得多了。在网络显示的上方有一个Citation Burst的按键。按2次即可看到图中加上了一些红色的圈圈儿。 图1 图2 图3 图4:yqhuang数据。 图5。Demo 5: CNKI. Keywords. g-index (k=100). gamma=0.7.
个人分类: CiteSpace使用指南|85254 次阅读|39 个评论
人脸检测之三: 贝叶斯公式.概率分布
热度 1 wanglin193 2011-3-7 10:46
设计一个模式识别系统需要确定两件事:第一件,用什么模式特征进行比较?提取那些能有效区分类别的特征,让同类样本在特征空间中尽量挤在一起,而让不同类别的样本间距离尽量远。(这里的“距离”根据不同的测量方法而有所不同,但总是希望通过某些方法把特征变换到线性空间中,毕竟欧式距离是比较直观的观察方法。)比如,在一个锅里炒黑豆子和白豆子(不止两颗),要想把他们分成黑豆和白豆两堆,比较好的特征是颜色;把大白菜和甘蓝菜分成两堆的特征是形状。如果白菜的“圆度roundness”是一种度量测度,用一个坐标轴表示,那么白菜们的这个特征在坐标轴上的位置应该是扎堆(clustering)的。如果有多种特征,每个特征对应一个坐标轴,组成的一个特征空间,它可能是很多维的高维空间。 第二件事,设计分类器。在特征空间中画一条线,线左边是大白菜,右边是甘蓝菜,这条线就是分类器。困难在于,两类模式在特征空间中的交界并不总是很明显。两类样本尽管聚类,比如呈现出高斯分布,但边界的地方两类是混在一起的。如果特征选择得不够好,这种不可分的情况就更加不可避免。模式分类问题其实都可以归结为"分大白菜哪点事"。 对于人脸检测问题,两类目标分别为人脸(正样本'+')和非人脸(负样本 '-'),也需要经过对图像提取特征和设计分类器两个串行步骤,现有的部分方法可以列一个表,比如: 特征 | 分类器 ———————————— pca降维 | AdaBoost 小波分解 | NN(神经网) Haar-like小波| SVM(支撑向量机) HOG | 贝叶斯分类法 LBP | ...... | ...... 原则上左右两边任选两项都可以组成一个图像识别系统,学术期刊(国内的更多些)上多如牛毛的文章几乎就是这么任意组合来的。实际上这也仅仅是一小部分,每种方法都能衍生出许多变化。经常听到某人听说某人的系统用了“神经网络”,这话提供的信息实在有限,因为他没有说他用的是什么特征,还有是什么神经网,是RBF网,还是BP网,如果是BP网那么有几层,每层都什么配置。久而久之,“神经网”,“SVM”这些词的滥用让它们都有被妖魔化的趋势。 我们的方法可以这样准确地描述,“Viola-Jones的Haar-like小波,加上经过Boosting的Naive Bayes组合分类器”,可真够罗嗦的。Haar-like小波特征我们在上节有介绍,用matlab计算比较方便,比如我们有若干24×24的样本图像组成一个3D矩阵samples, xy方向是图像平面,沿着它的z方向可以遍历所有样本,比如samples(:,:,7)表示第7个样本。所有样本的积分图像(积分数组)分两步计算: cumsam = cunsum(cunsum(samples,1),2); 对所有样本计算一个矩形特征的方法也可以利用矩阵特性批量进行,假设矩形由a,b,c,d四点组成: f1 = cumsam(ay,ax,:)+cumsam(dy,dx,:)-cumsam(by,bx,:)-cumsam(cy,cx,:); 另一个矩形特征为f2,则一个Haar小波特征为 fv = f1 - f2. 以上是对上一节特征提取具体计算方法的补充。接下来,因为上边提到的特征数目太多(10万多),希望从大量的特征feature pool)中选取有效的特征,原则是两类样本在这个特征轴上的分布尽可能离得远些,越远越好。“训练(training)”过程是个离线的过程(离线又是个什么东西?离线offline是相对于“在线online”说的,表示这种过程是在生产线下完成的,可以不计时间代价,“我可以等!”。训练好的模型,是需要用在实际检测中的,所以需要越快越好,叫“在线”。),就是从这个pool中打捞有用的特征,它们单个的分类能力尽管有限,但它们的组合,可以很强大。如何评价每个特征分布的好坏?用Bayesian 把每个都试一试看,看看哪个特征两类的分布差距最大。 贝叶斯公式,据我粗浅的认识应该是指:类别对于特征的后验概率正比于该类别在这些特征分布下的条件概率(就是上述特征分布)乘以该类的先验概率(比如世界人口的男女比例)。用公式表达: P(wi | f1,f2,...fn ) = p(f1,f2,...fn | wi ) * p(wi),wi表示很多类中的第i类,f1,...,fn表示。它的意思是,在给定特征值 f1,f2,...fn的情况下,属于类别wi的概率是多少。比如我们有m个类别,对于每个wi,i=1...m,都可算出一个概率,选其中最大的,对应的那个wi就是最终的类别,这个唤作“最大化后验概率(MAP)”。对于每个类别,都可以根据采集到的样本实现知道特征分布函数p(f1,f2,...fn | wi ),有几类就有几个这样的分布函数,叫概率分布函数(pdf)。对于人脸检测这样的两类问题(w+和w-),贝叶斯分类器可以用两类后验概率的比值表示, f(f1,...fn) = P(w+ | f1,f2,...fn )/P(w- | f1,f2,...fn ) , 这个值越大,越倾向于正样本,通常用一个阈值决定是'+'还是'-',另外p(w+)和p(w-)的比值可以认为是固定的和特征无关,最终分类器表示为条件概率的比值的形式: f(f1,...fn) = p( f1,f2,...fn | w+ ) / p( f1,f2,...fn | w- ) 对于组合特征f1,f2,...fn 的分布函数p( f1,f2,...fn | w+ )进一步简化的方法是,在假设n个特征统计无关的情况下,可以用每个特征的特征分布的连乘的形式来表达: p( f1,f2,...fn | w+ ) = p( f1 | w+ ) × p( f2 | w+ ) ×... × p( fn | w+ ) ; 这部分具体可参考概率论相关书籍。所谓统计意义的不相关,是指每个特征呈现的分布不是由其他特征决定的,是独立的p(f1|f2,...,fn) = p(f1), 这样的独立性假设是保证每个特征对分类的贡献都不受其他特征影响,它的反面则是指它提供的信息是冗余的。就象在班会上,程老师让大家发表对某项班级活动的看法,在老薛发言之后,我站起来说:“我完全同意薛同学的看法“。这样我的意见就不包含任何有用的信息(除了暴露了我其实并不关心这样的活动),是高度冗余的。 虽然实际上f1,f2,...,fn之间并非总是相对独立的,但还是假设上式勉强成立,这个一般叫做Naive Bayes(Naive 这个字源自法语,Too simple, sometimes naive.)。实际上,我们提到的AdaBoost方法就是尽量去除数据之间的相关性的。这样分类器表示为: p( f1 | w+ ) × p( f2 | w+ ) ×... × p( fn | w+ ) f(f1,...fn) = ------------------------------------------------------ p( f1 | w- ) × p( f2 | w- ) ×... × p( fn | w- ) 上式左右两边取对数,这样讨厌的乘除法就变成加减法了: ln(f(f1,...fn)) = + ....+ ; 其中ln(p( fj | w+ ))是某个特征的概率分布函数p( fj | w+ )的对数形式,p( fj | w+ )如果用参数化的形式表达成比如高斯分布或者混合高斯分布的形式的话,那么只用若干参数就可以表达了,但是它们并不是服从高斯分布的,所以通常用非参数的方法表达,那就是直方图。把ln(p( fj | w+ )) - ln(p( fj | w- )) 表示成一个直方图,表示每个特征的置信度,那么人脸检测就变成这样一个过程: 1 在输入的一个图像区域里,计算若干特征; 2 根据每个特征查表,在直方图里找到对应的置信度值; 3 把这些特征对应的置信度值求和,用一个阈值Th决定输出为‘+’或‘-’。 实际上不论用什么特征,什么分类器(神经网,SVM),它们最终的形式都可以表示成一组特征数据的加权和,以及一个最后的判决阈值Th的形式: if ( SUM ( H(fj) ) Th ) , j = 1, .. .., n, n个特征 wi = face; else wi = nonface; 下节将介绍特征分布的直方图是如何被用来选取特征,并最终组合成分类器的。 以上方法都不是我想出来的,我只是用白话写写我的理解。参考文献如下: 边肇祺, 《模式识别》 Tom M.Mitchell, Machine learning (《机器学习》 ) Bo WU, Haizhou AI, Chang HUANG, Shihong LAO, Fast Rotation Invariant Multi-View Face Detection Based on Real Adaboost, In Proc. the 6th IEEE Conf. on Automatic Face and Gesture Recognition (FG 2004), Seoul, Korea, May 17-19, 2004. http://media.cs.tsinghua.edu.cn/~imagevision/publications.htm
个人分类: 人脸检测|8309 次阅读|0 个评论
paper1 A. Bose, X. Hu, K.G. Shin,and T. Park, 2008. Behavioral Detection of Mal
coucar 2010-9-28 10:06
paper1 A. Bose, X. Hu, K.G. Shin , and T. Park, 2008. Behavioral Detection of Malware on Mobile Handsets . MobiSys'08.225-238. Idea Work: Bose et al. 采用因果知识的时态逻辑( Temporal Logic of causal knowledge )将一些连续的程序行为(包括恶意的和常规的)定义成逻辑表达式的形式,这些表达 式称为行为签名( behavioral signatures )。行为签 名被存入到数据库中。数据库中存储的行为签名被作为机器学习算法( SVMs )的输入,用于训练分类器。另一方面,手机中的系统调用和事件被映射成同样类型的行为签名,然后使用分类器来判别是否属于恶意行为。这是一种行为检测的方法。 Limitation: ㈠由于无法获取足够的病毒源码,使得本文中所提出的检测框架未能接受足够的检测。所使用的病毒样本主要源于对已知病毒的模拟。而这些模拟是文章作者自己做的,外人在不知细节的情况下很难重现实验 ㈡无法识别采用未定义行为模式或行为模式与正常行为模式几乎一致的恶意程序。 ㈢无法阻拦能够规避 API 监控(安装 rootkit 或创建比监控层更深的钩子)或修改监控软件配置的恶意软件,这需要配套的防御措施(如, rootkit revealer )。 Future work: 从理论上论证行为检测的方法在发现同类型恶意行为和 0day 恶意软件方面的优势
个人分类: 文献阅读|3541 次阅读|0 个评论
A Simple Algorithm for Peak Detection
yuzhan 2009-11-7 16:40
谱峰的检测是色谱、质谱等几乎所有谱图处理中重要的一环。关于谱峰检测的算法有很多,Zhang et al【1】等总结了一些算法,但是可惜我水平差,看不懂。 于是我想到了一个简单的算法-相邻值比较。如果一个点Y n 大于Y (n-1) 也大于Y (n+1) 的话,那么Yn就是峰。实际的结果是如果谱图基线不平的话,最终可能会出现很多的峰。这个算法过于简单。 第二个算法就是按照斜率的算法,首先找到波谷,然后再去计算后面的最高值与波谷之间所形成角度,如果这个角度大于阀值,则后面的这个最高值就是峰。虽然这个算法也不是完美的,但是至少要比第一个的好上许多,再仔细雕琢的话,就会成为一个比较简单的找峰算法。 其余的复杂算法有很多,有人使用小波分析什么的,总之林林种种。一个新算法搞好了,就可以发在bioinformatics上。我只是处理一些简单的数据,没必要再从头开始学R或matlab。简简单单最好了。 例子程序: procedure TForm3.FindPeaks(); var N:integer; i,j,k:Integer; MinValue,MaxValue:Double; x1,y1,x2,y2:Double; begin N:=Series1.XValues.Count; // Series1: TFastLineSeries; Series1 与Series2 来自于TChart MinValue :=Series1.YValues.MinValue; MaxValue :=Series1.YValues.MaxValue; x1:= Series1.XValue ; y1:= Series1.YValue ; for i := 2 to N - 2 do begin if Series1.YValue = y1 then begin x1:=Series1.XValue ; y1:=Series1.YValue ; end else begin if Series1.YValue = Series1.YValue then begin x2:=Series1.XValue ; y2:=Series1.YValue ; if ((y2-y1)/(x2-x1)) Threshold then begin //Threshold := 2; if (y2-y1) ((MaxValue-MinValue)*0.1) then begin // 0.1 为阀值 Series2.AddXY(Series1.XValue ,Series1.YValue ); // Series2: TPointSeries; x1:=Series1.XValue ; y1:=Series1.YValue ; end; end; end; end; end; end; 【1】Jianqiu Zhang, Elias Gonzalez, Travis Hestilow, William Haskins and Yufei Huang, Review of Peak Detection Algorithms in Liquid-Chromatography-Mass Spectrometry, Current Genomics, 2009, 10, 388-401.
个人分类: 编程|6534 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 01:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部