维基百科,自由的百科全书 TF-IDF (term frequency–inverse document frequency)是一种用于 资讯检索 与 文本挖掘 的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个 语料库 中的其中一份 文件 的重要程度。字词的重要性随着它在文件中出现的次数成 正比 增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被 搜索引擎 应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。 目录 1 原理 2 例子 3 在向量空间模型里的应用 4 参考资料 5 外部链接 原理 在一份给定的文件里, 词频 (term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 t i 来说,它的重要性可表示为: 以上式子中 n i , j 是该词在文件 d j 中的出现次数,而分母则是在文件 d j 中所有字词的出现次数之和。 逆向文件频率 (inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取 对数 得到: 其中 |D|:语料库中的文件总数 :包含词语 t i 的文件数目(即 的文件数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用 然后 某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。 例子 有很多不同的 数学公式 可以用来 计算 TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 ln(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。 在向量空间模型里的应用 TF-IDF权重计算方法经常会和 余弦相似度 (cosine similarity)一同使用于 向量空间模型 中,用以判断两份文件之间的 相似性 。 参考资料 Salton, G. and McGill, M. J. 1983 Introduction to modern information retrieval . McGraw-Hill, ISBN 0-07-054484-0 . Salton, G., Fox, E. A. and Wu, H. 1983 Extended Boolean information retrieval. Commun. ACM 26, 1022–1036. Salton, G. and Buckley, C. 1988 Term-weighting approaches in automatic text retrieval. Information Processing Management 24(5): 513–523. 外部链接 Term Weighting Approaches in Automatic Text Retrieval Robust Hyperlinking :An application of tf–idf for stable document addressability.
本文是看到刘洋的博文“ 博文引用wiki百科算是cheap吗? ”后所做的一个调查。 “Wiki”没什么,它指的是一种人们可在其上通过“所见即所得”编辑器合作编辑网页的网站。可是“Wikipedia”(即维基百科)则非同寻常。“Wikipedia”是一种允许全世界连入互联网的人们合作编辑的在线百科全书;人们称:“百科全书是记录人类知识最全面、最系统的大型综合工具书。” ;也有称:“百科全书是对人类过去积累的全部知识或某一类知识的书面摘要。”。 上述两种说法中: “工具书”的定位意味着:人们利用它可以快速获取所查询条目(特别是查询者不熟悉、不确定的领域、知识)的相关知识; “摘要”的定位意味着:百科全书中叙述的内容可能不够详致,但基本正确。 所以在某方面不熟悉、不确信或者研究不够深入时,从百科全书中寻求快速支持未尝不是一种次优的选择。(潜台词:如果已经有比百科全书更好、更可信的知识来源,自然不会再求助于百科全书)。另外,由于Wiki软件的协作性,任何人对某一条目的最佳理解、定义或相关知识都可以在第一时间反映到条目中(通过追加、修订、删除等操作,并同时保留所有操作历史以便回滚),并随即接受所有关心该条目的人的审议。这个特点正是Wikipedia出生不到5年,即已赶上大英百科全书的最重要原因 。 这同时也使得维基百科拥有发展成最佳参考资料的潜在力量 。 到目前为止(2011.0220.2308),维基百科无论在内容的丰富程度、可用性、易用性、可信性方面,已经较2005年引起广泛关注 时有了更大的提高。 Nature 在2005年12月的一份调查 的结果中有这样一句话:“Jimmy Wales' Wikipedia comes close to Britannica in terms of the accuracy of its science entries, a Nature investigation finds. ” 更多关于“维基百科的可靠性”的知识请参考 。对“维基百科的可靠性”有争议的人,可以访问 ,或者直接参与 的编辑。 a news story comparing the accuracy of science articles taken from the website of Encyclopedia Britannica and Wikipedia , http://www.nature.com/nature/journal/v438/n7070/full/438900a.html Nature's responses to Encyclopaedia Britannica, March 2006. http://www.nature.com/nature/britannica/index.html Wikipedia, Britannica: A Toss-Up, http://www.wired.com/culture/lifestyle/news/2005/12/69844 Study: Wikipedia as accurate as Britannica, http://news.cnet.com/Study-Wikipedia-as-accurate-as-Britannica/2100-1038_3-5997332.html Reliability of Wikipedia, http://en.wikipedia.org/wiki/Reliability_of_Wikipedia Talk:Reliability_of_Wikipedia, http://en.wikipedia.org/wiki/Talk:Reliability_of_Wikipedia
1、 郭学良表示,人工增雨增雪是一个微物理过程,而不是产生新物质的化学变化,人工影响天气作业中经常使用的干冰、液氮、碘化银等催化剂并不会造成环境污染。 干冰、液氮可能不会造成环境污染,但是碘化银也不会吗?这话似乎太绝对了。摘录维基百科中的一段话,请大家评判吧。 来源: http://en.wikipedia.org/wiki/Silver_iodide#Rainmaking Under the guidelines of the United States Environmental Protection Agency Clean Water Act , silver iodide is considered a hazardous substance, a priority pollutant, and a toxic pollutant. Chronic ingestion of iodides may produce “iodism”, which may be manifested by skin rash, running nose, headache, irritation of the mucous membranes, weakness, anemia, loss of weight and general depression. Chronic inhalation, ingestion or skin contact with silver compounds may cause argyria characterized by blue-gray discoloration of the eyes, skin and mucous membranes. 2、 “我们每一个烟条里大概含碘化银11克。今年初雪我们燃烧了1200多个碘化银烟条,大概是13公斤碘化银,它的作业面积在北京9个区县,保守地说是1万平方公里,那么每平方公里只有1.3克,非常微量,它不会对环境造成什么污染。”张蔷说。 这样看起来确实好像量不大。但是仔细一想,问题就来了。大家知道,增雪(雨)过程是定点作业,如何能够确定使用的碘化银是平均分布到这样大的一个面积上的?有没有可能,碘化银只降落在作业点附近,而使得局部物质含量远大于 1.3克/每平方公里? 3、从2003年开始,北京一般夏季会在密云水库、官厅水库区域进行较频繁的蓄水型人工增雨作业,而且每半年对水库水体进行检测。数据显示,夏季水库里银离子的含量远远低于冬季检出的含量。张蔷说:“到目前为止,北京进行人工影响天气使用的碘化银对环境、水体没有造成任何影响。” 呵呵,密云水库、官厅水库区域是频繁人工增雨的地区,这里的银密度和别的地方一点差别也没有吗? 最为神奇的是: 数据显示,夏季水库里银离子的含量远远低于冬季检出的含量。 这就怪了,进行较频繁的蓄水型人工增雨作业的夏季其水库里银离子的含量却远远低于冬季检出的含量。我想问一下,检测者是否知道碘化银是不溶于水的?另外,冬天多出来的银离子是哪来的? 4、 张蔷说,碘化银的采购成本并不高,前几年大概是1000多元一吨,就算是有些市场波动,一吨碘化银还是能做大量的烟条。当然碘化银采购之后要制作成催化剂,还有其他一些工艺,可能会相应地增加一些成本,但整体来看,使用碘化银增雪不会花很多钱。至于干冰等其他催化剂,价格也不会太高。 碘化银1000多元一吨 ?这是那一年的事儿啊?现在还能买吗,能的话我先买几吨。 我查了一下,目前的市场价应该是200万人民币一吨左右。 如果还想了解人工降雪的相关信息,请参考: http://www.scientificamerican.com/article.cfm?id=cloud-seeding-china-snow 这篇文章是由新华社的中国网事栏目首发,其后又经科技日报和多家媒体转发。但是发稿前,似乎缺乏了一些严谨。对于其中的一些明显的问题,并没有注意到。我写这篇博文的目的只是希望像新华社、科技日报这样的媒体,应当认真细致地审查其发表的每一篇稿件。因为你们代表的是权威,你们所说的是许多老百姓会信以为真的。