科学网

 找回密码
  注册

tag 标签: 长尾

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

2017软科排名中的“长尾”现象
热度 3 coffer 2017-8-21 11:07
2017 软科排名中的“长尾”现象 2017 年8月15日,上海软科发布了世界前800位的大学学术排名,从800所高校的得分情况看,看到了很有意思的“长尾现象”。何为“长尾现象”?我们不妨从一张图说起。 一、800所高校得分折线图 图为2017年软科排名中800所高校得分由高到低的折线图,最高分100,最低分6.4分。从图中不难看出,排名靠前的高校间分数落差巨大,得分直线下降,从100分到30分,中间仅有60多个高校。排名靠后的高校,分差微小,从30分到最后一名,中间有700多个高校。从800所高校的得分连成的折线图形态看,犹如拖出一条“长长的尾巴”,由此,借用经济学中的“长尾理论”一词,称之为“长尾现象”。 二、位次相邻高校分差散点图 造成“长尾现象”的主要原因是排名靠前的高校间分差大,排名靠后高校间的分差不明显。至于排名靠前高校的分差大到什么程度?排名靠后高校分差微弱到什么程度?我们再看下图(排名相邻高校分差散点图)。该图呈现了位次相邻高校的分差变化,排名靠前高校中位次相邻高校的分差巨大,最大的达到23.5分(第一名和第二名之间)。排名靠后高校中位次相邻高校的分差都十分微小,很多仅有0.1分的微弱之差。 三、2017软科排名中高校得分的“一分一段” 为此,我们参照高考学子们熟悉的“一分一段”做法,对2017年软科排名推出的800所高校也列出一个“一分一段”。其中“得分段”指得分大于等于它,且高出该数值1分以内。(如“得分段”为35,指得分大于等于35分,且小于36分的高校数) 得分段 此段高校数 此段以上高校总数 100 1 1 99 0 1 98 0 1 97 0 1 96 0 1 95 0 1 94 0 1 93 0 1 92 0 1 91 0 1 90 0 1 89 0 1 88 0 1 87 0 1 86 0 1 85 0 1 84 0 1 83 0 1 82 0 1 81 0 1 80 0 1 79 0 1 78 0 1 77 0 1 76 1 2 75 0 2 74 0 2 73 0 2 72 0 2 71 0 2 70 2 4 69 1 5 68 0 5 67 0 5 66 0 5 65 0 5 64 0 5 63 0 5 62 0 5 61 1 6 60 1 7 59 0 7 58 1 8 57 1 9 56 0 9 55 0 9 54 0 9 53 1 10 52 2 12 51 0 12 50 1 13 49 2 15 48 0 15 47 1 16 46 1 17 45 1 18 44 1 19 43 1 20 42 1 21 41 5 26 40 1 27 39 1 28 38 2 30 37 2 32 36 6 38 35 3 41 34 2 43 33 4 47 32 5 52 31 8 60 30 1 61 29 5 66 28 11 77 27 12 89 26 9 98 25 13 111 24 13 124 23 11 135 22 8 143 21 9 152 20 15 167 19 12 179 18 24 203 17 24 227 16 34 261 15 32 293 14 36 329 13 30 359 12 45 404 11 53 457 10 59 516 9 76 592 8 86 678 7 119 797 6 3 800 四、小结 无论是各高校得分的“长尾现象”,位次相邻高校分差变化,还是“一分一段”信息,都呈现出了一个现象,那就是 从软科排名的结果看,排名靠前的高校间得分差异较大,在这类高校间产生排名变化的难度相对较大。另外,或许对关心排名的高校而言,可以从“一分一段”的信息中看到自己得分提升与排名提升的关系,可以看到有可能的软科排名发展空间。 笔者只是从客观的得分数据呈现如此现象,未有深入研究,难以对评价系统或评价结果做出更为科学深入的结论。希望能借此抛砖引玉,得到更多有意思的分析结果。 (基础数据由里瑟琦智库小伙伴们采集,向你们的辛勤劳动表示感谢) 2017 年8月20日
9942 次阅读|3 个评论
【一日一parse:长尾问题种种】
liwei999 2016-7-6 05:30
我: 欢迎金老师。从理转文 学语言学的 往往功力深厚 别具一格。白老师 还有语言所的前辈范继淹先生 都是证明。 白: 这里是NLP的一大窝点,每天都有扯不完的话题。 “白总,您可以给我一点您的简介,关于区块链的文章我来报选题不?” 看看这个“可以……不”之间经过了多么漫长的旅途。 我: 这个“可以不”肯定是搭配不上了,硬做也不值得,主要还是看看怎么凑合吧?当然是用 Next 把局部parses先patch起来,这样至少通道是有的,想做功的话,余地在。 白: 从技术层面来讲,我们可以将8.11之后的人民币汇率形成机制简单表述为“双锚相机转换机制”。 这里的“相机”,谁的机译系统能翻对? 我: not bad 白: 全是camera 我: 不是 camera 是啥?不懂术语。 谷歌这次及格了。涉及汉语的MT,谷歌总是比百度差或略差。谷歌干脆 license 百度得了,至少中文MT。 白: take actions accordingly 这哪是术语。地道的中文。 我: 那就是我中文不行。哦,相机-见机 而行 双锚相机是什么相机? 白: 在没有camera的时候,就有这个“相机” 我: 但是大数据把它冲得快没影了 白: 我朋友圈转发了FT这篇文章,一看便知。 我: 相机是现代高频词。一个不懂行的人,看到这一段虽然不懂,但是心里在问: “双锚相机是个什么相机?” 白: 双锚,也不修饰“相机”,他俩都是状语,修饰“转换”。 我: 那是你懂。对于不懂domain的人 不是这样的。 cf:“单反相机转换机制” 白: 双锚vs单反,完美的对仗。 我: 如果汉字保留“像机”不用“相机”,可能不至于。 一个 real life MT 很难为了一个几乎从来不用的 WSD 的选项,做啥特别的功夫。不单不合算,而且太容易弄巧成拙了。对于 trained model, SMT 根本就没有这个data;对于规则MT,也不大值得做。拉倒好了。 白: 这种逻辑,等于告诉用户,你就从了吧。 我: 对于极小概率的现象,如果真要做,那就尽可能词典化。词典化或 expert lexicon,没有啥副作用,可以应对长尾。任何概括化的努力,都容易亏本。 白: 极小概率累计起来就是长尾 马: 谋求单反相机起义。造一个,哈哈 白: 在不同formalism下,亏本与否可能结论大不相同。比如,如果formalism天然就是词例化的,就不存在弄巧成拙的问题。满世界都是拙。 张: 极小概率的词典化是规则系统最可爱而可贵的品质和能力 我: 可不,满世界都是拙,高高在上的精英规则就可以很光鲜。词例化 or expert lexicon 也还是不时需要与上面的合作。譬如句型的变式。合作的方式有不同。有句法语义一体的合作方式,也有先句法后语义的合作方式。各有利弊。 张: 这种拙是大局观,是大智若愚 我们这里有个小组正在天晕地暗研究知网的MT~~~ 我: 愚公移山呗 挖一块儿 少一块儿 而山不加增 ...... 张: 两位大师何时有空一来论剑?@白 @wei 我: 没去过东北,都说东北有三宝。 张: 白到骨,wei入髄 wei来we妙; wei说I 赞 我: 张老师那地儿 迟早是该去看看 我: 似乎是调通了,但还是选择不做“相机”。非不能也,是不为也,你懂的 有一个 catch: 将 ---- 把: “将” 等于 “把”(介词),但更歧义(modal V),好在前面有 “可以”。 【相关】 【立委科普:语法结构树之美(之二)】 【新智元:parsing 在希望的田野上】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3015 次阅读|0 个评论
[转载]【程序设计】【Android开发教程】
lcj2212916 2014-7-11 19:23
【名稱】:Android开发教程 【作者】:--- 【大小】:7.58MB 【格式】:PDF 【語言】:簡體中文 【內容簡介】:Android手机新概念操作系统的选择--定制和长尾 重构 MVC 和Web APP 架构 Android开发背景 计算技术、无线接入技术的发展,使嵌入式系统逐渐有能力对桌面系统常规业务进行支持。 谷歌长期以来奉行的移动发展战略:通过与全球各地的手机制造商和移动运营商结成合作伙伴,开发既有用又有吸引力的移动服务,并推广这些产品。Android 进一步推进了随时随地为每个人提供信息这一企业目标的实现。 【下載載點】: http://www.400gb.com/file/68284535
986 次阅读|0 个评论
长尾理论和web2.0
bigdataage 2014-3-28 13:15
长尾理论和web2.0 同人于野 Thomas Friedman 的《 世界是平的 》是一本很不错的书,我还特意做了详细的读书笔记。作为一个记者,作者能够观察到这个趋势,能够给出建议,甚至做出预测,但他未能总结出 一个抽象的理论。假设你开公司,第一步就是骗风险投资,如果你跟人家说世界是平的,人肯定说你说的那本畅销书连我妈都看过了。你得表现出一点专业精神。 我感觉现在最流行的两个词是”长尾理论”和”web2.0″,很可能是风险投资公司最爱听的词。其中”长尾理论”很有数学味道,说的时候最好蹦出几个 distribution function, power law 之类的词儿, 倍儿有面子;”web2.0″ 被盖茨认为是专门为了骗风险投资而制造的新概念,我估计在硅谷你要是不知道这词儿你都不好意思跟人一起吃午饭。顺便说一句,这两个词都是2004年发明 的,Friedman 的书里反复说什么11/9,9/11,却错过了2004这个关键时刻。 长尾,long tail,这个词的发明人是 Wired 杂志主编 Chris Anderson,最初思想很可能来自2003年某个学者的文章。我理解这个理论大概是这样的: 以前的商业模式中,你开一家书店,你会发现大部分收入来自那些畅销书。比如说80%的收入来自占全部书目20%的畅销书,而剩下的那80%的不畅销的书 知能带来20%的收入。有人统计说120万种书中只有2.5万种的销售量能够过5000大关。也就是说在过去,卖书,或者是电影,CD,如果你的店面不是 无穷大,你应该只卖最畅销的。如果你写的书不畅销就等于没写;如果你不是最牛的球星专卖店里就没有你球衣的号码。1995年有一本书叫做《 胜者通吃的社会 》,说的就差不多是这个意思。 但是现在不同了。借助于网络技术,亚马逊书店没有门面,可以把所有书都放在网上卖,甚至可以对冷僻书只保留数 字版,谁下单了现印。这样一来谁想找什么书都能找到,局面就完全不同了。据一个在线销售CD的公司统计,他们全部种类的98%,都能够保证每个季度至少卖 出一张。 “长尾理论”就是说,现在的销售分部函数有一个长尾,而所有不畅销的书的销售量加起来,已经超过那些畅销书的销售量了。 这就是Chris Anderson 2006年新书副标题说的意思:selling less of more。 这个理论有深刻的内涵。以往大家看新闻只看”主流媒体”的,现在开始看blog了。以往新闻批评都写在报纸上,现在很多人去论坛。网络降低了发表的门槛,不是作家的人写出来的小说也能有不少人看。 我觉得现在应该做的一个统计是对网民作调查,你上新浪网看新闻的时间多,还是上论坛看贴的时间多?看专业作家写的小说多,还是在网上看网友写的玄幻长篇多?去电影院看电影多,还是YouTube看恶搞短片的多?你在eBay花的钱多还是在街头专卖店花的钱多? 根据长尾理论,结果有可能,或者至少在不远的将来,后者总合超过前者。 这样发展下去,结果就是 现在的世界是业余选手的世界 。也就是说网站所要提供的不仅仅是以前的新浪那样的专业新闻, 而是一个平台,让用户自己来创造内容 。比如说wikipedia, blog, podcast, YouTube, Ebay,这些网站本身并不提供什么内容,所有内容都是用户自己提供的。 这样的网站就叫 web2.0。现在最流行的business model。 Web2.0 不等于说网站做做广告就完了,怎么搭建平台,数据结构,很多问题,其中的学问很大,在此推荐一本小书:《 长尾无处不在 》。 原文: http://www.geekonomics10000.com/82
2618 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 18:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部