科学网 › 标签 › 标注 › 相关日志

标签: 标注

相关日志

如何免费获得高质量标注数据？: wshuyi 2019-6-12 09:46; 用第一性原理，破解科研数据获取难题。标注自从开始了解机器学习以后，想必你已经发现，数据分析领域，标注（annotation）是很重要的。请你再次回顾一下这张图。我多次外出讲座时，这张图总能让与会者感到眼前一亮。图片的原作者是华盛顿大学的 Pedro Domingos 教授。但是因为许多著名的机器学习课程争相引用，因此现在这张图已经传遍全网。注意这里的机器学习，实际上是特指“监督式”（supervised）。关于非监督式机器学习，你可以参考《如何用Python从海量文本抽取主题？》一文的介绍。这幅图里面，下方的“Output”实际上是指标记的（annotated）输出结果（labels）。监督式机器学习，实际上就是要以输入数据和标记，来自动构造程序，从而可以被用来处理更多的新数据。所以你看，机器模型能够学到规律，靠的就是标注。咱们介绍过的计算机视觉分类，便需要有人来标注物体名称。例如猫还是狗，哆啦A梦还是瓦力。再比如 IMDB 影片评论数据，也需要先搞清楚究竟是正向情感，还是负向情感。当然，上面这个 IMDB 评论可以看做是特例。回顾你在豆瓣或者淘宝打分的经验。是不是要写一条评论的同时，还得提交一个分数？你的评论，就是文本输入。你的打分，就是标记（Annotation）。对，你已经帮助系统做了标注。平台就不需要再找人单独做标注了。但是，大部分的数据标注，可没有那么简易。你可能需要面对无标注的原始输入，一一手工做出标记。这种工作一般很枯燥，但是并不太复杂。例如猫狗识别，或者给车辆勾勒边缘（用于物体识别，object detection）之类的简单标记工作，都已经被外包到了低工资水平地区。因为这种标记要求的是常识，并不需要特殊的专业知识背景。许多研究者为了节省资金，甚至会选择众包方式。最典型的，是亚马逊 Mechanical Turk 。因为工资水平太低，还专门有学者撰写论文，探讨这种标注是否合乎伦理。问题然而，有些标注数据，即便可以获得，价格也不菲。例如说，在文献分析领域，引用目的标注，就被公认是一种昂贵的数据。每一篇论文，都会有或多或少的参考文献。研究者们很感兴趣的一个问题是，作者为什么引用了某一篇文献？引用某些论文，为的是作为工作基础加以扩展；有的引用，是为了佐证观点；有的，却是为了作为靶子驳斥。关于被当做靶子的论文，最著名的是薛兆丰教授津津乐道的科斯（Ronald Harry Coase）那一篇，叫做“The Problem of Social Cost”。科斯关于产权的新观点一经提出，就因为离经叛道被许多人骂。这其中，不乏主流经济学家。新晋的学者阅读文献，总能在许多大师经典的文末“参考文献”，看到科斯的这篇文献。于是他们都会感兴趣，找来阅读一看究竟。看过之后，大多数人都觉得科斯的观点令人无法接受，自然也是撰文大加鞭挞。可问题是，新写出来的文章末尾，还是要把科斯的这篇论文当做引文。这篇文章，读过的人越来越多，科斯的名气也就越来越大。文章影响力大了，就会逐渐出现支持的声音，虽然很微弱。而主流共识发生了迁移后，科斯一下子就成了挑战学术界的孤胆英雄，直到获得诺贝尔奖这样的荣誉。咱们先不要考虑这个例子中双方学术观点的对错，只观察一个有趣的现象——许多人之所以会阅读到科斯的文章，其实是没有搞清楚他人引用科斯文章的目的。科学共同体的评价，有点儿像大众点评。一般来说，一个人人打低分的餐馆，会门可罗雀，直到关门大吉的。科斯这一篇，越被贬低越红，其实是研究史上的特例。也许你不会觉得这是特例，因为你听过不少类似的例子。但是想想看，只有这样的例子，才有戏剧性，会被记录了下来，并且广为宣传。我们更常观察到的现象，其实是：一个观点被许多人当成谬误，最后也被证实为谬误。例如永动机。因此，正确区分引用目的，其实在绝大多数情况下都是有价值的。要辨别引用目的，也需要找人做标注。以往人们的做法，是高薪雇佣学术界的专业人员，逐条分析文献，以及回顾阅读引用位置附近的上下文，最终来确定文献引用目的。回忆一下你自己阅读学术论文的速度，这种工作的效率便可想而知。标注工作做了几年，也就是完成了百十来篇文献的分析，包含几千条引文的目的标注。成本已经高到令人咂舌了。这显然不是个好办法。创新 Joint Conference on Digital Libraries (JCDL) 2019 大会上，我结识了一位青年学者。他提供了另外的一种解决途径。我们是在大会第一天的 Tutorial 环节认识的。当时的主题是提升研究的可重复性（Reproducibility），我们都是听众。我在讨论环节分享了自己授课过程中使用 Google Colab 的经验，他听了觉得很有价值，会后专门跑过来找我聊。我开始还以为他是个博士生。后来看他跟几位大咖交流带博士生的经验，才知道以貌取人真是错的离谱。言归正传。他只用了不到一个月的时间，就收集到了与他人几年工作结果等量的引用目的标注数据。标注质量非常高，而且几乎没有花钱。他就是 Petr Knoth ，英国开放大学（Open University）的研究员。 JCDL 2019 “Vannevar Bush 最佳论文奖”得主。顺便提一下，Vannevar Bush 就是撰写图情领域经典文献《诚如所思》（As We May Think）那位。下面我们来说说 Petr 的标注数据获取方法。追问这是一个典型的“跳出思维约束”的故事。他追问了几个问题：第一个问题是：为什么标注成本高？答案是，必须要雇佣专业人员。他们受过严格的训练，才有能力在读论文的时候，正确识别引用目的。试想你让一个学古典文学的人，去标注化学文献，光是那些术语，就能让他不知所措。第二个问题是：我们真的就只能付费找这些专业人员吗？初看起来，结果当然是没错。不过，人们似乎忽略了另外一群专业人士，甚至在这个话题上更有发言权的人——论文的作者们。文献是谁引用的？作者啊。我们传统智慧里，有一句“解铃还须系铃人”，没错吧？既然文献是他引用的，那该如何标记引用目的，他想必更清楚。而且作者亲自做这个工作，效率一定会更高。第三个问题是：为什么别人不去找作者们标注？人们想当然认为，作者们都是富有研究经验的学者，因此时间更加宝贵。不太可能回应这种需求。他们要是收费的话，会比目前的标注人员更高。标注需求一方的科研经费更加无法支撑。这个假设，看似正确。但有一个重要的默认假设，即标注是一件非常麻烦的事情。没人愿意做非常麻烦的事儿，特别是免费地做。于是，Petr 提出了最重要的一个追问——标注是不是一定要如此麻烦呢？他和研究团队一直在致力于推动文献开放和提升科学学（Science of Science）研究数据的可得性。他们的项目叫做 CORE 。截止本文撰写的时候，他们的系统已经采集了 135,539,113 篇论文的全文信息。你甚至可以直接利用他们提供的 API 进行文本挖掘。在这个过程中，他们经常和 pdf 文件打交道，觉得在网页和正文之间跳转非常的繁琐。于是他们找到了一种第三方开源工具，可以方便地提取 pdf 的内容，直接以网页格式来显示，以便和他们的 Web 系统紧密整合。 Petr 于是就想，如果我可以让作者在网页上方便地一站式看到上下文、文献记录和引用目的选项，那这项标注工作的繁琐程度是不是就大大减低了呢？尝试他和团队里的一个小伙子用了不到2个星期的时间，把这个简单的系统开发了出来。有了这个系统之后，他们随机选择了数千篇论文，自动抓取了第一作者的联系邮箱，然后把请求和对应论文标注页面的链接发送了过去。信发出后，他们发现，近年发表论文的作者，更愿意回应他们的请求，并且更快速提交结果。这很好理解，至少因为记忆犹新，作者的标注成本更低嘛。短短两周时间，他们就获得了数百份回复，积累了5000多条引用目的标注数据。他们几乎一分钱都没花。更有意思的是，有的作者不但快速完成标注，之后还给他们写信表示感谢。来信里，作者们纷纷表示这个标注过程，让他们重新梳理了引用的逻辑和思路。相当于快速地给研究的脉络做了个备忘，对未来新项目的开展大有好处。这，就是一种典型的共赢（win-win）吧？不仅如此。这一套方法，相对于传统的雇佣专业人员标记，还具有显著的可扩展性（Scalability）。从前多标记一条引文，就需要多花一份成本。而现在，只要扩大文献选择范围，系统就可以自动向更多作者发送标注请求。边际成本，几乎是零。反思 Poster 展示环节，Petr 就着他的展板，给我介绍了整个儿流程。讲解的时候手舞足蹈，幽默风趣。我听完，真有醍醐灌顶之感。我们大多数时候，都生活在一个平凡的世界里，喜欢套用约定俗成的观念，来理解和认识它。因为这样，比较省脑力。但是科研过程不一样。它不应该是萧规曹随的。许多约定俗成的假设和共识，用隐含的方式根植于我们思维模型的底层。但它们却未必正确。这就需要我们不断反复追问，并且调用第一性原理来重新梳理假设的关系链条。大胆假设，小心求证，才是科研的正途。希望你也能早日做出这样既有用又有趣的研究。延伸阅读你可能也会对以下话题感兴趣。点击链接就可以查看。如何高效读论文？如何快速写作论文初稿？如何选研究题目？数据科学入门后，该做什么？喜欢别忘了点赞。还可以微信关注我的公众号 “玉树芝兰”(nkwangshuyi) 。别忘了加星标，以免错过新推送提示。题图：Photo by José Alejandro Cuffia on Unsplash; 6810 次阅读|0 个评论

arcgis标注上下显示不带横线: cui99515158 2017-11-22 22:07; Function FindLabel ( , ) FindLabel = vbNewLine End Function; 个人分类: GIS应用|5939 次阅读|0 个评论

最新消息：美国有机肉类可标注“非转基因”: 热度 1 蒋高明 2014-11-12 09:27; 【明辨是非】国内有关部门及其相关专家，为了推动转基因食品在中国的商业化，竟然发文要求“非转基因”不能做广告，不能说有机食品更安全更天然，还说国际没有先例，现在来看看美国人的做法吧。连非转基因也不让宣传，名义上是为那少而又少的人群（有网络调查90%的人群拒绝或不愿吃转基因，这就是民意啊！）吃转基因扫平障碍，让食物更公平，但这样极端的做法更让老百姓“老不信”的，有“此地无银三百两”的感觉。其实，有机更安全更天然，美国人也在宣传的，奥巴马夫人在白宫带头种植有机蔬菜就是一种无声的宣传。美国转基因巨头投资巨资阻止“转基因”食品标注，中国有关部门和专家发文禁止“非转基因”宣传，是否有些异曲同工之功效呢？老百姓的知情权呢？法律规定呢？你有吃转基因的权利，不能让拒人吃非转基因的权利吧。本文链接：http://blog.sina.com.cn/alvyongyan 相关报道：http://china.huanqiu.com/News/mofcom/2014-11/5197826.html 中国商务部：美国有机肉类可标注“非转基因” 转自：中华人民共和国商务部网站驻外机构经贸新闻美大中华人民共和国驻美国大使馆经济商务参赞处文章来源：美国农业部食品安全检验局　　 2014-11-11 06:43 原文地址： http://www.baidu.com/link?url=VpOXxnxt4GHjS5K0KZEj000zIP-pYI2IAT2ExAsijxdSwSFpoaX07cK6RBPcHRG3BRkUZ1dU6C4974RSjXR1g99BOUIBaC6s9mARbhaqcfuie=utf-8f=8tn=25017023_1_dgwd=美国有机肉类可标注“非转基因”pn=10oq=美国有机肉类可标注“非转基因”usm=1 http://www.baidu.com/link?url=S6Th9pSiHvjb3MytX2c1DyCJcfqTlgisa7sMHQgA46FTmLS9T9BWgvjf-GSBKJYNHCL8ne_GjgvPvMKEog8eeRxoOmqesLmR4TxPsEK79Iy 美国农业部食品安全检验局（FSIS）近日发布了关于允许在有机肉类产品标签上标注“非转基因”的新规定，该规定与美国现行有机法规是相符的，有机产品法规禁止在有机产品中使用任何转基因成分。根据新规定，经认证的有机企业可以在FSIS批准的产品上标注“非转基因” 或“使用非转基因饲料”。企业可向FSIS下属的标签审核项目组（LPDS）提交书面申请，LPDS将按照新规定进行标签审核，FSIS将在日常检查中对标签使用情况进行验证。; 个人分类: 环保呐喊|2561 次阅读|1 个评论

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 标注

相关日志

关闭安全验证