科学网

 找回密码
  注册

tag 标签: 知网

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

知网,从知识图谱进行知识搜索
xihuyu2000 2020-6-8 07:56
知识搜索,可以更好地梳理知识结构,找出事物发展的脉络和因果关系。
5688 次阅读|0 个评论
导入数据后,自动生成,环图、饼图一体
xihuyu2000 2020-6-3 12:31
导入数据后,自动生成,环图、饼图一体。还可以随便修改,定制化非常强。
2098 次阅读|0 个评论
导入知网的数据,自动生成图表
xihuyu2000 2020-6-1 18:52
写文献计量论文的时候,自己去做图表特别麻烦,使用这个软件就可以快速方便的生成图表。
4413 次阅读|0 个评论
学位论文入库后的复检查重事宜之我见(续):趣谈学术论文联合比对库
wusaite 2019-10-29 12:50
学位论文入库后的复检查重事宜之我见(续):趣谈学术论文联合比对库 伍赛特 毕业多年后,笔者于 2019 年 2 月对自己的硕士学位论文“生物柴油与柴油基于可视化发动机的喷雾与燃烧特性研究”进行了再次查重,相关结果在博文“ 学位论文入库后的复检查重事宜之我见 ”中可见。 近来,笔者在重新翻看查重报告时发现了“学术论文联合比对库”这一名词,经考证研究,经知网查重的硕博士学位论文通常在一年后会被收录至该“学术论文联合比对库”中,也即论文会在系统中“留底”。 笔者为此翻出了多年前提交硕士学位论文之前自己的知网查重报告(注:该报告名为“ 123 ”,于 2015-05-05 日进行的查重),当时该报告查重后的结果仅为 8.8% ,但是于数年后再次进行查重,重复率居然高达 100% !相关查重结果可见下方附件及截图。 笔者于 2015-05-05 进行知网查重的报告数据 123.rar 笔者于 2019-02-18 进行知网查查的报告数据 检测报告_生物柴油与柴油基于可视化发动机的喷雾与燃烧特.zip 图1 2015-05-05版知网查重报告 图2 2019-02-18版知网查重报告 从上述报告中不难看出,由于近年来我国硕博士学位论文在正式提交前必须由所在高校的相关学院进行查重(通常均采用知网 CNKI 查重方式),满足要求方可进行答辩,但是为了保险,在读硕博士通常会自发去进行至少一次查重,根据结果进行相关修改调整,以此满足学校或学院的查重要求,而学生自己的(知网)论文查重结果及学院的(知网)论文查重结果均会在系统留底。 据此考虑到知网(包括学术论文联合比对库)、万方、维普等数据库对学位论文的收录,以及各大网络数据库(如百度文库、道客巴巴、豆丁等)的资料上传情况,并且截止至本文发表时间( 2019-10-29) 知网查重系统并不自带论文发表时间等相关筛选功能,如在多年后对既往发表的学位论文进行查重复检,其实意义并不大,该类检测方式更多仅可用于论文答辩前这一阶段。 图3 万方查重(“已发表论文检测”模块中)自带的“论文收稿日期”筛选功能 对即将毕业的在校硕博士而言,由于该学术论文联合比对库的存在,论文查重过一次即会在系统中留底,而于一年之后会正式在查重报告中显现,因此就要求作者尽快通过论文审核及答辩,否则如延期将会出现自己预提交论文和系统留底论文重复率过高的问题,对在读硕博士而言也是一项挑战。 参考文献 伍赛特.学位论文入库后的复检查重事宜之我见 .http://blog.sciencenet.cn/blog-3393151-1164125.html 学术论文联合比对库是什么? .https://www.cncnki.com/zixun/5542.html fftthappy. 论文查重求助《学术论文联合比对库》 .https://bbs.pinggu.org/thread-6901644-1-1.html
个人分类: 观点评述|5427 次阅读|0 个评论
中国知网上由于各种原因被撤稿的文章会以怎样的方式显现?
wusaite 2019-3-5 17:02
偶然在知网上闲逛,看到某位作者撰写的某篇论文,(笔者尚不知出于何种原因)居然会显示“撤稿”二字,其具体显示方式如下: 笔者本以为知网上对论文的撤稿处理是会整篇文章下架,直接无法搜索,查无此文。但目前看来加上“撤稿”二字似乎也是一类经相关处理后的显示方式。
个人分类: 趣事杂谈|23287 次阅读|0 个评论
学位论文入库后的复检查重事宜之我见
wusaite 2019-2-25 13:38
近期,教育部发表声明,将抽检硕博士学位论文列入今年工作要点。就目前而言,笔者尚不知教育部方面对抽检论文将会从哪些方面开展检查,本文就学位论文入库后的复检查重事宜提出一点个人看法。 目前学位论文查重多以知网查重(中国学术不端文献查重检测系统)作为主要检测依据,在硕博学位论文正式提交前必须会对其进行查重检测。通过相应查重标准为学位论文通过审核及硕士、博士可成功拿到学位的必要条件之一。 目前的查重主要针对提交前的学位论文进行查重,但如要对已经被相应数据库收录达数年之久的学位论文进行查重,会出现什么样的情况呢? 没有亲身实践就无法给出恰如其分的评价,笔者以自己数年前撰写的硕士学位论文《生物柴油与柴油基于可视化发动机的喷雾与燃烧特性研究》为例,通过知网“中国学术不端文献查重检测系统”的“硕博研究生 VIP5.1/TMLC2 论文查重”的系统进行了再次查重,其实际检测结果如下图所示。 是的,没有看错,查重率竟高达 100% !那么这是为什么呢?请看下方图示。 从如下图重可看出,笔者自己的论文其实早已被诸多数据库所收录(包括知网以及百度文库等),如今将论文再一遍上传查重,即与自己的论文重复了,因而会有高达 100% 重复率的数据。 对此,目前仍有几项问题仍有待探讨或完善: ( 1 )并非所有高校毕业的硕士或博士的学位论文都会上传至知网等网络数据库,如需对既往的硕博士学位论文再一次进行查重检测,对已被网络数据库收录的相应学位论文的作者是否会存在明显的不公现象? ( 2 )目前的查重系统依然主要以知网的“中国学术不端文献查重检测系统”为主要依据,就笔者撰写多篇学术论文后的查重经验来看,该系统并无按文献具体发布时间对数据库内的文档进行筛选匹配的能力。知网数据库浩如烟海,通常在工作日期间均会有一定数量的论文更新上传,如要即时实现上述功能,从技术层面而言短时间内可能较难实现。同时查重结果所显示的重复文字对全文重复率的影响亦非直接线性叠加,以此很难精确测算出入库达数年之久的学位论文的实际查重率。 教育部通知参考来源: http://news.sciencenet.cn/htmlnews/2019/2/423147.shtm
个人分类: 观点评述|5507 次阅读|0 个评论
谁说翟天临们不知道知网,就不能进行科学研究了?
热度 1 yunfeiyang521 2019-2-20 20:35
历史追踪 如何在家里优雅的看文献(一) 如何优雅的在家里看文献(2) 科学上网 教你如何利用三天的时间快速的进入一个新的研究领域 如何才能优雅的使用谷歌浏览器进行科研研究---Science online,不慌张 再见sci-hub 曾经写过几期的“如何在家优雅的看文献”,今天我想接着更新这个系列。今天主要介绍 如何越过知网的中文文献的检索,下载以及常见问题的解决 。 第一部分 中文文献的巧妙检索 阅读中文文献,我们首选当然是知网,但是在校外想使用知网,那是很困难的。今天我不想再提知网,我们想带领大家摆脱对于知网的依赖,成功解锁一条其他的中文文献下载之路。 假如今天我想查阅 肿瘤微环境 方面的内容,于是我按照自己的检索方法去进行了一些的操作。结果以迅雷不及掩耳之势呈现了。 这些内容足以满足我们对于这个领域的基本的掌握。仔细观察我们可以发现呈现的结果皆是包含在百度文库,文献的格式解为PDF。这些结果的呈现完全是出于我对于检索式的编辑: 肿瘤微环境 site:wenku.baidu.com filetype:pdf 当然我们也可以改变检索的数据库以及检索资料的格式。 检索文献格式:PPT格式 ( 检索式:肿瘤微环境 site:wenku.baidu.com filetype:ppt ) 检索文献格式:文本格式(doc) ( 检索式:肿瘤微环境 site:wenku.baidu.com filetype:doc ) 上面这些内容,大家是不是掌握了如何去编辑检索内容的检索的地址以及检索结果的常见的格式。 其他技巧简介:(了解) “”: 精准检索 A -B:检索A排除B(注意空格) intitle:标题检索 第二部分 检索常见网址 上面我们主要是介绍了百度文库这个网址,那么除了百度文库,我们还有一些其他的选择。 豆丁网:https://www.docin.com/ 道客巴巴:http://www.doc88.com/ 在道客巴巴与豆丁网中,我们发现无法编辑检索的文献资料的检索的格式,故我们编辑的检索式为: 肿瘤微环境site:doc88.com 或者 肿瘤微环境 site:docin.com 其他中文文库选择: 丁香,畅享,MBALib,Book118 ,360文库等等 第三部分 检索内容下载技巧与常见软件 前面两部分详细的为大家介绍了检索式常见的编辑方法以及三个常见的下载地址。对于检索到的内容,如何才能正常下载呢? 我们发现即使我们能够找到我们需要的内容,可是我们如果想要下载下来,不仅需要注册账号,还需购买下载券,或者要付费买购买传说的豆豆。严重的破环的阅读的顺应性。 所以我们还是需要采取一定的强制的下载的措施的。 常用下载软件推荐: 1 冰点 软件日常更新网站:http://www.bingdian001.com/ 无需积分就可以自由下载百度、豆丁、丁香、MBALib、道客巴巴、Book118等文库文档,无需注册和登录。下载的文档最终生成高清晰度的pdf格式文档。 1. 支持百度、豆丁、丁香、畅享、MBALib、道客巴巴、Book118等文库文档。 2. 无需积分也无需登录就可以自由下载百度文库和豆丁文库。 3. 支持多个任务同时下载和断点续传下载。 4. 生成的pdf文档与原始文档质量等同。 更新版本为3.2.7 1. 解决book118下载失败。 2. 支持新浪爱问资料。 3. 支持电器网下载。 ---上述内容引用与软件网站 2 常见在线可以下载的网站 嗨文库网站:http://hiwenku.com/ 巴法文档网站:http://wenku.bemfa.com 3 淘宝买账号 基本上几块钱就够你下载几千次了 4 有条件的同学可以通过官网注册购买权限下载使用 好了,今天的内容也就结束了。 大家可以使用微信扫一扫关注我们,当然也可以直接搜索微信公众号:科研学术屋 找到我们的大本营。欢迎老师同学们指导工作。 原文链接:http://mp.weixin.qq.com/s?__biz=MzI2MjkwMzA4Mg==mid=100003884idx=1sn=82d9ed33c37d5fd6cda97fc03d673e0achksm=6a4554695d32dd7f02dbc49f8cc6648682272ff6ec0905cedf07ab36df1cb467baafe7241f54#rd
1798 次阅读|1 个评论
学术资源垄断不能没人管
热度 8 xiaoshidaguan 2016-6-26 09:55
今年3月以来,有关学术数据库提供商中国知网价格猛涨的消息不断见诸报端,包括北京大学在内的多家高校图书馆都直呼“用不起”。有律师称,中国知网涉嫌滥用其在国内中文学术文章检索服务市场上的支配地位,限定期刊只能与其进行交易,赚取高额利润,触碰了《反垄断法》高压线。(《新华每日电讯》6月21日)   经济学的基本常识是,市场垄断会带来资源配置效率低下,并让垄断方获得高额利润,损害消费者的利益,因而要反对市场垄断,提倡自由竞争。学术市场同样如此,需要对垄断行为说不。对学术数据库的市场供应,反对中国知网一家独大,有利于学术论文资源的有效传播和共享。   作为学术产品供应商,如果知网遵循市场规律,根据市场供求合理调价,本无可厚非,但其做法显然有些过头:一是其对较多高校图书馆以每年10%以上的价格上涨,有“以不公平的高价销售商品”之嫌;二是其用户覆盖率高,缺乏与高校、订阅者等消费者方的议价余地;三是其作为博士学位论文的独家出版电子期刊,对其他单位或个人电子出版博士学位论文是一种限定或变相限定。   从学术内容检索结果来看,知网较万方、维普等学术提供商,往往在学术资源提供方面具有较大的数量和质量优势。但不可否认,政府有关部门对知网特殊身份的界定,为其获得市场认可和获得独家学术论文资源提供了条件。   同时,学术作品版权交付机制的不规范为知网获得作者和期刊的版权提供了空间。长期以来,在教师和研究人员评职称、评奖以及毕业要求中,发表学术论文成为重要指标,这使作者与学术期刊形成了“僧多粥少”的关系。地位不平等,学术期刊主导着研究者的学术发表,很多出版刊物只在封面或者封底作出声明,要求作者默认在投稿时将作品网络传播权也给期刊;更为诡谲的是,期刊在没有获得作者同意的条件下将文章的版权卖给了知网。在这种情况下,知网买断了绝大部分作者和期刊的核心版权资源,也因此才有了与高校叫板的底气。   再者,当前国内对学术资源的开放获取理念和做法还较为滞后。虽然百度文库、360个人图书馆等带有一定的免费知识分享特点,但就学术资源的免费共享来说,国内的发展还处于初级阶段。就国外的管理来看,开放获取已经成为国际学术界、期刊出版和图书馆界以知识共享为目的的新型学术出版与交流方式,采用作者付费出版、读者免费获取的模式运行。   为打破知网对网络学术资源的垄断局面,方便公众分享学术研究成果,一方面,政府有关部门要确保各类学术数据库供应商站在同一平台上自由竞争,并对其价格机制加以调控。另一方面,要树立开放获取理念,由政府支持建立一定的开放获取平台,用户可以免费阅读与下载,也可建立高校内部或高校之间的学术资源开放获取平台,学术成果大家共享。此外,要对当前的学术论文版权制度加以明晰,给予学术研究人员更多的版权享有权,真正由他们决定对研究成果的传播。   当然,要改变这种学术资源供应的垄断,前提是抑制相关人员对学术发表的盲目崇拜,提高作者与研究人员的地位,确保知识生产与传播者能就学术作品共同议价。 文章首发:《中国教育报》;文/肖纲领 详见: http://learning.sohu.com/20160624/n456053081.shtml
个人分类: 教育视界|3862 次阅读|12 个评论
哪些概念皮之不存,像一个飘荡的幽灵?
liwei999 2016-4-29 09:03
哪些概念物化为语词,哪些概念永远皮之不存,像一个飘荡的幽灵? (《知网》读书笔记) 我 : 语义深似海,常识底为最。知网小世界,董老大智慧。 知识就是一个灰色的箱子,在模型化的过程是黑化还是白化的选择。合成词里面有很多灰色的东西,看上去半透明。完全透明了,就没有进入词典的理由,何况人脑本来就是这么块小豆腐(电脑不同,为图省事可以选择把常见的透明现象也装进去)。完全不透明那就是“真”成语,“翘辫子” 之类。翘辫子的人辫子根本就没翘,甚至根本就没有辫子。词源上,翘辫子有一个黑箱化的过程在,但现时看,就是一个黑箱子,因此进入了强盗绑架的词典( memory )。如何绑架是横竖有理,内部自洽、好用就好。卖艺绑架给谋生,当属此类。 做一个本体论模型,要做到逻辑自洽而完备,肯定有不少取舍。抓大放小是必须的。 白 : 所有权的变化,对于整个服务类的职业都不存在,无论是擦皮鞋、理发、表演还是银行柜台数钱。但都是卖服务。卖艺只是卖服务的特例,不应该跟是否谋生绑在一起。否则又涉及到专职兼职走穴的问题。卖身也是。买保险,也没有所有权转移。买的是一种或然事件发生情形下获得赔偿 / 补偿的权利。 我 : 义素定义语词的词典,在前计算时代有人做过,【朗曼词典】附录给了一个千级别的基础词汇表。然后整本词典的所有词条全部用这个核心词汇表中的词来定义,也见过里面一些捉襟见肘的定义,但大体思路是一样的。到了 NLP 用,这个工作需要形式化,必须在最小义素集和关系集的基础上,经过有限的叠加,来定义英语和汉语整个词汇表中词条的每一个义项。这个挑战性可想而知。应该是经过反复斟酌确定总体路线,然后做各种组合试验,权衡不同方案的利弊,最后确定的义素集合和关系集合,及其叠加组合限制。这样出来的概念体系,可以给每一个语词义项一个独一无二的定义,这是达到自洽的最基本条件。这个独一无二就是各种义素的关系组合的在某一点有异,由此区别了不同的哪怕是很接近的义项。感觉好奇的是,这个关系组合的定义空间,想来是一个相对稀疏的大屋子,每个义项星星点点占据其中一个房间。而那些理论上存在的空屋子里面都是什么概念呢?一种是语言甲实现为语词,因此住进去了的房间,而对于语言乙,那就是空房间( gap )。另一种是逻辑上不存在的概念,这个对于一个设计精良的概念体系,应该尽量避免,偶然大概也免不了有一些。 白 : 有些定义不算是定义,比如若将“梭哈”定义成“一种多人………游戏”,只是归类,并没有与其他同类游戏相区别。汉语“小人”算一个空房间? 我 : 第三种最令人好奇。这就是普世人类都决定不进驻那间房子。就是说一个合理的概念,就是不实现为语词,全世界人民都自觉地绕过它去。要是研究这个空房间的组成及其背后不进入语言的动因,写一篇语言学和逻辑学的博士论文,应该是一个很有意思的研究,或许对我们理解人类的认知机制有启示。这里面又分两种:一种是迄今不进驻,但将来进驻的可能还在。另一种是难以想象人类会对那个房间或概念感兴趣,就是概念网络 gaps 中 taboo 一样的所在,这个会很有意思的。 反过来看这个问题就是,这个屋子足够大了,已经把汉语、英语的几乎所有的已知词汇都根据义项各得其所地送进了自己的房间,但是大屋子还不够大。它漏掉一些应该开单间但是现在勉强送进某个不合适的房间,与 chemistry 不相谐的 “被”同义项的伙伴们混居。对于这些进错了房间的语词义项, HowNet 诞生这几十年肯定在不断重新调整。但是无论怎样调整,由于任何模型的离散本性与概念的连续现实之间的矛盾,总不会做到在在妥帖,很多时候的义素选择是趋利避害的考量,包括 MT 语用的考量在起作用。 最后就是,到底有多少是真地由于体系的不足导致的住房不适(房子本该设计得更大一点),而不仅仅是利弊考量下的权衡选择。 【相关】 【新智元笔记:从《知网》抽取逻辑动宾的关系】 董老师最新博客:《 语义和常识 》 HowNet 《 知网 》 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 旧文翻新|3262 次阅读|0 个评论
【新智元笔记:从《知网》抽取逻辑动宾的关系】
热度 1 liwei999 2016-4-28 05:53
以前说过,自然语言分析( parsing )和理解的总原则是句法为主,语义为辅( 【立委科普:自然语言理解当然是文法为主,常识为辅】 ),这是从我导师辈传下来的基本原则,永远不能动摇。在这个原则指导下,我们的 parser 开发以来,除了在必要的时候利用一些静态的语义标注( lexical semantic tags ,如 HUMAN, FOOD )外,一直尽量绕开语言学以外的任何动态知识(如 本体关系的网络)去做纯语言学的分析,力图把句法做到极限,然后才考虑跨越语言学。 这一路走下来,就现代汉语 parsing 而言,句法已经快到尽头了, parser 久经考验,鲁棒( robust )而覆盖面宽( good recall ),精准( precision )也颇可观,接近 90% 。文法结构的总体分析质量大体达到 native speakers 的平均水平,略逊于语言学家。这个质量在大规模( scale up to )运用于社会媒体大数据的舆情抽取和挖掘方面,已经满足企业产品对质量的要求。其挖掘质量经过独立第三方评测,领先于业界。 下一步怎么走?可以有两个方向。 第一是着力于结构歧义( structuralambiguity )的辨识( identification ),保留多重结果( non-deterministic output ),或者休眠歧义( keep ambiguity untouched : 《泥沙龙笔记:parsing 的休眠反悔机制》 ; 【立委科普:结构歧义的休眠唤醒演义】 ),留待抽取( extraction )应用或其他语义落地( grounding )模块酌情解决。这一个方向一直在有条不紊地进行中,根据需要逐步补全。这个路子是实用主义的,没有什么悬念,主要就是如何表达合适(譬如,简单的结构歧义可以用违反一个孩子只有一个老子的原则来实行),属于系统内部的约定和协调问题。原则上,句法的本性就是可以识别结构歧义,但不能完全靠一己之力来排除歧义。留待语用阶段在做抽取或其他语义落地工作的时候做,排歧往往容易或简化很多,因为语言现象被聚焦了,往往词驱动的规则就可以搞定,而且领域知识也可以派上用场。甚至原有的歧义在领域里会消弭于无形。 第二个方向就是引入语言外知识,首先是本体知识( ontology ),譬如董老师的 《 知网 》( HowNet )。这个方向更具挑战性和探索性,但也因此更加引人入胜,因为我们终于到了突破语言学的边缘,开始走向语言外知识(包括常识)的境界,这是令人激动的一刻。 与传统 AI 以常识或领域知识作为基础的系统不同,我们的知识引进是在句法框架下进行的,完全由句法决定何时调用这些知识。这有两大好处,一个是句法能搞定的多数现象中,不用劳驾语言外知识,因此减轻了系统的知识负担。二是知识的引进可以 peace-meal 进行,增量式弥补句法的不足,无需一次性纳入整个的 ontology ,这对系统的稳定和健康,以及测量知识对于 parsing 的投入产出效益有很大的好处。 Hopefully , ontology 一上, parser 就如虎添翼了。 所谓本体知识,指的是知识本身的内部关系,而不是外部的信息情报。最常见的本体知识之一就是概念的定义,包括概念的上下位关系以及其他的修饰关系,譬如“人 ” 是一种【会说话的、会思想的、直立行走的、制造工具的 … 】“动物”。 我们引入本体知识的第一个突破口选择为逻辑动宾( VO )的关系,里面隐含了尽人皆知的常识,譬如“吃”的对象是“食品”或“可吃之物”。首先是尝试从 HowNet 抽取我们需要的 VO 知识, HowNet 把 O 叫做 PATIENT (受事),抽取笔记如下。 eat PATIENT vegetable,physical,part,medicine,edible,artifact,beast,food,fish vegetable,medicine, edible, beast, food, fish 都没有问题,经过 HowNet taxonomy ,估计最后应该只剩下 edible 这个上位概念才对。 上面的抽取,是自底而上从 HowNet 的动词概念的定义进行的, 都是在 taxonomy 不同节点上的 patient 的优选语义,大多是 reasonable 。 但是, artifact 和 physical 要是直接就用,可能问题就大了,因为这两个语义节点都是概括性很强的 entity ,远远大于可吃之物,即便优选语义做放松,感觉上也放松不了那么远。吃桌子( artifact ),吃大海( physical )这类,除非是句法强制,只能出现在寓言和梦境里。吃 part 就更不好说了,因为 part 不在 taxonomy 的主线上,什么事儿都会发生。所以,我怀疑是我助手从 HowNet 里面抽取错了。这类的本体知识库,白老师认为,将来要依靠大数据,从数据中学。 我的感觉是,大数据可以对知识库做微调和领域延伸,自动适应不同的数据源 。 但最好还是有一个人工的起点比较心安。 白:吃桌子,可能是以桌子为生的意思。吃大海,跟靠山吃山靠海吃海似乎有关。当年马希文老师也举过 “ 吃棺材铺 ” 的例子。 我 : lexical knowledge acquisition from big data 这一块听上去蛮有道理,路子也还算清晰。 成功运用的案例( demo 不算,而是 scale up 而且铺开来实用的那种)迄今还没怎么见到,估计尚需时日。 白 : artifact ,是人造物,可以卖了谋生。 physical ,很多自然资源,也可以谋生。吃延展到谋生,就是这个样子了。我说的不是学本体知识库,是学分析用的中间件,用来替换或者说避开本体知识库。而且人工起点做成大数据的样子也无妨。 我 : 哦。本体知识库是可以学的,不过本体比较静态,时代变迁不大,与其去学,不如人工的精雕细琢,反正是十年磨一剑,有董老师这样的圣人在。分析用的中间件,本来是指句法关系上一层的逻辑语义 role labeling , 譬如 “ Topic 耍流氓”以后如何从良。回头说 VO 关系的种种延伸:语词中(包括成语)可能确实有各种延伸:吃豆腐,吃食堂,(靠山)吃山,喝西北风 …… 但是,这些东西是不该进入本体知识的,否则就乱套了。这些延伸最好还是每个语言内部利用 collocation 的机制去对付, e.g. “西北风喝了两年了,我终于找到了第一份像样的差事。”“喝西北风”在汉语,强盗绑架,盗亦有道,名正言顺。但是,喝东南风,喝台风,喝无产阶级东风,就越偏越远了。 目标很明确,我们要抽取普世 ontology 中的关于 VO ( patient )关系的 “ 概念对儿 ” ,然后一旦在一个语言的应用中调试成功,理论上,我可以运用到任何其他的语言。 董 : @wei 你的助手大体上可以,看来可能是太宽泛了。如果我们来做的话应是这样的:用 {eat| 吃 } 作为关键字,键入 HowNet Bwowser 的 “Keyword” ,选择的检索方式为 “first” ,然后检出 {eat| 吃 :patient=...} ,这就是 “ 吃 ” ( eat )的 patients 的语义约束。 HowNet 中 “ 吃 ” 有 7 个义项, “eat” 有 4 个义项。但只有 {eat| 吃 } 才是我们现在讨论的。另外, “patient” 为 {part| 部件 } 的不应泛化,而应该是有进一步限定的 “part” 。还应包括: {material| 材料 :MaterialOf={edible| 食物 }} (如:粮食、粗粮、豆油), {material| 材料 :{adjust| 调整 :PatientAttribute={Taste| 味道 },material={~}}} ,(如:酱油) , 以及 {material| 材料 :MaterialOf={food| 食品 }} ,(如:醋)等。 我 : 感动上帝,董老师本尊终于出来了。用 eat 作为关键字,是因为我们有这个 V 的起点。 如果我的目标就是抽取所有的 VO ,我怎么枚举 V 呢?似乎 HowNet 的设计是自底而上的,不支持这种没有 driving concept 的检索。 再看一例: remove PATIENT institution,house,human,tool,livestock,ice,mark,tree,agreement,sound,excrement,dizzy,waste,inflamed,control,experience,gas,physical,material,mishap,phenomena,lights,fire,information,water,weapon,sad,fact,upset,bacteria,wind,weather,thinking,punish,disease,stone,army,addictive,system,building,emotion,text,chemical 看样子 这个 VO ontology 关系的抽取还要做点功夫,才不至于抽取过泛,不过还是比拍脑袋强多了,而且也可以保证覆盖面,应该是 HowNet encode 进去的 patient 覆盖了概念区间,遗漏的应该是个别的情形,因为 HowNet 是自底而上多年精心编制而成。 可能是 remove 这个 action 太宽了,因此对于受事的要求就很宽泛,抽出来的就多。结果这么宽,这条 ontology 的制约就没什么用。换句话说,如果世界上的几乎所有东西都可以 remove , 也就意味着动作对对象实际上没有制约了 。 在制约与制约争夺战的时候,怎么确定制约的强弱呢,确定了之后怎么给不同的权重或区分呢?这些都是 “ 研究 ” 课题。 先摸石头过河吧。 回董老师,语义限制会不会陷入优选语义的陷阱?不会的。如今引进 ontology 到 parsing ,我是有意识地从严不从宽。因为宽的问题现存句法已经在下面接住了。所以引入 HowNet ontology 的知识,就是为了在现有的句法上面,做得更精准一点。换句话说,即便优选的语义太“优选” 了,推向极致,就是标准是如此之高, ontology 一个也抓不着,那么我在句法框架下引入的 ontology ,最多是没有效果,但绝不会有副作用。 因为系统是 hierarchy 的。做了一些无用功而已。因此 ontology 的引入,是抓住一个算一个,凡是抓住的,都是对系统的提升。现在初步探索,还不敢结论值得不值得,但思路应该是没有问题的。最坏的情况就是白老师说的大炮打蚊子,没打着。其实初步结论是,已经打着了,只是打到的不多,可能有个值得不值得的问题。这里说的是普世本体知识, eat-food 之类,接近常识的那种。 至于语言内的 VO 搭配,吃 - 饭,洗 - 澡,睡 - 觉,发 - 怒,之类,那个好处是毋庸置疑的。 那不是大炮,那是弹弓打笨鸟,一打一准。 白 : 又回到那个熟悉的原点,标配。 我 : 董老师, VO ontology 抽取出现一些难以解释的情况,我不知道是 HowNet 的体系我们没有理解对,还是助手抽取的缺漏。 为了防止抓取 eat-part ( from 吃奶),我们已经排除了带有限制的 patient ,只采纳直接的 patient 的关系。譬如 buy 和 sell 只抓取出: sell PATIENT drinks buy PATIENT edible 商品社会,似乎无物不可买卖,绝不该只限于食品或饮料。难道自底而上的概念定义中,就没有其他的 VO 用到吃和喝供我们抽取出 VO ontology 的 network 中这个概念对儿? 可是其他的 VO 抽取就显得很丰富,譬如: use PATIENT time,furniture,house,expression,tool,internet,livestock,mark,sound,fund,community,implement,material,letter,language,computer,water,weapon,plans,wind,army,method 一眼看去,就觉得靠谱,也相对全面。可“用”之物,虽然比可“买卖”之物可能外延的确要大一些,但不该有如此大的悬殊。另外,为什么从 “买” 抽取的是食品(包括饮料),而从“卖”却只抽取出饮料? 这两个是镜像概念,在本体网络里面应该是对称的,这种差异有些费解,肯定是我们哪里弄错了。 从一个个语词概念的定义中找寻 VO 来抽取的自底而上的路子,的确有可能逻辑不完整或有 accidental gaps ,但是汉语英语的语词已经如此丰富,这样抽取归纳也不应该离谱或缺漏太多。本来想自底而上抽取接地气,从数据中来到数据中去比较务实,最多是有很多冗余,我们抽取完做一下 fusion 就可以了。但现在看似乎哪里没有抽到位。当然多数的抽取还是很 make sense 的, intuitively ,再譬如: kill PATIENT animal,human,beast,livestock,bacteria protect PATIENT bird,physical,animate,artifact,location,human,knowledge,livestock,publications,affairs,place,eye,tree,route,law,family,royal,rights,leg,method,plant 保护鸟类动物(生态),保护知识(产权),等,都是当代很重要的基本概念,慢慢融化到语词去,然后在本体定义中呈现,倒也符合本体知识的时间积淀本性。由此想到了基于语词概念的 ontology 与基于大数据的 ontology 的一个重要的区别,买、卖其所以没有抽取出足够多的 patients ,可能是因为 HowNet 所涵盖的语词概念不大涉及这层关系。换句话说,语词化的概念(包括复合语词概念和成语)中,需要这种关系的量很少。也就是说,买、卖与其 patient 的关系更多地不是以词典记忆的 morphology 方式存于我们的脑袋,然后被 HowNet 模型出来的,而是由 open expressions 的句法自由结合的关系出现在语言大数据中。我们尝试寻找词典化的 买卖与 patient 的关系,还真不大能找着,这就难怪 从概念词典抽取 ontology 显得不全了。要是从句法 parsing 以后的大数据去抽取,那就会丰富得多。刚才想到一个词 “卖艺”,想看看“卖”和“艺”是不是连上了 我们所要的 VO 关系。结果 HowNet 不是这样的 literally 地定义这个语词,而是定义成更核心的概念: DEF MakeLiving: means=perform 这里没有“卖”的义素出场的必要:我同意这个语词所对应的概念的确是“谋生”,而不是字面上的“卖”,手段 是 表演(“艺”),而不仅仅是字面上的出卖它。 又想到了一个词 “售票”,心里想,这 “售” 与 “票”的 patient 关系总跑不掉了吧,这下至少不仅仅是饮料食品了。结果也没有直接的 VO 关联,而是在定义中强调的是 “所有” 物的转移?至于卖身卖淫卖笑卖国,我以后再查,总之是 patient 不在定义中。有意思,有意思。看来,义元定义概念也有直译义译的不同角度。这里面学问大了。 售票: DEF={sell| 卖 :domain={commerce| 商业 },possession={coupon| 票证 }} VO 型合成动词“售票”的确是“ sell ”这个主概念范畴的,但是定义中给这个主概念加关系限制的时候,没有 patient 的出场,而是用的 possession 加上领域概念 domain, 原来,买卖的上位概念都是拥有( possession )在商业 domain 里。买卖的关系就是拥有关系的转移,转移的概念在 buy 和 sell 的定义中,而不在其复合语词的概念中,这样才好理解。 现在总算清楚一些了。就是说,从大数据去习得( acquire ) ontology 与从原子概念网络去抽取 ontology ,尽管很可能有很大的重合面,但也还有不少相互补充的地方。人如果把一种关系语词化、概念化、记忆到黑盒子去( memory ),往往是因为它已经有某种引申,某种不透明。如果是全透明,人就不需要记忆,只需要规则去合成逻辑语义就好了。 “卖艺”之所以不仅仅是 出卖手艺,就在于此。这样一来,语词化或概念原子化的网络里面必然会有一些本体关系的缺漏。这些缺漏对于原子概念( atomic concept ,即义素)是无用的知识。因为原子概念体系内部是完整的,而这些缺漏都是可以按照一定的规则从原子概念通过某种句法叠加而来,所谓 semantic compositionality ,这是一切 deep parsing 的最终目标和表达。 董 : @wei 关于语义和常识,我发了一篇博文,供参考。 我 : 谢谢。董老师最新博客:《 语义和常识 》 QUOTE : 语义、语法、语用都应该是语言内知识。常识( ontology )则是语言外知识。但因为它是语义的基础,与语义密切相关,所以有时候似乎你中有我,我中有你,切不断理还乱。 常识是元知识 or 本体知识,属于语言外知识,应无疑问。语用在语言学的边缘上,是语义与领域接口,涉及领域知识,有点灰色地带的意思。句法(包括词法和词典)是最纯粹的语言学,语义则是句法的目标和结果。句法和语义是一个铜板的两面,一面是基于形式的组合规律;另一面对对这种组合的解释。 白 : 卖艺是卖服务,艺是服务的支撑。 我 : 卖艺是表象,谋生是实质, HowNet 这样解释似乎更深刻 当我们用“卖艺”这个词的时候,它与我们用自由组合 “ 卖苹果 ” 还是有不同的意味。前者是职业性的谋生行为,后者可能是临时性、一次性的行为。前者进入本体( ontology ),后者留在语言。前者是本体的知识积淀(积淀的结果就是所谓常识),作为人类理解的基础支持和标配( default );而后者可以是 IE ( InformationExtraction )的抽取目标,有情报价值。 对 HowNet 有点着迷了,此前从来没有认真走进去看。 白 : 谋生和赚外快是什么关系?正当职业之外的走穴算不算谋生,算不算卖艺? 我 : 走穴不是在走穴是肯定的,这就是语词黑箱化概念过程中出现的记忆对象。是不是归在 “谋生”的概念伞下, 还是义素里面增加一个类似 “打牙祭” 的姐妹概念,那是一个概念网络的自组织的问题,每一个 ontology 的创造者肯定有不同的义素粗细程度,来模型我们大脑里面积淀的常识。如果走穴归在了 “谋生” 里面,那么 “谋生” 概念的职业性就减弱了。 白 : 卖服务和卖商品的最大不同就是“拥有”关系。卖服务的前后“拥有”关系没有改变,但是被服务者获得了一种体验或方便。擦皮鞋也是卖服务,也是谋生,但不算是啥“卖艺”。 我 : Anyway ,现在看来,大数据学不出来一个 HowNet ; HowNet ,也涵盖不了大数据的本体延伸。 大数据里面有两类知识。从大数据抽取本体的一类,学名叫 acquisition ,知识习得。从大数据抽取情报的一类,学名叫 extraction ,信息抽取。学界这个界限一直分得很分明的。 白 : 学生课余兼职表演算不算卖艺?总感觉脱离“卖”谈卖艺是危险的。 我 : 白老师的这些问题,当年董老师一定思索过很多很深。然后做出了自己的选择,最后定下了模型。 语义深似海,常识底为最。知网小世界,董老大智慧。 这就是一个灰色的箱子。在模型化的过程是黑化还是白化的选择。合成词里面有很多灰色的东西,看上去半透明。完全透明了,就没有进入词典的理由,何况人脑本来就是这么块小豆腐(电脑不同,为图省事可以选择把常见的透明现象也装进去)。完全不透明那就是“真”成语,“翘辫子” 之类。翘辫子的人辫子根本就没翘,甚至根本就没有辫子。词源上,翘辫子有一个黑箱化的过程在,但现时看,就是一个黑箱子,因此进入了强盗绑架的词典( memory )。如何绑架是横竖有理,内部自洽、好用就好。卖艺绑架给谋生,当属此类。 做一个本体论模型,要做到逻辑自洽而完备,肯定有不少取舍。抓大放小是必须的。 白 : 所有权的变化,对于整个服务类的职业都不存在,无论是擦皮鞋、理发、表演还是银行柜台数钱。但都是卖服务。卖艺只是卖服务的特例,不应该跟是否谋生绑在一起。否则又涉及到专职兼职走穴的问题。卖身也是。买保险,也没有所有权转移。买的是一种或然事件发生情形下获得赔偿 / 补偿的权利。 董: @wei 我看了你的笔记。我应该再强调一下。千万别搞优选语义。我们的认识是:什么是常识,或称Ontology?就是这样来测试:问自己如果是“吃”,最一般的或者第一个想到的是“吃”什么?在实际上“吃”可以“吃任何东西”。常识已经包含了某种统计,某种对人类的共同的统计。例如:“那孩子有毛病,就愿意吃墙土”。句法分析时,主要要靠结构。只有出现两种可能时,要做出抉择时,就用常识。 我: 是啊 我不用优选度的概念。本体常识的尝试只局限于结构二义的时候帮助决定。即便如此 现在看来多数情形还是休眠二义性更值当。应本土算是一个研究性探索。 【相关】 【立委科普:自然语言理解当然是文法为主,常识为辅】 董老师最新博客:《 语义和常识 》 HowNet 《 知网 》 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:歧义parsing的休眠唤醒机制初探】 【泥沙龙笔记:NLP hard 的歧义突破】 【立委科普:结构歧义的休眠唤醒演义】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|4394 次阅读|2 个评论
‘知网’乱涨价,想钱想疯了吧
热度 59 lin602 2016-4-16 07:27
北京大学都嫌知网太贵,准备停用,这说明了什么? 想钱想疯了! 象知网这样的工程,应该是国家层面进行投资、管理、监督的基础工程,不但高校师生使用,全社会都在用,严格来说,比一些高速公路更重要。 现在谷歌要搞世界覆盖的wifi,为的是让所有人免费上网。其中对中国这样的国家,国内各期刊杂志免费给国内大学师生使用才是‘功德’,对中国的科技创新绝对是百利无一害的。 我们每年发的文章与研究生学位论文,都是免费给知网使用的,而我们得到了什么呢? 假如有成本,国家不投资,适当收取成本费也是可以的,但一定要在社会与政府管理与监督之下进行成本核算,收取‘成本费’。 而国家政府管理部门,对于这样的基础工程,应该加强监督与管理。 国外期刊已经够宰的了,如果国内知网都用不起,这个国家科技也就真没有希望了。 我到是觉得,如果文章都是免费提供的,只是需要收集费,管理费,服务器与软件费及人员工资,这些钱也不会太多,对于中国这样的大国,这点钱算什么,就让国内高校师生免费使用又怎么了,只是监控不要恶意下载,出卖资料赚钱就可以了。对于国外,可以通过ip设置限制。 其实真正苦的是各个杂志社,许多杂志社都是高校与企业承担的部分费用。 如果这样收费,也应该在全国搞二到三个知网这样数据库,让他们互相竞争,打破垄断。 知网这样的数据库,其实就相当于中国科技的‘饭’一样的,当然,国外数据库也是。而对于中国中小企业,中国的知网可能更重要。 想钱想疯了! 前几天听说一个全国性的小协会,也赚钱不少,行业服务性的事业单位,这样赚钱合适吗?而其他人再办协会,‘政府不批’,这协会是唯一,但如果协会赚钱不靠谱,难道就没有制约? 企业赚钱是应该的,如果政府部门、军队、行业管理部门、基础设施都‘一切向钱看’,那这个社会将会是什么样?
16523 次阅读|74 个评论
以创新破除知网的垄断
热度 13 wolfpnc 2016-4-16 00:34
最近凤凰网有一篇文章《北大为何买不起知网?》说是知网连年涨价,已经让北大图书馆无法承受。3月的最后一天,北京大学官网上贴出了中国知网即将停用的通知,给出的原因是,知网涨价过高,北大图书馆正在全力进行续订谈判。中国知网从1999年建立至今,一直位列国内各大高校图书馆的数据库选择名单中。知网是一个数据库收录了全国几乎所有的期刊报章,从1999年建立至今,一直位列国内各大高校图书馆的数据库选择名单中。许多教师和学生都把知网当作一个很好用的教学和研究的资源来使用,特别毕业时写论文是很有用处的,笔者当年写论文时也借助了知网。然而知网这些年利用其垄断的优势大幅涨价让很多学校吃不消,让国内不少高校都曾因涨价问题,只好停用知网。 有没有办法打破知网利用垄断地位牟取暴利呢?答案是肯定的!以技术和模式的创新就能采破知网对期刊数据库的垄断。 当前各高校的图书馆已经有了强大IT平台,包括海量存储技术、云计算、高速宽带网络等,这就是打破知网数据垄断的技术基础。只要找到一个兼顾各方面利益营运模式,通过整合各高校图书馆、公共图书馆的IT资源就能形成一个新的云数据平台。大体的思路是: 1. 由北大、清华的图书馆牵头创建一个全国范围内的图书馆联盟。各高校的图书馆、各地的公共图书馆都加入其中成为联盟的成员。 2. 图书馆联盟以北大、清华的图书馆核心,创建一个知识数据库云平台(可称之为图书馆联盟数据云平台),图书馆联盟只需要维护这个数据库云平台就行,运行维护费用可由国家拨款。 3. 各地图书馆的数据都可以作为图书馆联盟数据库云平台这个的节点。图书馆联盟成员有义务向云平台开放自己的数据。 4. 各报章期刊必须就近向图书馆联盟数据库云平台节点提供数据,所需要的费用建议由国家当作科研经费支付。 5. 数据库云平台建设要克服知网的闭性,采用开放的模式,这样有利于扩大数据的来源和提高数据的有效性。比如,对期刊文章设置评论和纠错功能。 以上只是一个大体的思路,希望能抛砖引玉,寻找出一个好的模式,建立一个以低成本、高质量的知识数据库云平台,服务于广大教师、学生和科研工作者及社会各界人士,成为我国万众创新的一个强大的知识助力。
5507 次阅读|12 个评论
【立委科普:本体知识系统的一些历史掌故和背景】
liwei999 2016-1-4 02:11
知识习得(knowledge acquisition)与知识图谱(抽取)的概念很多人混淆了(术语的命名有很大的偶然性),在隔壁群里科普了一番,也转到这里: 【泥沙龙笔记:再谈知识图谱和知识习得】 。 关于 acquisition,还可以发挥几句。 说这个工作应该是圣人的,而不是我们普罗业内人士都该做的,有几层意思,这里从发展历史和业内掌故的角度谈谈。首先,如果面对的是跨领域的 ontology 体系,这里面的学问门槛很高。一般人如我这样的工匠,根本就进不去。而且即便自以为有了一个逻辑自洽的比较合理的体系架构,里面的工作也繁难无比。 董振东老师开始有他的 HowNet 构想是 30 年前。我还清楚地记得,当时我们同在高立公司帮助做机器翻译,他是前辈(认真溯源的话,董老师开始是跟我的导师刘倬先生一起做MT,后来董老师自成一家,做出很多成就)。吃午饭闲聊的时候,董老师就开始跟我提到这个《知网》的构想。此前董老师有着多年丰富的机器翻译的实践经验,他先在军事科学院做了个 开放应用型 MT prototype(记得叫 “科研一号”),后在中软进一步开发,做出来国内第一个大型的商品化MT系统“译星”。当时他说,在MT过程中感觉现在的形式化的知识资源不给力,特别是用到机器翻译的时候,所以下决心自己要做一个。 再说一下这个项目的国际学术背景。董老师做机器翻译用的是著名语义学家费尔默的深层格(deep case)语法框架,董老师做了适当改造,起名叫逻辑语义,他用这个框架作为机器翻译和转换的内部结构(中间语言),发表了几篇有相当影响的论文,证明这个表达足够深入,对于不同语系的语言之间翻译也很合适( 董振东 - 逻辑语义及其在机译中的应用 )。我当时也对深层格理论着迷,很信服董老师的工作(这个影响一直延续至今,这就是我一直强调深层 parsing 是 NLP 核武器的主要渊源)。可以说,逻辑语义(或深层逻辑句法的结构)表达,基本上满足了语言分析和机器翻译的语义结构性需要(当然后来费尔默本人还是没有停留在深层格,他进一步从语义向普遍语用进军,发展了 FrameNet 的体系,这是深层格深入发展的极其自然的趋向,也成为目前NLP语义研究的规范了,虽然实践中 FrameNet 其实不如深层格好掌握和使用,我的评语是它有学术价值,没有多少实用的意义:见 《语义三巨人》 )。但是语义解构(semantic decoding,就是我们说的 deep parsing)有了合适的树结构表达之后,只是解决了结构层面的语义关系,而语义本体的知识体系(ontology)没有跟上来。语义表达结构中的本体是什么,就是逻辑语义结构树的叶子上附着的语词概念所对应的内在知识链条,其中最主要的就是 ISA 的 taxonomy。这就是董老师感觉语义方面的资源还不得力的原因。 当年,WordNet 已经存在了,不过那套体系是心理学家主导的,有很多不对劲的地方。这种词典概念的体系是一个很苦的活儿,没人愿意做,也很少人有能力做,而且有能力了也愿意了,能坚持做下去,完成这个体系也不是常人可为。因此,虽然 WordNet 根本就不是为 NLP 或 MT 而设计的,然而,用无可用,大家做系统做到一定深度需要调用语义资源的时候,还是去用它,或者改造它来用(单单改造的工作就殊为不易)。到了董老师这样的学养和深度,他不愿意将就,他有自己的体系和自信。他要推到重来,按照自己的设计,做一个更适合机器翻译和NLP的ontology出来。这一做就是 30 年,迄今 HowNet 还在董老师父子手中不断完善中。这个世界因此而多了一个 ontology 体系,多了一个选项,这是我们大家的幸运。说这么多掌故,是要说,这本体知识体系不是一般人可以做的,但一般人可以从中受益。 既然学问的门槛高,为啥 ontology acquisition 成了 NLP 一个子领域呢,而且一度相当活跃?这要归功于机器学习的发展了。 这些基于词典或概念的知识体系的活儿,千头万绪,人做起来很繁很难,但从领域发展来说,正好是机器学习可以施展的地儿。关键词为基础的聚类(keyword clustering)是非监督的学习,基本上没有知识瓶颈,所以海阔凭鱼跃,正好可以拿这个来练手。根据某种语义距离(semantic distance)的定义来指导,机器学习确实可以做出来一个看上去很像 ontology 的词典知识库出来,这个进展令人振奋。本群林老师是这方面的顶级专家,他在这个子领域做了一系列开创性的工作,影响很大。不仅是关键词 clustering,林老师还做句法结构基础上的 clustering 的研究,结果更漂亮。 那么,一个问题就是,到底我们应该用人工几十年精雕细琢出来的本体知识资源,譬如 WordNet,HowNet(微软以前还有一个 MindNet),还是沿着林老师等研究的路子去机器学习出一个本体知识呢?这里面有一个主要的考量,就是 domain。 与本质是动态的知识图谱不同,本体知识及其概念体系具有语义的某种永恒性质,而且本质上是独立于语言的概念系统(当然有一个接口,从具体语言语词到概念的mapping是起点),这样看来,采纳大师的精雕细琢应该比较放心。又因为那是一个很少需要变动的知识源,只有专家的慢工细活才让人信得过。不管多么繁难,做成了,核心部分就稳定不变了,人工还是值得的。事实上,机器学习出来的系统,为了验证体系设计和算法的正确性,最终也还是要 mapping 到人工的知识体系去,来做 benchmarks,看靠谱不靠谱。因此,有了 WordNet,尤其是有了 HowNet,这些几十年积累的专家手工系统,从道理上,基本没有机器学习出场的理由,因为总体而言,机器永远做不到人工那样精细。 但是有一条是人工基本无能为力的,那就是对于领域和数据源的自适应。WordNet 和 HowNet 做了几十年,是独立于领域的。如果要进入几百上千个领域,光靠人工,是很难完成本体知识的领域化的(主要领域为了自用,也零星做了自己的 ontologies,各个体系设计思想不一,用场也不同)。很多领域概念词条,根本就没有进入通用本体知识的视野。这时候,lexical ontology acquisition 作为机器学习的一个应用,就站住脚了。不仅可以进入领域,自动生成领域词典及其概念体系,而且理论上讲,还可以自动适应特定的数据源或语料库:既可以增加概念的专业语汇(vocabulary),也可以自动地帮助消歧,把本领域或本数据源不用或罕见的义项排除出去。 这一讲就到此吧,最后总结两句。作为学问,ontology 及其 acquisition 很有意思。但是,实际上的使用,到目前为止还很有限。将来随着领域化不断深入,也许需要用到的越来越多,但迄今多数NLP或IE系统对本体知识的利用大多是在凑合。多数NLP践行者,应用开发者,也的确不大需要蹚这趟浑水,因为任何事情一涉及语义体系,很容易成为一锅粥,很容易陷入泥淖出不来。不管是凑合,还是拿来就用,都比自己陷入泥淖强。本体的 acquisition 依旧是小众的研究方向,与知识图谱的信息抽取和挖掘完全不可同日而语。后者是立竿见影的,是随时需要的,是几乎可以任意定义的,是知识产品的直接需求,有无限的应用可能性。也因此当前火爆的是知识图谱,而不是知识习得。知识图谱是应用性目标,而知识习得的本体词典只是帮助NLP和图谱的一种语义资源。 【新智元微群沙龙首发】 朱: 董老师在HowNet中采用基于义原描述方式, 引入了常识性知识,这对于词义消岐和译文选取非常有用, 也是一大特色。通过识别与上下文存在语义巧合, 是传统方法基本指导思想。之前董老师跟我说过两点, 他说之前自己也不知道HowNet是本体, 别人都这么说才知道的。 另外董老师一直想利用HowNet来计算词汇语义相关性, 同时获取某词的其它相关词汇,这工作对MT和文本分析很重要。 告诉我说很想做好它, 但看来只基于HowNet中义原计算还是有问题,太粗了。 我们讨论过统计方法,但没有想象中的简单,不展开细聊了, 看到上述内容有意思,插一句提提 【相关】 【泥沙龙笔记:再谈知识图谱和知识习得】 《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》 《语义三巨人》 董振东: 逻辑语义及其在机译中的应用 《泥沙龙李白对话录:关于纯语义系统》 Notes on Building and Using Lexical Semantic Knowledge Bases 《泥沙龙铿锵三人行:句法语义纠缠论》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4629 次阅读|0 个评论
习作被引用前十
jlpemail 2015-2-26 07:20
题名 作者 来源 发表时间 数据库 被引 下载 预览 分享 1 基于北斗导航卫星的伪卫星技术在区域定位中的应用 籍利平 测绘科学 2002-12-25 期刊 49 775 分享 分享到 2 GPS跟踪站数据传输技术研究进展与改进设想 籍利平 全球定位系统 2006-12-01 期刊 5 94 分享 分享到 3 GPS跟踪站数据传输软件客户端程序的设计 籍利平 ; 曹耀钦 ; 崔敬佩 计算机工程与设计 2007-03-16 期刊 3 118 分享 分享到 4 20′×20′网格加密重力测量的点位布设 籍利平 海洋测绘 2002-09-30 期刊 2 47 分享 分享到 5 用EXCEL2000计算固体潮改正理论值 籍利平 铁路航测 2002-03-30 期刊 2 103 分享 分享到 6 原子干涉仪——一种新型重力仪 籍利平 ; 李丹 测绘技术装备 2002-11-15 期刊 2 230 分享 分享到 7 EDM高程导线测量成果的常见问题与对策 籍利平 测绘通报 2001-08-25 期刊 2 16 分享 分享到 8 北京SLR站天顶方向激光测距对流层改正的周期变化 籍利平 ; 程伯辉 测绘通报 2012-03-25 期刊 1 51 分享 分享到 9 六台Z400重力仪的格值试验 籍利平 测绘技术装备 2002-02-15 期刊 1 25 分享 分享到 10 航空重力测量及其在局部重力场建设中的应用 籍利平 测绘通报 2001-12-30 期刊 1 73 分享 分享到 ********************* 欢迎下载引用以下习作(按照发表日期,降序排列): 籍利平. “男一组”里的“壮劳力” . 农村青少年科学探究,2014,12:42. 籍利平. 客机的通信系统 . 农村青少年科学探究,2014,Z1:3. 程伯辉,卫志斌,瞿锋,李谦,项清革,籍利平. 北京人卫激光观测站kHz激光测距系统升级实现 . 测绘科学,2013,02:166-167. 籍利平. 给力的新一代重力卫星 . 百科知识,2012,19:10-12. 籍利平,程伯辉. 北京SLR站天顶方向激光测距对流层改正的周期变化 . 测绘通报,2012,03:46-47. 籍利平. 高精度的卫星激光测距 . 百科知识,2011,13:10-12. 李小砺 吴晓向 许庆惠 徐维克 关力 乔健 籍利平 杨建业. 民族的精英 人民的楷模 . 工人日报,2010-04-28004. 程伯辉,瞿锋,卫志斌,李谦,项清革,丁剑,籍利平. 基于地靶的卫星激光观测数据分析 . 测绘科学,2009,05:45-48+10. 籍利平. 地球重力场的奥秘 . 百科知识,2008,24:14-15. 程伯辉,卫志斌,项清革,刘乃玲,籍利平,李谦. 获取高质量激光观测数据方法 . 北京测绘,2007,01:54-56. 籍利平,曹耀钦,崔敬佩. GPS跟踪站数据传输软件客户端程序的设计 . 计算机工程与设计,2007,05:1223-1225. 籍利平. GPS跟踪站数据传输技术研究进展与改进设想 . 全球定位系统,2006,06:25-28. 籍利平. 基于北斗导航卫星的伪卫星技术在区域定位中的应用 . 测绘科学,2002,04:53-56+0. 籍利平,李丹. 原子干涉仪——一种新型重力仪 . 测绘技术装备,2002,04:32-33+36. 籍利平. 20′×20′网格加密重力测量的点位布设 . 海洋测绘,2002,05:46-47. 籍利平. 用EXCEL2000计算固体潮改正理论值 . 铁路航测,2002,01:30-32. 籍利平. 六台Z400重力仪的格值试验 . 测绘技术装备,2002,01:39-41. 籍利平. 航空重力测量及其在局部重力场建设中的应用 . 测绘通报,2001,S1:23-24. 籍利平. EDM高程导线测量成果的常见问题与对策 . 测绘通报,2001,08:48-49. 籍利平,李平. 加入WTO对我国测绘装备建设的影响及对策 . 测绘技术装备,2001,03:30-31+38. 籍利平. 关于局部区域重力测量的若干问题 . 北京测绘,2001,02:27-28+5.
个人分类: 资料库|2188 次阅读|0 个评论
怎样将知网(CNKI)中的参考文献导入Endnote中
热度 1 Bearjazz 2014-11-6 18:19
怎样将知网( CNKI )中的参考文献导入 Endnote 中 # 作者信息 熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 进入知网,找到你要导出的文献 在目标文献的前面点选选择框 选择“导出 / 参考文献” 进入文献管理中心 再次选择目标文献 选择“导出 / 参考文献” 进入“文献管理中心 - 文献输出”页面 选择左边的 endnote 选项 选择“导出” 保存文献文件 打开 endnote ,导入刚才保存的文献文件 在“ endnote option ”中选择, endnote import 导入就成功了
个人分类: 我的研究|14926 次阅读|1 个评论
学术期刊应该进行数字化革命:变“审后发”为“发后评”
热度 89 hj58 2013-1-10 02:49
学术期刊应该进行数字化革命:变“审后发”为“发后评” (原标题:学术期刊应该变“审后发”为“发后评”)   中国有五千种学术期刊,看上去很多,但实际上远远不够,每年只能发表一百万篇学术论文,而实际需要发表的论文多达五百万篇。   发表学术论文,理应先有同行学术权威审稿,然后再发表,即“审后发”,但每年五百万篇学术论文,谁来审?即使有学者愿意审,每年要浪费多少人力和财力?   现在的学术期刊都是印在纸上的,图书馆堆满了过刊合订本,但看得人却很少,长满了霉斑,非常浪费。为了造纸,要砍树,破坏环境;造纸厂还是用电用水大户,其排放的大量污水,更是环境杀手。   报纸和一般杂志需要在移动的环境里(上下班路上)阅读,而手持电子阅览器(如平板电脑)还未普及,因此目前报纸和一般杂志还只能印在纸上。但学术期刊不需要在室外匆匆忙忙地阅读,基本上都是安安静静地坐在书桌前阅读的,而因特网和3G宽带早已普及,因此学术期刊完全可以彻底电子化,借助电脑来阅读。   知网、万方和维普等期刊网把大量学术期刊数字化,已经完全能够满足学术研究的需要,而且检索效率大幅度提高,使用成本大幅度降低。这些网站还在不断开发各种新的功能,大大地丰富了对学术论文的使用方式。   绝大多数学术论文的作者和学术期刊的编辑都是在电脑上写作和编辑的,为什么不要把“天生”就是数字化的论文直接在网上发表?反而自找麻烦先印在纸上?为什么不彻底省掉制版、印刷、装订、打包、运输、邮寄、入库、登记、上架、下架、做合订本、再上架、直至发霉……这些过程?   现在虽然已经把纸质学术期刊数字化了,但如果要拷贝复制数字期刊论文中的文字的话,必须使用文字识别软件把图形文字转变为文本文字,这个过程常常出现很多错误,核对时稍不留神,就会漏网。如果数字化的论文直接上网发布,那么这个问题就没有了。   搞学术研究要创新,但为什么发表学术研究成果的学术期刊本身不创新呢?   学术期刊完全可以进行以下创新:   1,彻底废弃纸质版,全部数字化。   论文作者用电子邮件等方式投稿,编辑部编辑后直接在自有网站上或有合作关系的期刊网上发表。   论文不经过同行评审,随到随发。这可以大大提高科研成果的流通速度。论文不印在纸上,既可节省大量费用,更可以节省图书馆的大量空间,还环保节能减排。   一个容量为 500G 的移动硬盘,售价为 300 元人民币,尺寸约为两盒香烟。   500G 可以装多少东西?500G 等于 50 万兆字节。每兆字节可以存储 50 万个汉字。也就是说,这个小小的塑料盒子里可以装 2500 亿汉字。   假设每篇学术论文一万字,中国每年 500 万篇学术论文一共有 500 亿字。因此,这个小小的盒子可以存储全中国五年里产生的全部学术论文。     由于论文直接上网发布,而网络空间是无限大的,因此,可以发表的论文数量是无限多,任何稿件都不会因为“版面有限”而不能发表。   由于学术期刊版面不再紧俏,于是“版面费”立即自行消亡了,“核心期刊”也不再有存在的必要,与之相关的所有猫腻也自然消亡了。   2,利用电子技术,即时标记出抄袭内容。   论文上网后,后台程序自动识别出其中抄袭或引用不加注的内容,用颜色标记出来。这使任何剽窃者无法隐藏,再大的官也包庇不了他们。   3,单位可以邀请专家对论文进行实名和公开的点评和打分。   如果作者想申请职位或职称,可向单位提交自己的部分论文作为评审材料。单位可以邀请同行专家在网上对这些论文进行实名和公开的点评和打分。   由于实名,评审专家人选是否合适(是否真的“同行”、是否真的“专家”)就自有公论了。由于评语和分数公开,他们的点评和打分是否合适,也同样自有公论。这可以杜绝专家评审过程中的猫腻。   这种全公开的做法在“思勉原创奖”的评审过程中得到实践,受到人们普遍好评。   由于只需要对部分论文进行专家评议,因此大大节省了评审工作量,这即是“发后评”。   实际上,论文在网上发布之后,任何人都可以实名和公开地对论文进行点评和打分,以便读者参考,判断论文的水平和价值。   取消“审后发”之后,会不会导致大量粗制滥造的论文泛滥于学术网站?完全有可能。但因为有自动检查抄袭系统和实名公开点评,劣质论文立即现出原形,读者一目了然。这也使炮制劣质论文彻底失去了意义,能够使中国学术界清净很多。   另一方面,一些特立独行、打破常规、本来会在审稿时被评委枪毙的论文,却能够和读者见面了,新观点、新思想和新理论被埋没的几率显著地减小了。   4,完全按照电脑阅读的需要进行排版。   现在的数字化学术期刊是从纸质版转换(扫描或翻拍)而来,在电脑上阅读时非常不方便。例如仍然采用了双栏排版,自上而下地看完一栏后必须回到最上面,去看下一栏。   学术论文不再出纸质版、直接在网上发布之后,排版不必受纸质版排版方式的束缚,可以完全按照电子阅读的方式进行排版,一栏到底,大大提高了阅读的舒适度。   论文直接上网发布,还彻底改变了过去图片少、图片小、图片一般只能黑白单色、图片印刷精度低等现象,可以按照需要使用大量大尺寸的彩色高精度图片,更可以在论文中插入动画、视频、音频等,更真切地传达学术信息。(笔者在读研究生时拍摄过大量金属断口的扫描电子显微镜(SEM)照片,非常漂亮,但论文发表时只能选用一两张,细节也完全没有了。)   学术期刊完全数字化之后,论文中的文字和图片等可以任意放大,视力不佳者也可以轻松阅读;为了保护读者视力,还可以用电子合成器朗读论文内容,这都可以大大延长老年学者的学术生命。   由于网络版面无限,因此论文篇幅(字数和插图数量等)不再受到限制。充分利用“锚点”技术可以使读者快速地在各部分内容之间穿梭。参考文献可以做成超链接,用鼠标点一下,就能够直接调出来。   要寻找特定的内容,更是非常方便,不再需要在故纸堆里长期翻查。笔者在 Google Book 中只用几分钟就检索出 1818 年在英国出版的一本书里,作者把中国的“龙”音译为 Loong。如果用老办法,即使给笔者足够的科研经费,能够跑遍全世界的图书馆,能够逐本逐页翻查这些珍贵的老图书,也许笔者查到 2818 年也还没有找到这个内容。   中国进入网络时代已经二十年,学术期刊为什么还不能彻底数字化?为什么还抱着纸质版不放?   科学技术的每一次进步,都给人们带来了无限机会,但要抓住这些机会,首先需要观念上的突破。没有观念上的突破,钱再多,设备再先进,也没有用。   中国学术期刊要改革,除了需要观念上进步,还需要粉碎既得利益集团的抵抗。在学术期刊这件事情上,既得利益集团就是现在利用学术期刊版面紧俏而大发横财的大量出版社(负责人)、编辑人员、中介黄牛、审稿人员等等。他们会找出各种理由,维护纸质版学术期刊的垄断地位。   中国改革的成功经验之一是“增量改革”。这同样可以用于改革学术期刊。   我们可以在纸质期刊的外围,大力发展纯数字化学术期刊,起初吸引以传播和交流自己的学术成果为主要目的的学者来发表文章,然后推动单位在主要考核纸质论文的同时,也逐步接受数字论文,以此蚕食纸质期刊的领地。2006 年上海社科联合会在评优秀学术成果时,就已经设有网络文章奖项,是一个很好的开端。在大家都体会到纯数字学术期刊的价值和优势之后,最终彻底消灭纸质学术期刊(除了少量作为收藏品印制的之外)。   政府也积极推动学术期刊数字化,即使仅仅从环保节能减排这个角度考虑,政府也应该做最积极的推动者。   中国的学术要赶超世界水平,就应该大胆创新,而不是跟在别人后面亦步亦趋。学术期刊关系到科研成果的发表、思想的交流和对科研人员的评价和激励,是中国学术进步的决定性因素之一,建设好科学的学术期刊是中国学术进步的基础,没有这个基础,国家花再多的钱,也白搭。 (黄佶,2013年1月10日)
个人分类: 人文社科|11261 次阅读|269 个评论
怪事!一期杂志竟有258篇文章!
热度 4 lxj6309 2011-4-7 18:20
有研究生要发小论文以完成任务,刚好有《中国城市经济》来邮件约稿,觉得其背景还行,于是想在数字期刊网上查查相关信息。一查大吃一惊!从《万方数据》上查,该刊2010年第12期有32篇文章,且基本符合该刊主题,但是一查《知网》,该刊2010年第12期竟有258篇文章,且大多与该刊主题不符。另外,在《万方》上只能查到2010年第12期,在知网上则可以查到2011年第1期,而这期竟有264篇文章。奇哉!怪哉! 有哪位大侠知道底细?
个人分类: 评论|4021 次阅读|4 个评论
谈学术出版的边缘化危机
zhaodl 2010-8-3 21:40
谈学术出版的边缘化危机//赵大良 前几天我发表了一点对中国知网优先出版的一点想法。最近听说有人误解为我反对优先出版!也许是我表达的不清楚,引起了同行的误解,在此我想说我十分重视优先出版这一动态!或者说: 我积极参与这个优先出版计划。这样反应的理由很简单:学术期刊关心的就是学术影响!优先出版或者叫预出版或者叫预印本,或者叫预发表,等等,其本质都是提前让读者阅读到最新的研究成果。现在的网络技术已经为这种出版提供了现实的条件,如果操作规范,尽量避免负面影响,这种出版方式的效果是明显的!从长远的角度来看,如果不参与这个计划,就存在着被边缘化的危险。我是这样思考的,写出来与大家探讨。 (1)从读者的角度来讲,人们越来越依赖于网络获取科研信息,纸质本的利用率越来越低是一个现实,网络平台集聚的读者是学术出版所不可忽视的。所以,现在的学术出版没有人排斥网络,无论是自建还是依托数字服务商,都需要数字化和网络化,因为我们的读者多数在网络上。如果你不上网就没有人知道你。谁能够第一时间将自己展现在网络上,谁就会被读者发现和利用!反过来,优先出版也就是在第一时间为读者提供最新的学术信息!这样,必然会进一步吸引读者的关注!强化读者对某些网络服务商的关注!集聚起更多的、更固定的读者群。因为实行优先出版的网站比不实行优先出版网站的信息更新、更有吸引力!这样的结果会怎么样,就值得斟酌啦。离读者越远,就越可能被边缘化。 (2)从作者的角度来看,特别是从事学术研究的作者,关心的是学术研究成果的影响力,也就是自己的研究在同行中的被关注程度。一方面集聚读者的地方,必然是作者所希望自己的作品传播的地方,那里可以找到更多的关注;另一方面,实现优先出版将作者的成果早一天发布就必然早一天受到关注和利用,有利于扩大作者和作者研究成果影响。有利于作者的平台必然受到作者的欢迎,那么作者必然优先选择这样的平台(参与这样平台的期刊)来发表自己的研究成果。如果优先出版平台集聚起人气,作者的选择就可能会发生变化。离作者越远,自然也就会边缘化。优先出版还有一个更加重要的意义,就是对作者来说可以抢在第一时间宣誓自己的发表权。尽管目前法律上关于优先发表权的界定是以投稿日期为准,但那是法律上的界定。事实上有几个会深究你是几号投稿?往往是以成果的发表时间来界定,也就是以在同行中的影响来界定是一种模糊的感觉除非涉及获奖等需要严格界定的情况以外。发表在知名期刊的成果比发表在一般期刊的成果会优先被人认可,发表在国外比发表在国内会优先被人认可,这就是与传播效果和传播时间相关。一些作者投往国外的稿件有时被有意押后,也就是优先发表权的争夺。 (3)从出版者的角度来讲,特别是学术期刊的出版者只有满足读者和作者的需求,才能发挥自己的作用。在读者和作者聚集的地方也就是学术期刊传播的重点。单纯从优先出版本身来讲,我们可以发现:正常出版中,一般是上半年出版的论文被引频次比下半年的要多一点(在限定的统计年内),因为上半年的论文传播时间要比下半年的长。所以人们很重视第一期也有这方面的原因。而优先于正常出版发布相关的研究成果,无疑是增加了成果的传播时间!就是将排版的3个月节省出来,也就是将期刊成果的传播时间增加了3个月。在这3个月的时间里,被利用的可能性就会增加。更何况:提前三个月发布成果的新鲜度提高也提高了研究成果的价值!在科技发展日新月异的形势下,一项成果一年后再发布就有可能变得没有价值。这也是我们一直追求缩短出版周期的目的所在。如果别人优先出版而你不优先出版,显然是会降低你期刊成果的新鲜度,长久下去也就会被边缘不被作者所重视。 (4)优先出版计划是中国知网推行的,这也是可能是你边缘化的一个很重要的因素。我一直不希望出现垄断,但自从有人挑起独家版权转让以来,这种垄断的趋势已经无法扭转。折腾下来,还有几家具有比较强的网络转播能力?更何况,在优势的基础上又进一步开展符合学术传播要求的优先出版,更加强化了传播的优势。现在还看不到到有谁能够发展起来,包括以政府为背景的开放存取,没有看到希望。还好,目前开展的优先出版并没有歧视或者排斥非独家的期刊!这给我们在传播方面提供了一个平等的机会。 这是我关于被边缘化危险的分析,希望不是杞人忧天,单从我一直坚持的学术影响力的原则角度来说,我也不能排斥优先出版规范的、将负面影响降低到最少的优先出版! 附:优先出版的质疑和困惑 http://www.sciencenet.cn/m/user_content.aspx?id=359589
个人分类: 出版视点|4063 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 11:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部