科学网

 找回密码
  注册
科学网 标签 检索 相关日志

tag 标签: 检索

相关日志

为什么百度需要很好整顿?
yangxintie1 2020-4-13 16:41
百度问题不是一天了,今天才来处理,虽然晚了一步,但是亡羊补牢,为时未晚! 第一,百度要清除虚假广告,你问一下科技的问题,比如如何淬火刀才硬,他会故意把淘宝和京东的卖刀的链接先显示给你,你问一下治脚气的药品,他前面好几页链接的都是江湖上治疗脚气的大师,只好先翻过几页才能避开莆田系的阴影。 另一方面,百度的影音和百度的新闻,故意搞一些查边球的链接,让你无意中得到一些花里胡哨的明星丑闻和黄色花边新闻,而真正的革命历史和牺牲奋斗的科学探索很难上百度,这里面的编辑有意识问题。 第三方面,你要进行知识检索,一开始,他所有链接的一些文章来源都是收费的,不收费的来源故意掩盖和排在找不到的地方,谷歌不是这样,社会主义特色比不过资本主义吗? 希望政府要管一管百度,习近平书记说,网络主权也是很重要的,检索系统也是主权的一种,但是过去网络主权没有被很好意识到,监管是不力的。 最好这种全民用的检索系统由政府来办!
个人分类: 教育|0 个评论
CAS数字的校验
dingsir 2020-3-14 17:14
今天用Python写了一下CAS判断函数,没想到一次就成功了.比原来用VBA写的相比,简化了不少. 文本: 用到了正则表达式,因此上面要import re CAS是化学物质的通行证之一,搞化学的人都知道,相当于人的身份证. 它的结构是三节,用短横线分隔.它没有与化学结构挂勾,而是按次序编号,前两节的数字是真正的编号,最后一位是校验.比如VC的CAS号是872-36-6,实际上87236是编号,6是校验位,用于防止差错. 它的校验方法是这样,先去除校验位与短横线,得到一串数字,如87236.从右往左数,从1开始编号. 将序号与数字相乘得到乘积,再相加得到总和,其个位数就是校验值.如果校验位与计算出来的校验值不同,说明有数字弄错了.就如上图所述. 根据上述规则可以发现,如果倒数第2位数字增加1,则校验位也相应增加1.所以你可能会看到如果CA为某一文献的的很多新物质连续编号,就会看到这种现象. 由于CAS编号是CA文摘社为新物质的顺序编号,它与物质结构没有联系.因此知道一个结构要查知它的CAS,最完整的途径是查CAS登记的记录,比如以前是非常厚的CAS索引手册,现在在SCIfinder或STN数据库中简单的输入一串数字就可以检索了,电子信息化大大简化了检索的过程. 如果这些也没有,网上其它单位建的一些数据库也往往收集了很多CAS号,可以查到一些.但要注意的是,国内的有些数据库收录的CAS号可能不严谨而存在错误.尤其要提醒的是百度百科,ChemicalBook这类免费网站, 上面有些数据存在着错误,取用时一定要多加审核.我个人常用www.chemexper.com.或是试剂公司的网站,如百灵威( 链接 ),Sigma-Aldrich官网( 链接 ),或是国外的公共服务网站Pubchem( 链接 )等,他们的数据比较严谨. 这里顺便把以前的VBA版本的也一起打包进来放在一起备忘. CASisValid.rar
个人分类: 其它兴趣|2819 次阅读|0 个评论
有关专利检索的那些事(1):试试美国中文数据库吧
rexlee 2019-5-7 14:47
最近做了一次Patentics的直播分享,涉及的主题是“提质增效,试试美国中文数据库吧”。通过一个具体的案例检索,探讨了使用美国中文数据库在专利检索过程中的有益效果。确实,在该案件中,使用该智能检索系统自带的美国专利的中文翻译数据库,可以快速找到对比文件。大家在专利检索过程中可以试试;以下是直播分享的主要内容。 大家好,今天为大家分享一个本人在Patentics美国中文库的检索案例,让我们看看美国中文库都可以从哪些方面提高我们的检索效率和质量。 案情简介: 权利要求1的内容为: 一种用于改进基于钛酸铝的复合物的热-机械性质的方法,所述方法包括: 将完全烧制的基于钛酸铝的复合物浸入0.5-10重量%的磷酸水溶液中;以及对经过浸泡的复合物进行退火,以使所获得的复合物中含有0.5-2重量%的磷,所述重量%是基于相对于未浸泡的复合物的重量的超添加量。 从中可以看出,本申请的发明点是 将复合制品浸入磷酸中,然后进行退火从而来优化 钛酸铝陶瓷过滤器的 热-机械性质 。可见 磷酸浸渍 是本申请的发明点之一。 在P系统检索过程中,首先尝试中国申请数据库检索,没有发现好用的对比文件。由于本专利是国外公司到中国的申请,根据之前“周莹”老师所分享的检索PCT专利的方法:可以尝试使用该专利的英文同族专利版本进行语义排序,避免因国外专利中文翻译与中文习惯性表达不符而造成的相关度降低的问题。选择英文全文库使用R/号码进行检索,可以获得本申请的PCT同族, WO2012166222 ,从中可以获取英文原文以及磷酸的关键词 phosphorousacid 。 使用该同族作为语义排序标准,采用 rdi/WO2012166222 and a/(phosphorous acid and aluminum titanate) ,选择英文全文库,也未获得好用的对比文件。 现在P系统推出了外国中文数据库,很多审查员的分享案例也使用了该数据库进行语义检索,决定使用该数据库试试,选择美国申请中文库和美国授权中文库( Tips:检索美国专利时,一定要同时勾选申请和授权库,美国申请从2001年修法后才开始公开 ),采用检索式“ Rdi/申请号and a/(磷酸 and (钛酸铝 or 铝钛酸)) ”,即可在第1页第5篇找到X类对比文件 US2004037998 ,其公开了使用磷酸对钛酸铝等陶瓷进行浸渍,可以评述该申请的创造性。 外国中文数据库除了能够高效命中对比文件外,在对比文件的筛选过程也非常便捷: 从首页的检索结果来看,该对比文件的主题名称与本申请是最接近的,是第一选择浏览的对象;再通过点击全文,自动关键词高亮,可以快速判断该对比文件的相关性。 虽然检索到了对比文件,笔者还在思考一个问题:为什么在英文数据库没有检索到这篇专利文献呢? 笔者再次将数据库聚焦于美国申请美国授权数据库,采用美国同族 US20160122855A1 作为检索的申请号,也没有该对比文件。 通过比较对比文件和本申请中有关技术方案的表达方式,笔者找出了背后的真相:对比文件磷酸的表达方式为“phosphoric acid”与本申请WO同族中的“phosphorous acid”有所不同,从而导致在a/干预后不能被命中。 如果调整检索式为“ rdi/WO2012166222 and a/((phosphorous acid or phosphoric acid) and aluminum titanate ) ”,在第一页很靠前的位置也能够获得该对比文件。 另外,由于外国中文数据库的可浏览性,建议采用如下检索式: r/申请号+关键词(英文关键词)+db/us+fmdb/uc ,即采用英文检索式在美国英文库检索,然后转入美国中文库浏览,也可以提高英文库检索中对比文件的浏览效率。在本案中,采用如下检索式: rdi/申请号 and a/((phosphorous acid orphosphoric acid) and aluminum titanate ) and db/us and fmdb/uc ,可以快速在第1页的第4篇锁定对比文件。 小结: 1、包括美国中文数据库在内的外国中文数据库推荐使用,通过简单的 r/申请号+关键词(中文关键词) 干预即可高效获得可用的对比文件;相较于英文数据库检索,可以避免由于英文关键词不熟悉或扩展不足所带来的漏检,提高检索质量。 2、美国英文数据库使用的是英文语义模型,更利于Patentics检索美国英文文献。为了提高文献浏览速度,笔者建议使用如下检索式: r/申请号+关键词(英文关键词)+db/us+fmdb/uc ,即采用英文检索式在美国英文库检索,然后转入美国中文库浏览。 3 、无论是使用英文库还是中文库,人工干预的关键词都需要进行必要的扩展,包括同义词、近义词等。
个人分类: 专利检索|3235 次阅读|0 个评论
[转载]人类简史(31)
罗非 2017-6-30 09:32
  官僚制度的奇迹   终于,美索不达米亚人开始希望除了无聊的数字数据外,还能写些别的东西。在公元前3000年~公元前2500年间,苏美尔文字系统逐渐加入越来越多的符号,成为能够完整表意的文字,今天它们被称为楔形文字。到了公元前2500年,国王已经能用楔形文字颁布法令,祭司用它来记录神谕,至于一般平民大众则是用来写写信。差不多同一时间,埃及也发展出另一种能够完整表意的文字——古埃及象形文字。另外,中国在大约公元前1200年、中美洲各地在公元前1000年至公元前500年间,也都发展出了完整表意的文字。   从以上这些最初的中心,完整表意的文字开始向四方远扬,发展出各种形式以及新的用途,让人开始用文字来写诗、编史、耍浪漫、演戏剧、提预言,甚至是记食谱。然而,文字最重要的任务仍然是记录大量的数字数据,而这也是部分表意文字的特别强项。无论是希伯来的《圣经》、希腊的史诗《伊利亚特》、印度的长叙事诗《摩诃婆罗多》,还是佛教的《大藏经》,一开始都是口述作品。这些作品世世代代靠的都是口传,就算没有发明文字,也还是会继续再传下去。但讲到税务登记和复杂的官僚制度,就要等到部分表意的文字出现后才应运而生,而且就算到了今天还是像连体婴儿一样密不可分;种种计算机数据库和电子表格,藏着不为外界所知的秘密。   随着越来越多的事情通过文字记载,特别是行政档案数据变得无比庞杂,也就出现了新的问题。记在人脑里的信息找起来非常方便。以我自己为例,虽然我的大脑里藏着几千兆位的数据,但我可以几乎是立刻想起意大利首都的名字,再想起我在2001年“9·11”事件那天做了什么,还能马上想出从我家到耶路撒冷希伯来大学的路线。至今,大脑为何能做到这样仍然是一个谜,但我们都知道它的检索系统效率惊人。(只不过,找钥匙这件事可能是个例外。)   如果是结绳语的绳子或是写着文字的泥板,又该怎么检索数据?如果只有个10片甚至100片的泥板,都还不是个问题。只不过,若是与汉谟拉比同时代马里(Mari)城邦的国王齐默里宁(Zimrilim),已经累积了数千片泥板,该怎么办?   想象一下在公元前1776年。两个马里人在争论一片麦田的所有权。雅各布言之凿凿,说他早在30年前就向以扫买了这片田。但以扫不同意,说他是把这片地租给雅各布,租期30年,现在租期到了,他要收回土地了。双方火气上升,开始互相叫嚣推打,但他们忽然想到,可以到王室的档案库去查查,那里有全王国房地产相关的记录和数据。但等抵达了档案库,他们就被各部门的人像皮球一样踢来踢去,叫他们先坐下来喝杯青草茶休息等等,或是明天请早些再来。好不容易才终于有个承办人员一边碎碎念一边带着他们去找相关的泥板。承办员打开一扇门,来到一个巨大的房间,从地板到天花板堆积着成千上万片的泥板。也难怪承办人员心情糟,他该怎样才能找到记着30年前麦田合约的那块泥板?而就算找到了,又怎么能知道这块30年前的泥板就是关于这片麦田的最新合约?另外,如果找不到这块泥板,难道就能说以扫从未出售或出租这片麦田吗?会不会只是泥板搞丢了,或是某次下雨渗水把它给溶了?   显然,光是把记录压印在泥板上,并没办法让数据处理有效率、准确和方便。我们还需要有组织工具(像是编目)、快速的复制工具(像是复印机)、快速准确的检索工具(像是计算机运算),而且还得有够聪明(最好心情还能好一些)的负责人员,能够了解这些工具的使用方法。   事实证明,发明这些工具要比发明书写文字难上太多了。许多时地都相差甚远的文化,都各自发展出了自己的文字系统。每隔几年,总有考古学家又发现了其他某种被遗忘的文字,甚至有些还可能比苏美尔泥板更久远。但这些文字多半就只是些新鲜但不实用的发明,原因就在于这些文化没能找出方法来有效编目和检索数据。而苏美尔、古埃及、古中国和印加帝国的特殊之处,就在于这些文化都发展出了良好的技术,能够将文字记录予以归档、编目和检索,另外还投入资本培养人才来负责抄写、数据管理和会计事务。   考古学者在美索不达米亚发现了一份当时的书写作业,让我们得以一窥大约4000年前的学生生活:   我走进去坐下,老师来检查我的泥板。   他说:“你漏了一些东西!”   然后他就用棍子打我。   另一个管事的人说:“未经我允许,你竟敢讲话?”   然后他就用棍子打我。   管秩序的人说:“未经我允许,你竟敢站起来?”   然后他就用棍子打我。   看门的说:“未经我允许,你竟敢出去?”   然后他就用棍子打我。   管啤酒壶的说:“未经我允许,你竟敢倒啤酒?”   然后他就用棍子打我。   苏美尔语的老师说:“你竟敢说阿卡德语?”   然后他就用棍子打我。   我的老师说:“你的字很丑!”   然后他就用棍子打我。44   古代的抄写员不但得会读会写,还得知道如何查目录、辞典、日历、表格和图表。他们得要学习并内化种种编目、检索和处理信息的技巧,而且这些都和大脑原本内建的机制非常不同。在大脑里,所有数据都自由地互相联结。像是我在和另一半一起去办新家抵押贷款的时候,就想到我们一起住的第一个地方,这又让我想到去新奥尔良度的蜜月,再想到鳄鱼,再想到西方的恶龙,再想到歌剧《尼布龙根的指环》;结果我不知不觉就哼起了歌剧里面齐格飞的主旋律,把银行职员搞得一头雾水。对官僚制度来说,各种数据必须清楚分开。一个抽屉放住宅抵押贷款,一个放结婚证书,第三个放税务登记材料,第四个放诉讼案件卷宗。否则哪知道该到哪去找?而如果有某件事情同时属于很多个抽屉(例如华格纳的音乐剧究竟该算是“音乐”还是“戏剧”?还是该干脆另列一类?),可就头痛了。所以,这些制度总是在不停新增、删除和重新分配这些抽屉。   为了要让工作顺利,操作这种抽屉系统的人必须接受训练,思考的方式不能像一般人,而得有专业文书和会计的样子。从古至今,我们都知道文书和会计的想法就是有点没人性,像个文件柜一样。但这不是他们的错。如果他们不这样想,他们的抽屉就会一片混乱,也就无法为政府、公司或组织提供所需的服务。而这也正是文字对人类历史所造成最重要的影响:它逐渐改变了人类思维和看待这个世界的方式。过去的自由连接、整体思考,已经转变为分割思考、官僚制度。
个人分类: 科普|865 次阅读|0 个评论
《新智元笔记:跨层次结构歧义的识别表达痛点》
liwei999 2016-2-10 08:56
一个困扰我的问题是跨层次结构歧义的表达:“他要整个高大上的节目献给全国人民”: “整个”分析成定语。但口语中,它还有动词谓语的可能:“整个”=“整出(创制)一个”。 上面示意了一下,为表达识别出来的歧义,这里需要打破 base XP 的框框。第二条依存关系路径是:“要”是谓语“整个”的儿子(情态),“节目”也是“整个”的儿子,是其宾语(O)。值得注意的是,这个歧义表达要求短语内部的定语跳出来做句子的谓语。 (白: 其实,有了从句,树已经成了DAG。既做得初一,索性做十五,大面积地画DAG好了。) 如上图所示,加上这两条路径,基本就算在同一颗树里面表达了两个 parses 的路径。昨天一直在想这事,感觉与白老师初一十五一样,可以做。不就是需要一个表达手段么?也不影响 formalism 本体。 (白: 还是有点两张皮,不是个一贯的东东。) 层次纠缠的结构歧义的表达,如果不生成多颗全树,而是表达在一颗树里面,的确不是一个一贯的东西,是两张皮。但是好处也是明显的,经济实惠,共享了句中大部分与歧义无关的依存关系。 句法识别这样的结构歧义原则上不难。有“整个”这个词去drive的话,总是可以识别的。 (白: O前是表示生产、制作、呈现意义的动词,O后是双宾动词的情况,可以激活“整个”的分解语义。) 先不说排歧,因为排歧很多时候人也有难处。咱们先讨论清楚结构歧义的表达。 识别完了,怎么表达?需要一点斟酌。因为只有表达合适了,后去才可以用(无论是后去的排歧,或者不排歧提供给人去互动或干预)。 关键是,这个表达要好用。后去觉得不好用,那就白表达了。 因为大多数其他的依存关系是可以共用的,所以结构歧义,是可以在同一颗依存树里面表达的。 结构歧义在不牵涉 base XP 层次纠缠的案例 中,我们 已经常用。PP-attachment 就可以把PP 既连接到前面的NP也连接到前面的 VG谓语。因为所谓的base NP, 这个base是把后面的PP定语排除在边界之外。这样一来,表达起来完全没有层次(xbar)的纠缠问题。还有我以前显示的一个NP既接成成VG的S,也连接为 O,这些都好办。汉语的兼语也可以表达为前面VG的宾语(O)和后面VG的主语(S)。 在多年的实践中,发现了在依存表达中,加入 base XP 的短语结构,会带来很多很多便利。结果就人为地在本来应该没有非终结节点的纯粹的以词为基础的依存树里面,强加了这个 XP 的表达。这样一来,就出现了结构歧义的层次纠缠的问题。 如果当时决定从base XP更进一步,允许XP的短语结构有嵌套,那么PP-attachement中的PP就可能成为一个扩展的NP里面的成分。这时候,PP再拿出来做谓语的状语,就同样面临层次纠缠问题。所以,这表明,这一切都是人为的。是我们为了方便做了权衡的一种表达方法。关于这种baseXP短语结构与依存关系的hybrid的好处,新来的朋友参见:《 新智元笔记:基本短语是浅层和深层parsing的重要接口 》。在多数时候,它的确是方便的,短语这一刀给我们带来了极大的便利,但在层次纠缠的结构歧义表达时候也给我们带来一些不便。 不便之处,花点功夫可以克服。人为的东西都是可以人为克服的。 对于结构歧义在同一颗依存关系树上的表达,后续的应用,需要专门为这种表达写一个歧义检索程序,用起来就没有问题了。这个检索算法,我昨天想了一下,也不难。你从任一个节点出发,一路遍历它的子子孙孙。如果其结果是树上的所有节点都访问到了,那么这个节点就是天王老爷。如果有多个天王老爷,就说明有结构歧义。就这么简单。因为依存关系的结构原则是,有且仅有一个天王老爷。多了,就是歧义。在我们的“整个”的那句案例中,从“要”出发可以遍历。从“整个”出发,也可以遍历。其他的所有节点都不具有这个遍历终结节点的可能。白老师,这样有问题么? 这个方案纯粹是一个 side effect 的工程,不牵扯 formalism 本体。只要想做,找一个不笨的工程师就可以做:歧义结构的依存关系表达,以及歧义结构的依存关系检索。至于检索后的应用,那是下一个系统(IE或其他语用模块)的问题,不是句法的问题了。句法合适地识别了歧义,又提供了检索接口,可以说是仁至义尽了。 这一讲的题目可以叫做NLP中“跨层次结构歧义的识别表达痛点”。 其实,也不算太痛。就是messy一点,做总是可以做的。Note:这里讨论的问题与传统 parser 生成了许多个伪parses,鱼目混珠、沙多珠少的情形不一样,这里说的是具有相当确定性的结构歧义。不是伪parses成堆的传统parser里的false alarms。这些歧义的识别大多是细颗粒度或词驱动的句法都可以预示和搞定的任务。如果上述方案实施了,就引导句法开发者多在识别上下功夫,而不要浪费资源做那些搞不定的排歧任务。前者是 tractable 的任务。 前几天提到的“一张嘴”的词启动歧义识别也是如此: 后一个 parsing 由于词驱动的 hidden ambiguity 没有表达,现在是错的。 但是如果照上面的方案解决了歧义识别表达的问题,就可以把另一个可能挖出来。 (刘:我是一只特立独行的猪,这个结果会是咋样呢?) “结果”取了副词的用法,也说得过去,但错过了其名词的用法,虽然总体语义无大碍。 这个也有一个错,“树”应该做定语的,可是分析成“看”的宾语了,大局没错。 这些漏掉的歧义结构,从道理上都可以识别,如果歧义表达和检索按照今天说的方案那样到位的话。不过做起来还是有些繁难,以后再说吧。要点就是,对于一个已经基本对于 false parses 免疫了的细颗粒 parser 而言,与其追求不大切合实际的结构排歧,不如把下一步的重点放在歧义识别、表达和检索上。 【相关】 《 新智元笔记:基本短语是浅层和深层parsing的重要接口 》 《新智元笔记:汉语parsing的合成词痛点》 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:歧义parsing的休眠唤醒机制初探】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4527 次阅读|0 个评论
《立委科普:关键词外传》
热度 4 liwei999 2015-10-12 02:35
Keywords as Technology and as Business Model. The entire search industry has relied on keywords as money-making machines. What are the limitations of keywords as technology? What are the limitations of keywords as business model? What are prospects beyond keywords? These are issues discussed in this blog and the next (in progress). 信息爆炸的时代,IT 领域风云多变,群雄争霸,此伏彼起。其中最精彩的故事之一就是搜索巨头的崛起。他们的谋生本领从技术和商业模式两方面看,都是所谓关键词(keywords)。于是关键词有了两个含义,一个是关键词的技术,另一个是作为广告基点的可以卖钱的关键词。 作为技术的关键词,从原理上看是再简单不过的了,就是给海量文本做个索引,以便检索。建索引是个相当古老的传统,严肃一点的教科书、手册和科技书籍,差不多都会在书前的目录之外,再建一个术语索引附于书后,以备读者查询。从满足信息需求的角度看,目录与索引的区别在方便随意浏览还是临时查询。一般人两种需求都有,譬如,每天查看新闻是很多人的习惯,那么进入新闻目录去分类浏览就是自然而然的了(这个需求的延伸就是如今手机上各类新闻推送,个性化服务,送货上门了)。一般而言,这个需求的特点是事先没有一个明确的问题需要解答,浏览看上去有点漫无目的,至少没有一个焦点,就是了解个动态。因此预制的目录和分类可以比较好的适应这种需求。第二个需求不同,信息需求者有个具体的焦点,或者疑问,他需要寻求答案。譬如家里抽水马桶坏了,查一查怎么修理抽水马桶。这类具体的需求千差万别,每个人每个不同的时间点,都可能产生一个特定的问题需要答案。因此,要想事先给这无限的开放的信息需求及其答案做目录式分类,是不可能的,因为有限的分类无法应付无限的问题。为了以不变应万变,关键词索引和检索应运而生,满足了这种需要。因为所有的具体问题或信息焦点,说到底都是由关键词组成的。前述抽水马桶的问题,心里的问题大概是“我的抽水马桶坏了,怎么修理呢”,电脑不懂人话,只好抽出表达主要概念的词(不抽的是所谓 stop words,就是”我“、“的”、“了、”呢“、”怎么“ 之类, 多是高频小词),其关键词就是:抽水马桶,坏,修理。关键词是语言表达的基本单位,因此从信息海洋中检索出来的网页只要按照这些关键词出现的密度(keyword density)排序,要寻找的答案应该就在里面了。(关键词密度排序是最基础的搜索技术,后来改进版的排序算法 Page Rank 更加注重网页本身的信誉度。) 互联网发展伊始,很快迎来了网页的爆发性增长,网人在信息的海洋中找不着北了。于是给网页做目录分类的雅虎兴盛了,门户网站门庭若市。人多了就好做生意,于是门户网站开始了网络时代的广告生意,各种闪烁的广告条让人眼花缭乱。后来人们发现,信息需求靠有限的目录和分类是无法满足的,需要一个工具来帮助搜索。谷歌百度等搜索引擎为支撑的公司遇到了历史的机遇。不过,刚开始的时候,他们也不知道怎样才能挣钱,他们不过是研制了这么一个搜索工具供网人自由使用,他们没有门户网站分门别类的丰富内容,对用户没有粘性,用户拿来就用,用完就走,很可能是回到了内容丰富规整的雅虎去浏览新闻去了。于是,他们就到各大网站去推销这套引擎,凡是大一点的门户或网站,都有一个支持网站内搜索的需求,也就需要搜索引擎,他们于是收取 license fee,这是典型的 B2B(企业对企业) 商业模式,卖的是技术(工具)本身。可这么做难以做大,不过是网站门户的补充而已。 直到有一天,新的 B2C (企业对消费者) 模式出来了,这才开启了搜索引擎大佬财源滚滚的时代。这个模式的基础就是发现了,关键词不仅仅是技术,是索引和查询的元件,而且关键词本身也可以卖大钱。卖给谁?当然是广告商,谁出钱多,就卖给谁,而且关键词数量巨大,加上关键词之间的组合( 可以对关键词做与、或、非等操作),这个盘子可以做得很大,定期竞标,实现利润最大化(百度的所谓竞价排名:顺便说一下,比起谷歌的广告不得影响搜索排序结果的做法,百度有时太没品了,让人无语)。这一切的一切都基于关键词是最简单而且最容易掌控的语言表达的形式,广告商需要借助它与信息搜取者(潜在的用户)匹配上,这样就大大提高了广告的效益,因为广告从传统的被动轰炸客户(如传统媒体譬如电视)一下子提升到主动迎合客户的信息需求,因为在搜索过程中遇到的广告都是与所搜索的关键词密切相关的内容。这个关键词卖钱的商业模式是迄今互联网最成功的模式,经久不衰。 说到这里,我们可以问一下:用关键词来表达信息需求(譬如问题)、满足信息需求(譬如根据密度信誉度返回相关网页)以及代表广告内容,靠谱么?答案是 yes and no。从用户体验来看也是如此。很多时候似乎用关键词,再花点时间阅读反馈回来的前几个网页,就找到了问题的答案。也有的时候发现找不到答案,于是把自己的问题变换一下,抽取不同的关键词,譬如变成 “抽水马桶”,“不工作” 再去查询,答案就出来了,就在新返回的网页里。反正电脑检索是立等可取的,变换几次虽然要多费点儿劲儿尝试(trial and error),满足了需求也还是可以接受的。也确实有些时候,关键词怎么也玩不转,费了九牛二虎之力,尝试不同关键词的组合,可就是找不到答案。有的是心中的问题难以用关键词抽取来表达,譬如你想寻找产品发布的信息,就很难用关键词表达,第一,产品这个概念是一个开放集,没法用关键词去枚举。第二,“发布” 这个关键词是多义的,政治新闻的发布就与产品没有一毛钱的关系,没有动宾关系的制约,硬拿它做关键词去搜索,得到的就是信息巨多,太多杂音。总之,关键词作为语言的元件,表达信息不可能完整准确,它的好处是简单、鲁棒(robust)和查全率(recall)好,作为语言表达,关键词不过是一个最简单的近似,一个无奈的选择。 总结一下,关键词只是表象,它的价值植根于对信息的表达(载体)。是这种信息载体的身份使得它把用户的需求、网页的相关以及广告商的目标这三者联合起来,成为互联网经济的三大基石之一(电商交易和游戏服务是另外的两大互联网产业)。然而,关键词只是信息表达的最原始粗糙的元件,它没有抽象度,无法应对不可枚举的概念(譬如“产品”),它没有语词结构,最多只能用逻辑“与或非”操作关键词(术语叫 boolean query),而无法表达文法关系(譬如表达 “发布”的对象必须是产品)。所有这一切都是根子上的局限。因此,关键词不可能是信息时代的终点。关键词技术和关键词模式都面临而且需要一场颠覆式的革新。 下一讲预告 《立委科普:关键词革新》 ,谈关键词的三面都面临怎样的颠覆式改革。 【后记】 这篇是地地道道的科普,太浅显、白话、常识了,老妪能解了吧,只是结论部分从天下大势和技术基础的角度指出了关键词技术和关键词模式的根本局限,算是夹带了私货:关键词面临革命(或者叫颠覆式革新更易让人接受,也更妥帖,因为不可能杀掉关键词,只是要剥夺它的信息唯一载体的地位)。 【相关博文】 《立委科普:关键词革新》 2015-10-17 《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 2015-10-10 《泥沙龙笔记:铿锵三人行》 2015-10-08 泥沙龙笔记:漫谈语言形式 2015-10-03 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 【立委科普:基于关键词的舆情分类系统面临挑战】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5533 次阅读|4 个评论
学术资源查找的终极办法——检索那点事儿
热度 2 xynyoumenger 2015-9-21 10:11
这里的办法是靠自己滴!找朋友,图书馆做文献传递不算~ 要知道,检索很简单! 找到检索源(到哪找)能省很大力 更要知道,检索不容易!如何找,那是思维+耐心的综合,那是你知识经验的i积淀 更更更要知道,检索不是为了查文章做学问,是培养科学的思维方式以更好的生活,解决问题 ^^ 这里分享的很少, 绝不 罗列 很很很 多网站,比如,外国期刊12个网等等 一堆 。 因为 大家 不可能挨个去把所有资源都点一遍!现在不是没有资源,是太多了 本帖只以博主经验,希望和大家分享 较 佳 的检索途径( 实际和检索,没毛钱关系……,就是知道些链接,如何知道的这些链接,才是检索的根本 ),当然,不是万能的,不能你需要的一定找到, 但至少比较快,能解决绝大部分^^ 注意区分校内和校外免费 希望对大家的学术研究有所帮助, 如您有好的高效办法,欢迎联系我 。 更多具体的检索方法,欢迎查看sina博客其他帖子 尤尤幽的博客 http://blog.sina.com.cn/u/3040149587 GOOGLE替代: www.webcrawler.com (慢啊) www.dogpile.com www.bing.com (右上角改为英文) ____ 英文界面的检索和中文的检索结果是不同的! yahoo.com (语言英文的) 以上选一款习惯的就好 一般图书: 中文: 首选微盘(通过百度)+读秀(校内数据库,基本等同blyun,超星发现, 校外免费用 www.ucdrs.superlib.net , 方式为邮箱接 收 ) 英文:首选 gen.lib.rus.ec (违版权), 没有再查 nap.edu (注册后免费),没有再查 hathitrust ( http://www.hathitrust.org/ ), 都免费 刊( 检索所有刊里面的文献 ) : 中文CNKI+万方+维普(校内直接下全文, 校外可当文摘库用,帮助你知道有什么 ) 外文WOS(web of science)+SCOPUS+EBSCO搜索(如没有这3个数据库,随便找个高校图书馆的ALL检索,见下面), 知道特定名字后,www.blyun.com 获取全文(校内使用)。 校外获取全文用 www.ucdrs.superlib.net 注意:如果校外下中文期刊, 用CNKI等检索后,先去 百度文库 下载,没有再用 www.ucdrs.superlib.net ------------------------------- 高校图书馆的ALL检索 _ 基本整合大部分 世界学术资源,所谓一站式检索,但是检索命令不精准,有,但未必能检索出来。 各个高校基本都有,主要根源是EDS, Primo,Summon, 即,知识发现系统. 只是各个高校再整合资源换了自己特定名字。 各个学校整合情况不同,选比较知名大学即可 如武汉大学图书馆 学术搜索 - 珞珈学术搜索 http://whu.findplus.cn/ , Harvard 图书馆的everything_ HOLLIS+ http://library.harvard.edu / , 清华大学图书馆的水木搜索 注意: 1。国内的只要您 在校内 访问,那么你们学校如果购买了全文,就可以直接获得。但国外可以检索 不能 下全文,仅当文摘库用 2。他们都可以校外一站检索,知道具体文献名,再去找全文 ------------------------------- PS 以上再找不倒全文的,借助 http://www.sci-hub.org/ (违版权) 步骤1:找到你需要全文的“购买”全文页面 步骤2: 方法1,直接把页面链接复制到 http://www.sci-hub.org/ 方法2,修改页面链接的 第一部分 后面加 . sci-hub.org,前面有个“点”,别忽略 如 http://www.sciencedirect.com . sci-hub.org /science/article/pii/S0735109715044630 英文刊(浏览特定期刊所有卷期全文) : 借助清华大学或者北京大学图书馆的“找期刊”,校内外都可免费查找刊 在校内,点开期刊名,里面文章如果能下载,就是学校购买了,如果不能,用blyun获得全文 查哪些刊是SCI/SSCI/AHCI (只有刊名) http://ip-science.thomsonreuters.com/mjl/ 人大转载: 手机微信 加  壹学者 , 免费 外文学位论文: 外文:PQDT 外文学位论文全文(校内数据库),proquest 免费前24页 (校内数据库) 下面两个是校外都可以免费的 http://search.ndltd.org/ (有全文的后面有PDF图标), OATD http://www.oatd.org/ (都是全文) 专利: 校内数据库 Derwent 校外免费  http://www.soopat.com/ 这里不特别列出各国的专利查找,真具体找哪国就去哪国国家的专利局去。 国际会议: http://www.allconferences.com/ H-NET http://www.h-net.org/ www.meeting.edu.cn 网上会议webinar:专业+webinar MOOC : 世界的 http://www.cousera.org https://www.udacity.com/ 可汗学院 https://www.khanacademy.org/ https://www.edx.org/ https://www.coursesites.com 中国的 爱课网 http://www.icourses.cn/imooc/ 学堂在线 http://www.xuetangx.com/courses 果壳MOOC http://mooc.guokr.com/ 多贝 http://www.doubei.com 顶你原来的过来人  http://www.topu.com/ TED http://www.ted.com/ 必看 中文字幕翻译的在 网易163 推荐MOOC的聚合检索 http://www.class-central.com/ 学术交流社区: Researchgate Mendeley 科学网 Answers http://www.answers.com/ facebook 访问不了的就列这一个 标准: 网站杂,还真没特别推荐滴,大家就常规找吧 数据: 国家统计局+ 年鉴 (CNKI) 国外的找国外统计局 以上是比较快的笼统方法,比如找中文书,除微盘,还可以尝试其他网盘; 古籍有些免费资源; 找期刊还可以尝试 道客巴巴等类似百度文库的网站;专利有国家专利局;实验手册等可以用manual 或 protocol在gen.lib.rus.ec搜书, 也可尝试 handbook 、 Encyclopedia( 其他学科也适用 ) 。 springlink有实验库等部分免费; 计算机专业特别推荐(免费且权威首选) DBLP http://dblp.uni-trier.de /+ 微软学术搜索 生科专业(免费且权威首选) PUBMED+ F1000 各个专业有自己的特定资源 理工一般还会用 http://arxiv.org/ 各综合学科免费外文期刊 https://doaj.org / 都没特别推荐, 因为 知识发现系统+BLYUN 真的很霸道!不过切忌,检索命令没有专业数据库好,绝不是万能的 具体需要的资源,还是靠大家细细挖掘——培养个人的检索能力了 ______ 以上办法之外, 免费注册国家图书馆 ,国家图书馆为所有国民购买了很多学术资源,用帐号登录免费使用!!!   ______ 特别说明下文摘与全文 没检索时候,可能 根本 就不会知道有资源你需要,不会知道文献的“名字”。 文摘是帮助了解都有什么内容的研究(WHAT),让你知道具体有那篇文献会被需要, 而只有想了解研究具体怎么做(How)才去看全文
个人分类: 杂货铺|12456 次阅读|2 个评论
快速检索的一些小技巧
Enago 2015-6-22 18:07
在科研中如何高效、全面、准确地搜索出需要的 文献和信息 ,一直都是一个很大的课题。虽然网络时代搜索学术文献那简直易如反掌,但是现在的文献有着这样的特点:(1) 数量多、增长快 ;(2) 出版形式多、文种多 ;(3) 文献异常分散 ;(4) 文献失效加快 ;(5) 报道内容重复交叉 ;(6) 文献总体质量下降 。 --- 阅读原文 请点击链接造访 【英论阁学术院】快速检索的一些小技巧- -- 利用网络搜索引擎查找学术文献时常常存在下面的一些问题,一是 得到的数据不全面 ,很多重要参考文献跟数据往往是在一些不起眼的角落,不一定跟搜索的关键字直接相关,或者使用的关键字没法涵盖到所有重要文献。二是得到的数据量太大,使用通用的搜索引擎得到的学术性跟非学术性的信息差不多1:10。用肉眼从这些仍然是海量的数据提取有用的信息仍然是个很大的工作量。 还有一个需要注意的问题是对于科研而言,什么东西需要检索?通常针对一个问题,要想得到充分的信息,光看paper是不够的。隐藏在网络的某个角落的一个PPT,可能能提供比文章多得多的有用信息。有用的信息还包括图片、代码甚至是代码片段、专利信息等等。 说到搜索,就不得不说google。它是全世界最大的搜索引擎,没有之一。同时支持各种语言的搜索。就俺而言,70%以上的初期文献调研是通过google来完成的,剩下的是使用ISI web of science, ScienceDirect等专业的数据库实现的。这里就专门说说使用google文献搜索的一些技巧。 filetype :文件类型 关键字。比如filetype:pdf + 文章名字,这样的搜索结果会优先显示PDF格式的文章全文。再试试filetype:m photonic band gap,后面搜出了几个MATLAB代码,要是刚巧是能用得上的,那不是很节省时间的吗? Define + 单词,google会告诉你这个词的定义。这样就不需要再去找那个灵格斯词典安装在哪里了。 关键字 + 2003..2013 , 这个知道的人可能不是很多,但是有时候很有用,它可以搜索2003到2013年之间的关键字。比如试试photonic band gap 2002..2007,找出来的页面都是属于这个时间内发表的文章。要注意两个数字间有两个英文句号。 站内搜索。使用“ site :操作符可以只在指定网站内搜索,这种在搜索一个实验室的网站的时候特别有用。试试输入site: http://en.wikipedia.org/wiki/Wiki photonic band gap, 看是不是前面的几条搜索词条就是限制在wiki的网站内呢? 善于利用作者的 EMAIL 地址,网络上同名同姓的人很多,用名字搜索不一定就很准确地得到结果,但是EMAIL基本上可以认为是唯一的。 使用 双引号”” 可以精确匹配一个短语,photonic band gap的结果是1370000个词条,但是“photonic band gap”差不多是250000。 恰当地使用 通配符 “*”跟 布尔操作 “OR,AND“操作符,“~”近似词,“-”不包含。 其他google搜索工具 。比如google翻译(https://translate.google.com/),google图片搜索(http://www.google.com/imghp),google学术搜索(http://scholar.google.com)等。 如果想要学习更全一点的google 搜索命令呢,可以参考下面的这篇文章 。 http://baike.sogou.com/v689884.htm?ch=ch.bk.innerlink http://wenku.baidu.com/view/85b2ffc2aa00b52acfc7ca86.html § 博客内容皆由 英论阁 资深学术专家团队撰写提供 § ------------------------------------------------------------------------------------------------------------------------------------ 您可能感兴趣的博文: 1. 在线研究工具 2. 如何写文献综述 3. 写论文文章之如何组织文章的主体 -------------------------------------------------------------------------------------------------------------------------------------
3304 次阅读|0 个评论
Web of Science 检索技巧:团体作者检索
热度 1 wanyuehua 2014-12-16 08:15
团体作者( GroupAuthor )检索:当一个组织或者机构被作为来源出版物 (如文献、书籍、会议录文献或其他著作类型) 的作者时则被称为团体作者。当某个研究课题中涉及了数百个作者时,也可作为团体作者看待。 团体作者数据只在 1995 年以来的记录中出现。可以在团体作者字段输入作者名或者利用团体作者索引来帮助锁定团体作者名。无论是哪种方式,应该考虑团体作者名的不同形式,可使用首字母缩写、缩写以及截词的方式来创建检索式。输入团体作者名或者团体作者名的首字母缩写词进行检索。 团体作者 字段可使用通配符和截词符。可使 用 OR 算符链接不同的写法,例如:要查找作者机构为 GIMEMA Group ,可以输入: gimema* or grp* ital* mal* or gruppo* ital* mal* 。输入 women* interag* HIV* 或者 WIHS* ,可检索 Women’s Interagency HIV Study 的论文。 在 团体作者( Group Author )检索时,可以利用 检索辅助工具“ 团体作者索引”( Group Author Index )来 锁定团体作者姓名的其他写法。 在“ 团体作者索引”检索时可以 使用“浏览”和 “查找”功能可查找要添加到检索式中的团体作者。 “浏览”选项,单击字母 (A-Z) ,按字母顺序浏览作者机构的列表。如果您不知道作者机构的正确拼写,此功能将很有用。 “移至”选项,在“移至”文本字段中输入名称或者名称的前几个字符。 单击 移至 按钮,转至以您输入的字符开头的姓名列表。例如,如果输入 Pharma 作为检索词,将从索引中查找以此单词开头的所有项目。 单击“添加”按钮从列表中选择姓名。所选姓名将添加到页面底部的文本框中。单击 确定 将所选姓名传输至“基本检索” / “高级检索”页面上的检索字段。 “ 查找”选项,在 “ 查找”文本字段中输入单词或短语。允许使用通配符 (* $ ?) 。单击 查找 按钮将转至包含您所输入的一个或多个检索词的项目列表。例如,如果输入 Pharma* 作为检索词,将从索引中查找在团体作者姓名中的任意位置包含这些单词的所有项目。单击 添加 按钮,从列表中选择一个名称。所选名称将添加到页面底部的文本框中。单击 确定 将所选标题传输至 “ 基本检索 ” / “ 高级检索 ” 页面上的检索字段。
个人分类: SCI知识|19317 次阅读|1 个评论
Web of Science 检索技巧:作者检索
wanyuehua 2014-12-15 06:32
作者( Author )检索:所有的作者姓名都被标引,所有的作者姓名都可以被检索、显示、打印和输出。 首先输入姓氏,再输入空格和作者名字首字母 。建议使用首字母或截词符( * ),因为作者名有时有不同的写法。 ① 一般规则:输入作者的姓,随后是一个空格,然后输入不超过五个的名的首字母,例如: 来源文献 J.R.W. Yates , Web of Science 数据库 Yates JRW , 检索为 yates j* or yates jrw 。 ② 姓名的不同形式:当姓可能不是放在最后时,用姓名的不同变化形式展开检索。例如: 来源文献 Shi-Wa Yen , Web ofScience 数据库 Yen SW 或 Shi WY , 检索为 yen swor shi wy 。 来源文献 Uzonyi Kiss Sandor , Web of Science 数据库 Uzonyi KS 、 Sandor UK 、 Sandor UK 和 Kiss SU , 检索为 uzonyi ks or sandor uk or kiss su 。 ③ 复姓:在 1997 年以前,复姓的部分是连在一起的。因此如果想得到完整的检索结果,应使用连在一起和分开表示两种方式,如表 1 所示。 表 1 复姓检索 来源文献 Web of Science 数据库 检 索 D. Lagadic-Gossmann Lagadic Gossmann D LagadicGossmann D lagadic gossmann d* or lagadicgossmann d* Geraldo Felipe de la Fuente De la Fuente GF DelaFuente GF de la fuente g* or delafuente g* M. D’Angelo D Angelo M Dangelo M d’angelo m* or dangelo m* ④ 头衔,等级头衔,世代名称(如 Junior 或者 Senior )以及学术身份(学位忽略不计)检索: 例如,来源文献 Lord Duvall Edwards , Web ofScience 数据库 Edwards D , 检索为 edwards d* 。再如 来源文献 W.Brumfitt, Jr. , Web of Science 数据库 Brumfitt W , 检索为 brumfitt w* 。 ⑤ 2006 年和以后出版的论文记录中,可能会看到同一个姓名的两种形式。一种是姓氏 后跟名字首字母。另一种是用括号括起的完整姓名。请注意,仍须按照姓氏在先、一个或多个名字首字母在后的形式来检索作者。 ⑥ 自 1998 年的 数据开始,在姓氏中保留非字母文字字符(例如 O'Brian 中的撇号)和姓氏中的空格(例如 de la Rosa )。 要有效地检索多年的数据,请确保充分考虑姓氏的所有可能不同拼写形式。 当检索包含连字号 (-) 和撇号 (') 的姓名时,应包括这些标记或用空格替代。 还可以检索不同的拼写形式。例如: Rivas-Martinez S* OR Rivas Martinez S* 与该姓名的两种不同形式匹配, O'BrienOR O Brien 与该姓名的两种不同形式匹配。 在 大多数姓名检索中,输入空格、连字号 ( - ) 或撇号 ( ' ) 将得到相同的记录。检索姓名 OBrien 可能返回与 O'Brien 和 O Brien 不同的检索结果。 建议 不要从含有连字号、撇号或空格的姓名中删除这些标记 使用检索运算符 AND 、 OR 和 NOT 将两个或两个以上姓名分开。检索包含空格的姓 氏时应同时使用带空格和不带空格的形式,以确保返回所有相关记录。 作者姓名中的变音符不可检索。例如,检索姓名 Schrder 会返回错误消息。姓名 Schrder 可能在数据库中显示为 Schroder 或 Schroeder 。检索这两种不同拼写形式。例如: Schroder OR Schroeder 例如: Herlert A* AND Vogel M* 查找由此二人撰写的论文记录。 Herlert A* OR Vogel M* 可查找由此二人或其中之一撰写的论文记录。 Herlert A* NOT Vogel M* 查找出现 Herlert A 但不出现 Vogel M 的论文记录。 De Marco* OR DeMarco* 可查找该姓名的两个不同形式(可能是同一位作者)。 Van Hecke T* OR Vanhecke T* 可查找该名称的两种不同形式(可能是同一位作者)。
个人分类: SCI知识|69248 次阅读|0 个评论
参加中国专利信息年会(2014)有感
热度 3 yngcan 2014-9-12 23:53
刚参加完中国专利信息年会( 2014 ),有一些感悟,记录下来: 1. 专利数据来源 数据的同质性与差异性。本次参展的厂商中约有 20 多家,其中,大部分的数据服务商已经能够提供多达 90 个国家以上的专利数据,说明现阶段支撑全球专利数据分析的数据基础已经具备。但就数据本身的来源来看,还是比较十分同质的,大部分的数据库数据服务提供商的底层数据源都十分近似。本次参展中在数据的差异性上还是有一些亮点的。如 darts-ip 、 Paterra 、合享新创、知了网等机构都在数据方面展现了一些差异化的特色。但总体而言,这种差异化并不显著,像 DERWENT 这类全面的增值数据已经多年没有更新了。 2. 专利检索平台 检索平台的同质性现象也很明显。大部分的数据服务商所提供的检索平台中包含的检索项目、命令、导出、 ALERT 都是十分雷同的。稍有特点的可能算是 Patentics 吧,这也许说明将数据挖掘、机器学习方法引入检索来改进检索效果也许算是一种有益的尝试思路;近年来,针对号码检索方面的改进也有不少,如 TI 、智慧芽等;在机器翻译方面,似乎各个公司都有了长足的进步,但具体效果如何,还有待评价。检索平台体现出的另一个问题是:像 TI 和 STN 这种提供多种复合数据来源的数据检索平台如何在数据检索的易用性和专业性中寻求平衡,至少目前的处理效果是不好的。最后,检索平台能不能其他思路呢? 3. 专利分析平台 分析平台是这些年专利数据服务商一致致力改进的地方,不同的机构在这个方面都极力想体现出差异化来,但真正的差异并没有多少,主要是一些细微的改进。这种细微的改进主要体现在如下几个方面:( 1 )对于专利全景地图、功效矩阵、引证关系图的改头换面上(不能称之为改进);( 2 )文本挖掘与各种矩阵的集合:如英帕特克的 claimmap 、 Knowledgemap , Landon IP 的 problem/solution Matrix 以及连颖、 Patentics 基于文本挖掘的矩阵;( 3 )一系列的面向生命周期的指标评价体系,如 Questel 生命周期产品, RWS 预算制定等;( 4 )一系列专利价值评价指标,如东方灵顿指标组合、 Patentics 的特征指标、合享新创等,加上之前 Innography 的指标等(不评价)。分析平台目前面临的最大问题是:我们的思路被各种专利数据分析模板、报表给牵制了,这块的改进需要我们对于用户到底想要什么进行彻底反思后方能给出答案的问题。 4. 专利数据分享 数据分享意愿增强,但分享实践不够。本次会议上有一个突出的感觉是近年来国家知识产权局在数据共享方面的态度越来越明确,这一点对于改变中国专利数据画地为牢的现状是十分有益的,但实际上数据分享的脚步迈的并不迅速。中国引文数据就是一个很好的例子。这个问题其实可以反过来想,如果未来全球的专利数据都开放共享了(其实,专利数据本来就应该开放),那么,这些专利数据服务商还靠什么生存?为何不考虑通过分享数据、吸引人次、引领合作,来获得企业在未来竞争中的优势地位呢? 5. 标准、联盟与专利 标准、联盟与专利的结合是本次会议中一个讨论极为集中的话题。 ONE-RED 、中国移动、 INTEL 等机构的演讲是很有启发的。知悉了一个概念“ FRAND 标准”。我关注的其实是标准、联盟中的信息揭示问题。标准、联盟对于专利信息具有强烈的揭示愿望,但目前这些信息的标准化( standardized )问题是需要考虑的。 6. 专利信息需求的反思 专利信息需求是专利信息服务的先导,十分重要。我本次会议的感受是,大家开始反思这个问题,或者说一致在追寻这个问题的答案。专知识产权出版社与华为公司对这个问题进行了探讨,吸引了很多人的目光。这恰恰说明目前专利信息服务商对于专利用户的信息需求是不清楚的,或者不太清楚的。如前所述,我们不能再被现有教科书上的所谓专利分析模板的思路所束缚,要真正的从用户需求出来重新来设定我们的专利分析流程。 7. 专利数据质量反思 专利数据质量是一个较为复杂的问题,因为,数据本身是一个动态的、多阶段的东西。如有专利审查数据的指标、国家局专利数据质量、交换数据质量、增值专利数据质量、以及应用到分析场景中数据的质量等。本次会议中 WIPO 、 PDG 等机构都介绍了他们对于前段数据质量控制的经验。然而,在数据分析后端,专利数据质量控制还是较为粗放的,如刘化冰先生所说,国内缺乏第三方机构对于专利数据商提供的用于检索、分析的数据提供公正的评价,亦或者像曾经日本检索机构从事的专利检索比拼、翻译大赛,来推动专利数据质量的提升。 8. 专利商业化的反思 高智公司的讲演给我留下了深刻的印象。为什么高智能够赚到钱呢?智力支持网络 + 合作盈利模式 + 专利组合构建 + 技术投资经验也许正是他们的特点。 9. 大数据时代的反思 知识产权出版社的雷总为我们描绘了一幅美好的大数据环境下的专利信息服务画卷。很美好,需要努力的地方很多。看来我又要多买几本书来恶补一下相关知识了。
个人分类: 会议|4801 次阅读|5 个评论
[转载]Web of Science数据库的通配符
wl2119 2014-6-11 22:18
检索字段: TS= Topic TI= Title AU=Author AI= Author Identifiers GP= Group Author ED= Editor SO= Publication Name DO= DOI PY= Year Published CF= Conference AD= Address OG= Organization Enhanced OO= Organization SG= Suborganization SA= Street Address CI= City PS= Province/State CU= Country ZP= Zip/Postal Code FO= Funding Agency FG= Grant Number FT= Funding Text SU=Research Area WC= Web of Science Category IS= ISSN/ISBN UT= Accession Number 通配符的使用: term* results in the retrieval of records in which this termoccurs followed by zero to many characters; term? results in the retrieval of records in which this termis followed by exactly one character; term?? results in the retrieval of records in which thisterm is followed by exactly two characters; term$ results in the retrieval of records in which this termis followed by zero or one character(s); The symbols ? and $ can also be used as wildcards inside asearch term: using t??th in a search results in records including the termsteeth or tooth, but also truth (for instance). 自动词性还原技术: “ Lemmatization automatically helps find variations by stemming for plurals (even complexplurals like tooth/teeth) and searching different verb tenses (run/running) anddegrees of comparison (big finds bigger and biggest). Lemmatization can beturned off by enclosing terms in quotation marks.” 英式英语 / 美式英语,虽词性不同,但在检索时会兼顾。使用双引号后,自动词性还原技术关闭。 例子: TS=harbor yields 80,894 results (Set #1). TS=harbour also yields 80,894 results (Set #2) TS=harbor yields 23,960 results (Set #3) and TS= (harbor or harbour) yields33,665 results (Set #4). TS=(harbor or harbour or harbors or harbours) yields 43,297 results (Set #5) and TS=(harbor or harbour or harbors or harbours or harboring or harbouring)yields 69,541 results (Set #6) TS=(harbor or harbour or harbors or harbours or harboring or harbouring or harbored or harboured) yields the required 80,894items (Set #7). As a check we see that #1 NOT #7 yields an empty set. So,lemmatization works. 使用通配符 $ 不关闭自动词性还原技术 TS=(harbor$ or harbour$) yields 80,923 records (Set #8),namely all those in Set #1 plus other ones containing e.g. the term Harbord. 使用通配符 ? 关闭自动词性还原技术 . TS=(harbor? or harbour?) yields 10,692 records (Set #9),while TS=(harbors or harbours) yields10,663 records (Set #10). Again records containing Harbord are in Set #9 andnot in Set #10. Moreover #9 NOT #10 yields the same result as #8 NOT #1. 使用通配符 * 关闭自动词性还原技术 . TS=harbor* (set #11) yields 59,605 but not including thosewith the term harbour (unless also harbor is included, which happens when, toan article written in British English KeyWords Plus added keywords in AmericanEnglish). 建议: 精确检索式,推荐使用双引号。追求查全率时,使用双引号下具体 terms ,加上 or 自动词性还原技术一起使用。 Ronald Rousseau. Advanced Search in Thomson Reuters’ Web of Science
个人分类: 文献计量理论基础|3334 次阅读|0 个评论
有些学生提的问题我是不回答的
热度 13 lin602 2014-5-14 22:37
十分钟前,QQ上一位大三的学生向我问一个问题,我觉得这个问题通过自己查资料是可以知道或解决的。 我的回答是:自己查,这个问题是可以查资料解决的。 他说查了,没有查到。 我回答他:说明你查资料没有学好。自己想办法解决! 这种情况还遇到不少,因为现在QQ与邮件等挺方便的,所以有些学生的一些问题问一下我,如果我回答他就省得自己查了,我也不知道是其他教师的作业还是自己感兴趣的东西,还是从其他途径来的问题。 我经常要求一些学生要通过查资料与动脑筋解决自己的问题,如果他还是不知道如何查,我会告诉他到什么数据库或手册甚至网上查,最多再说用什么检索条件,其实我可以随口回答他们许多问题,但我就不讲,就是要让他们自己查。 不能养成学生不想自己解决问题的习惯,你告诉他了,他就会少一次锻炼的机会,说不定下次在这些问题上还是不能够解决。 大学教师教的主要是方法,提出来要求,而不是直接给他答案。
4577 次阅读|22 个评论
Ei检索的JA和CA
热度 2 Greg66 2014-4-1 17:37
Ei检索的 JA 和 CA 20140401 Ei 检索结果的文献来源 Document Source 分为 JA 和 CA 。文献来源为 JA 的,是指文章是作为期刊论文 被检索,文献来源是 CA 的,则是文章作为会议论文被检索。 Applied Mechanics and Materials 和 Advanced Materials Research , 这两个在国内召开的国际会议出版论文时经常使用(差不多是最多的)的会议录期刊(以连续出版物形式出版会议论文),都是由 Trans Tech Publications (瑞士的一家出版公司)出版的,其中很多论文都会被 Ei 检索。查阅近几年 Advanced Materials Research 上被 Ei 检索的论文,其检索类型还是有变化的,见下面图表。我尚没有总结什么规律,读者可以 大致观察一下。下面论文发表数量的变化图其实很能说明些问题。 Advanced Materials Research 上的文章 Ei 检索情况 时间 (年) Ei 检索总数 (篇) JA 检索数 (篇) JA 篇数比例 ( % ) 2004 383 130 34 2005 435 175 40 2006 451 54 12 2007 1067 96 9 2008 2274 324 14 2009 3122 1404 45 2010 10950 5763 53 2011 56136 25639 46 2012 59611 20619 35 2013 36686 5953 16 2014 (截止目前) 7331 49 1
个人分类: 11|13896 次阅读|9 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 11:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部