题目:NationalandInternationalScientificElites 主讲人简介:舒非,武汉大学新闻学学士、暨南大学法学硕士、加拿大康考迪亚大学教育学硕士、麦吉尔大学信息学博士,研究兴趣包括信息计量、科学交流和科研评价等,在SCI/SSCI期刊JournalofInformetrics(Elsevier)、Scientometrics(Springer)、AslibJournalofInformationManagement(Emerald)等发表学术论文6篇,在ASIST、ISSI、iConference等知名国际会议和其它同行评议期刊发表学术论文30多篇。 【讲座内容详见: http://prezi.com/omkico_hud1o/?utm_campaign=shareutm_medium=copy 】 本次报告中,舒博士首先抛出了三个problems: (1)In a given discipline ,are the researchers who represent the scientific elite(in terms of numbers of papers)the same in the WOS and in a Chinese database? (2)In a given discipline,are the institutional affiliations of the group of Chinese scientific elites in WOS different from the institutionalaffiliations of the group in a Chinese database? (3)How is the overlap between the scientific elites different in the various discipline? 针对这三个问题,苏博士分析了五个国内数据库:CSCD(与WOS具有类似的结构,但是limited coverage)、Chinese Science and Technology Paper and Citation database(official database covering more journal,缺陷Selection criteria for source journals)、CSSCI(仅仅具有人文学科的)、China academic journal Full-text database(Full-text search function但是limited citation data)、VIP(chinese science and technology periodical citation database,highest coverage).最终选择了VIp作为主要数据库,分析了:232(WOS categories)和 35fields 457 subfields(二者重合的115 one-to-one matches中发现的TOP100 schloars in terms of the number of publications between 2008 and 2015 in each discipline,经过8月的消歧(作者,作者机构),最终发现: (1)在social science and humanities,中国学者发表了few wos papers (compared to the large number of publications in national journals),因此,wos 并不能代表中国作者的学术活动,研究学者research performance应该使用国内引文数据库的研究; (2)Natural science,包括(science and biomedicine,physical science and technology)中国学者diffuse their research results both internatioal journals and national journals,学者的研究performance应该同时使用wos与国内引文数据库(chinese blbliometric database); (3)在某些学科,中国学者基本放弃国内期刊发表,而是直接将目光投放在国际期刊,因此国内期刊发表量并不能反映真实情况等。 为什么会有这样情况?为此他进一步做了这样‘所以然’的探索,(另外一篇的工作) a comparison of the classification system of science between journal-level and paper-level,他分析了书的分类目录:library congress classification()LCC),Library of congress subject headings (LCSH),dewey decimal classification(DCC) ,medical subject headings(MeSH),与期刊目录CSCD。。
11月13日上午在南京大学信息管理学院听取了Prof. Dr. Wolfgang Gl?nzel教授有关《用计量学研究核心文献》的报告。利用计量学中的引用与被引用关系,构建文献之间的二维表,将余弦相似性(VSM)应用在此二维表,作者将其称之为偶合角,来度量文献之间的相似性。利用图结构将文献之间的相似性表示出来。作者还提出了两种相似性关系,文献A和文献B相似,是因为它们都引用了CDEF文献;文献A和文献B相似,是因为它们都被CDEF文献引用。 11月14日下午在南京大学计算机学院听取了孙乐教授有关《面向文本理解的实体消岐技术研究》的报告。 随着用户信息需求的精准化和关联化的要求,我们需要对互联网上大量的信息进行抽取最终实现对文本理解。具体来说需要抽取实体、实体的类别、实体的属性以及实体之间的关系等等,将这些抽取出的信息组成知识库,可以用有向超图的形式表示。现有代表性大规模知识库有yogo、Dbpedia、Freebase、nell、google知识图谱,最有名的当属google的知识图谱,google要求并入其知识图谱的知识准确率大于99%,这是十分高的要求,因为知识是不断变化并不断增长的。现有的国外知识库很多,但国内的很少。作者介绍了其研究所在进行中文知识库的构建,包括常用词语、概念、概念类别、关系词等等。接着作者指出了知识库构建方面存在的问题,包括知识表示方法(RDF)、多个知识库的融合,垂直领域的高覆盖率知识库构建方法,接着孙老师具体介绍了信息抽取的方式为模式填充,例如对一个事件,抽取出事件的类型、地点、事件、死亡人数等。我们在百度、google检索页面右边看到的人名档案就是一种信息抽取案例。信息抽取常用方法有基于手写规则的方法和机器学习的方法。孙老师总结了构建知识库的准则:web2.0协同共建+信息抽取+人工验证。 通过大规模的知识库进行文本理解时,最重点和难点要处理的问题就是实体消歧,现有的中文语义计算有基本单元语义分析、组合语义的语义分析、篇章语义分析。实体消歧知识关注实体级别的语义分析,例如:苹果可以是一种水果,也可以是苹果公司。现有的解决方法是通过连接文本与知识系统来获取更多的信息进行实体消歧。 接着孙老师讲了他们研究所的3个工作:基于实体的知识链接,通过网络上词的出现频率,构建实体知识库,并对各个实体名字的各种形式,如原型、缩略、省略等也存储在知识库中,基于实体提及模型分析实体上下文词分布;基于篇章的主题链接是基于图传递进行协同推断篇章主题;融合实体知识的篇章总结,仅有实体知识是不够的,需要基于实体-主题模型建立文本主题模型。 最后作者提出了几点总结与展望:1.文本语义理解技术突破;2.从处理小规模文本到处理海量规模文本;3.从处理规范文本到处理多源异质文本;4.从对小规模文本的深度分析到基于冗余的浅层分析技术;5.从利用人工标注语 料到利用自然标注语料;6.从注重准确率到注重召回率+时间效率.
网络信息计量学( Cybermetrics, Webometrics )文献目录 Isidro F. Aguillo, Begoa Granadino, José L. Ortega, and José A. Prieto. Scientific Research Activity and Communication Measured With Cybermetrics Indicators. Journal of the American Society for Information Science and Technology, 2006, 57(10):1296–1302. http://isidroaguillo.webometrics.info/sites/default/files/publicaciones/Aguillo2006-Scientific_research_activity_and_communication_measured_with_cybermetric_indicators..pdf Isidro F. Aguillo. Cybermetrics : Definitions and methods for an emerging discipline. http://www.eicstes.org/EICSTES_PDF/PRESENTATIONS/Cybermetrics%20(Aguillo).PDF Lennart Bjrneborn and Peter Ingwersen. Toward a Basic Framework for Webometrics. Journal of the American Society for Information Science and Technology, 2004, 55(14):1216–1227. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.95.1068rep=rep1type=pdf Lennart Bjrneborn, Peter Ingwersen. Perspectives of Webometrics . Scientometrics, 2001, 50(1): 65-82. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.58.6500rep=rep1type=pdf Prashant Goswami, Umesh Sharma, Anil Kumar Shukla. The Webometrics. 6th International CALIBER-2008, 656-660. University of Allahabad, Allahabad, February 28-29 March1, 2008. http://ir.inflibnet.ac.in/bitstream/handle/1944/1318/70.pdf Kun Lu, Soohyung Joo Dietmar Wolfram. An Investigation of Web Resource Distribution in the Field of Information Science. International Journal of Scientometrics, Informetrics and Bibliometrics, 2011, 15(1) : Paper 1. http://cybermetrics.cindoc.csic.es/articles/v15i1p1.pdf Cybermetrics Lab. Methodology : World Universities' ranking on the Web. http://lcwcu.um.ac.id/wp-content/uploads/2010/03/Methodology.pdf B K Sen. Cybermetrics - Meaning, Definition, Scope and Constituents. http://bhagirathi.iitr.ac.in/dspace/bitstream/123456789/437/1/B.K.SenPap04Cyber.pdf Cybermetrics: Electronic Journal of Scientometrics, Informetrics and Bibliometrics. www.cindoc.csic.es/cybermetrics . Mike Thelwall. A History of Webometrics. Bulletin of the American Society for Information Science and Technology, August/September 2012 , 38(6): 18-23. http://www.asis.org/Bulletin/Aug-12/AugSep12_Thelwall.html Enrique Ordua-Malea. Graphic, multimedia, and blog content presence in the Spanish academic web-space. International Journal of Scientometrics, Informetrics and Bibliometrics , 2012, 16 ( 1 ): PAPER 3. http://eprints.rclis.org/18025/1/paper_cybermetrics_graphic-files.pdf 刘东贤 . 信息计量学的新进展:从 Webometrics 谈起 . 情报杂志, 2002 ( 10 ): 5-6. http://file.lw23.com/4/4d/4d8/4d8fb44e-141d-4774-86c1-316b69158f88.pdf J. Sylvan Katz. Web Indicators For Scientific, Technological and Innovation Research. University of Sussex , July 2004. http://serv1.ist.psu.edu:8080/viewdoc/download?doi=10.1.1.144.6757rep=rep1type=pdf 田玉晶 . 我国网络计量学研究综述 (1998-2007 年 ). 科技情报开发与经济 ,2008,18(6):121-123. http://en.cnki.com.cn/Article_en/CJFDTOTAL-KJQB200806073.htm Peter Ingwersen. Webometrics – Ten Years of Expansion. http://eprints.rclis.org/bitstream/10760/7554/1/ingwersen.pdf Kayvan Kousha. Webometrics and Scholarly Communication: An Overview. Quarterly Journal of the National Library of Iran , 2005, 14(4): 7-16. http://old.nlai.ir/Portals/2/files/faslname/60/en_article.pdf Mike Thelwall, Liwen Vaughan, Lennart Bjrneborn. Webometrics. http://www.scit.wlv.ac.uk/~cm1993/papers/ARIST_39_webometrics_all_wait_for_clearance.doc Mike Thelwall. Bibliometrics to Webometrics. Journal of Information Science, 2007, 34(4): 1–18. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.7556rep=rep1type=pdf Mike Thelwall. Extracting Accurate and Complete Results from Search Engines: Case Study Windows Live. Journal of the American Society for Information Science and Technology, 2008, 59(1): 38–50. http://onlinelibrary.wiley.com/doi/10.1002/asi.20704/full 张洋 . 国内外网络信息计量学研究现状分析 . 情报杂志 ,2008(5):40-44. http://www.qbzz.org/oa/DArticle.aspx?type=viewid=200805007 赵党志 . 信息计量学与网络计量学 (Informetrics Webometrics). http://www.ualberta.ca/~dzhao/DangzhiZhao_Chapter12preprint.pdf 沙勇忠 , 欧阳霞 . 网络信息计量学研究方法的三维框架 . 中国图书馆学报 , 2006,32(162):30-32,41. http://www.ztxb.net.cn/jtlsc/ch/reader/view_abstract.aspx?file_no=20060232flag=1 金岩 . 网络信息计量学方法研究 . 图书情报工作, 2001 ( 2 ): 29-31. http://ir.csdl.ac.cn/bitstream/12502/1731/1/690.pdf 更多中文信息请浏览: 网络信息计量学学术趋势分析