科学网—标签 - 计量分析

相关帖子	版块	作者	回复/查看	最后发表

中国学者撑起了Nature 旗下子刊Scientific Reports的半边天

热度 1 waterlilyqd 2016-1-15 11:40

从对《Scientific Reports》的文献计量分析谈起不少单位对科研人员在各级各类期刊上发文的情况制定了详细的奖励办法，但这些办法基本上都是针对载文期刊的，几乎不与论文的具体研究内容和研究水平挂钩。而且，绝大多数都将在Nature、Science发表的论文放在了非常突出的位置，奖励少则几万，多则数十万甚至上百万。还有将Science子刊和Nature子刊上发表的论文甚至Nature 指数统计源期刊上的发文也放在比其它的JCR I区期刊重要得多的位置，奖励相应地也高很多倍。鉴于这种情形，确定Nature集团下的哪些期刊能够算作Nature子刊就就变成非常重要。从网上的各类报道可以看出，很多单位都把Nature communications 和 Scientific Reports认作是Nature 子刊进行重奖。也基于科技界对 Scientific Reports这个生猛的期刊的各种不同的声音，我想从文献计量的角度看看这本期刊的整体情况，让大家能够更好地了解和作出判断。此刊于 2011年创刊，创刊之初，年度发文量205篇，与大多数英文SCI收录期刊的年度发量差别不是很大，在此后的几年，该刊迅速发力，2015年其发文量完全可以与期刊界的巨无霸PLOSONE相匹敌，我相信随着中国科技界对它的极度崇拜和科研单位对在该刊发文的科研人员的重奖的催化作用下，该刊绝对完胜PLOSONE而成为世界的新星！从下表可以看到，从2011-2015年，美国、日本、英国、德国在该刊的发文量的增长为25-35倍，而中国作者在此刊的发文量从2011年的19篇迅速增加至 2015年的4277篇，增长了255倍。2015年，中国作者在该刊的发文量占约40% ，可以说中国作者撑起了Scientifc Reports的半边天！ Scientific Reports是OA期刊，其发表费大约1500美元/篇，2015年全年单就发表费收入就在1亿元人民币以上。从该刊网站上发布的收费标准来看，2015年对中国作者的收费标准是9900元/篇（ http://www.nature.com/srep/about/article-processing-charges ）。在2015年，仅中国作者就为该刊贡献了4000多万的发表费。因此，有人形象地比输此刊为Nature集团的“金钱收割机”并不假。这样的好收成是怎样让这个期刊做到的呢？有哪些值得国内期刊界学习借鉴的呢？首先，如果中国的学术评价体系不变，中国期刊很难做到；然而，如果中国的学术评价体系变了，我想该刊的情形也会发生非常大的变化。我坚信！

25344 次阅读|1 个评论

从SCI收录期刊数量看一个国家的科技竞争力

热度 10 waterlilyqd 2015-4-7 18:37

在采用计量分析方法进行国家、机构、人个竞争力分析时, 往往会根据某个计量指标的数量进行竞争力的排序，如，有采用专利数量、SCI论文数量或者学术论文数量、在国际顶级期刊发文的数量等方法来评价学术机构和科研人员的竞争力，而用GDP来衡量一个国家的经济实力。在Web of Science收录的1万多种学术期刊中，收录各国期刊的数量差异很大，这是否也能从一个侧面反映一个国家的科技竞争力呢？根据Journal Citation Reports (JCR，2013)的数据进行统计来看，似乎有这样一种趋势！收录期刊最多的四个国家分别是：美国2875种，英国1725种，荷兰 655种, 德国563种；除此以外，收录的日本的期刊也超过了200种。收录期刊不足200，但接近和超过100种的国家中，有经济较发达的国家，也有金砖四国等发展中国家。人口不到600万的新加坡也有52本期刊被收录。那些没有期刊被SCI收录或者被收录期刊只有少数几本的国家，在我们的印象中，其经济实力也相对要弱一些。这也是汤森路透的期刊收录政策，追着经济发展和科技发展走！我们可以预计，随着中国经济的发展，中国科技实力的提升，SCI收录中国期刊的数量会也会大幅增长！如果按照每年20%的增长，5年以后，中国的SCI收录期刊也许会达到300种以上。由于SCI收录的主要是英语类科技期刊，因此，一个国家的经济实力、科研水平、科研人员和学者的整体英文水平等等很多因素共同决定了一个国家被SCI收录的期刊数量。是不是可以同理,根据我国SCI收录期刊的位置分布来确定一个地区或者一个城市的科技竞争力呢? 据我所知, 目前我国的SCI收录期刊绝大部分集中在北京和上海，西部地区省市的SCI收录期刊数量非常少，个别省市一份也没有。 countries/territories No. of Journal countries/territories No. of Journal ARGENTINA 14 LITHUANIA 20 ARMENIA 3 MACEDONIA 2 AUSTRALIA 96 MALAWI 1 AUSTRIA 34 MALAYSIA 10 AZERBAIJAN 1 MEXICO 26 BAHRAIN 1 NEPAL 1 BANGLADESH 4 NETHERLANDS 655 BELGIUM 19 NEW ZEALAND 34 BOSNIA HERCEG 1 NIGERIA 3 BRAZIL 108 NORWAY 27 BULGARIA 12 PAKISTAN 12 BYELARUS 3 CHINA 162+34 CANADA 96 PHILIPPINES 4 CHILE 23 POLAND 129 COLOMBIA 15 PORTUGAL 7 COSTA RICA 1 REP OF GEORGIA 1 CROATIA 35 ROMANIA 45 CZECH REPUBLIC 40 RUSSIA 149 DENMARK 77 SAUDI ARABIA 9 EGYPT 2 SCOTLAND 19 ENGLAND 1725 SERBIA 19 ESTONIA 3 SINGAPORE 52 ETHIOPIA 2 SLOVAKIA 20 FINLAND 13 SLOVENIA 11 FRANCE 186 SOUTH AFRICA 34 GERMANY 563 SOUTH KOREA 91 GREECE 19 SPAIN 72 HUNGARY 31 SRI LANKA 1 ICELAND 3 SWEDEN 22 INDIA 98 SWITZERLAND 189 IRAN 39 THAILAND 8 IRELAND 26 TURKEY 51 ISRAEL 12 U ARAB EMIRATES 39 ITALY 123 UGANDA 1 JAMAICA 1 UKRAINE 17 JAPAN 236 UNITED STATES 2875 JORDAN 1 UZBEKISTAN 1 KENYA 1 VENEZUELA 9 KUWAIT 3 WALES 6 LATVIA 2 LIBYA 1 注：根据Journal Citation Reports (JCR, 2013)数据进行统计的结果. SCI收录的中国期刊数(162+42)中,42种期刊为台湾的. 相关链接: 周海花,华薇娜:从世界顶级学术期刊看中国科研竞争力——中国学者《自然》和《科学》发文分析张丽佳: 基于SCI论文产出的广东省科技竞争力分析贺德方: 从科技论文世界排名提升看中国科技的核心竞争力柳卸林;赵捷: 影响中国SCI论文数量与质量的因素分析

个人分类: 科技杂谈|16416 次阅读|19 个评论

埃博拉病毒（Ebola Virus)文献药物临床试验分析

热度 2 jiaxf 2014-8-17 08:49

自 2014 年 2 月至今，非洲几内亚、利比里亚、塞拉利昂和尼日利亚陆续暴发埃博拉出血热疫情，根据 WHO 实况报道，截至 2014 年 8 月 13 日确诊、可能和疑似累计病例数为 1975 例，其中死亡 1069 例，是自 1976 年以来最大的一次流行。 “新华网日内瓦８月１５日电（记者张淼　王昭）总部位于日内瓦的世界卫生组织１５日发布一份声明指出，某些产品与实践可预防或治愈埃博拉病毒是谣言”。为向大家提供科学的信息，破除谣言。笔者通过调研国际科学文献、药品研究、临床试验数据库，通过开展计量分析，期望能为为埃博拉病毒病防控工作提供科技信息与情报支撑。 1. 研究论文 PuMed/Medline 数据库共收录埃博拉病毒相关研究共计 1228 篇，其时间分布如图 3 所示。其中 46.5% 的研究（共 626 篇）为美国学者发表，中国学者论文 8 篇（如表 1 所示）。相关研究主要收录在 J Virol, J Infect Dis, Virology,Lancet, Science 等杂志。图埃博拉病毒相关研究论文时间分布（ PubMed 数据库收录） 2. 药物研究截至 2014 年 8 月 13 日， Thomson Cortellis 数据库收录的埃博拉病毒感染（ Ebola virusinfection ）相关药物的有效研究记录 35 条，其中上市药物 1 个，处于 Ⅰ 期临床试验的药物 3 个，其余 31 个均处于临床前研发阶段。上市的药物为抗凝血酶药物，处于研究阶段的药物超过半数为疫苗（如表 2 所示）。开展药物相关研究的机构超过 30 个，其中美国国立卫生院相关院所、美国陆军传染病医学研究所（ USAMRIID ）的在研药物数量达到了 5 个及以上。其中美国国立卫生院过敏和传染病研究所（ NIAID ）参与研发的 2 个疫苗已进入 Ⅰ 期临床试验。 3. 临床试验美国 NIH 的 Clinicaltrial.gov 显示迄今共有埃博拉病毒药物 I 期临床试验共 9 项，其中 8 项在美国进行， 1 项在乌干达（如表 3 所示）。附件表 1 中国学者埃博拉病毒相关研究论文编号时间研究论文单位 1 2014 Li YH, Chen SP. Evolutionary history of Ebola virus. Epidemiol Infect. 2014 Jun;142(6):1138-45. 中国军事医学科学院 2 2012 Luo M, Xiang X, Xiang D, Yang S, Ji X, He Z. A universal platform for amplified multiplexed DNA detection based on exonuclease III-coded magnetic microparticle probes. Chem Commun (Camb). 2012 Jul 28;48(59):7416-8. 武汉大学 3 2012 Wang X, Liu Y, Wang H, Shi Z, Zhao F, Wei J, et al. Generation and epitope mapping of a monoclonal antibody against nucleoprotein of Ebola virus. Sheng Wu Gong Cheng Xue Bao. 2012 Nov;28(11):1317-27. 浙江农业林业大学 4 2012 Huang Y, Wei H, Wang Y, Shi Z, Raoul H, Yuan Z. Rapid detection of filoviruses by real-time TaqMan polymerase chain reaction assays. Virol Sin . 2012 Oct;27(5):273-7. 中科院武汉病毒所 5 2012 Wu Y, Wu S, Hou L, Wei W, Zhou M, Su Z, et al. Novel thermal-sensitive hydrogel enhances both humoral and cell-mediated immune responses by intranasal vaccine delivery. Eur J Pharm Biopharm. 2012 Aug;81(3):486-97. 中科院过程工程所 6 2011 Wang YP, Zhang XE, Wei HP. Laboratory detection and diagnosis of filoviruses. Virol Sin. 2011 Apr;26(2):73-80. 中科院武汉病毒所 7 2011 Zhang N, Qi J, Feng S, Gao F, Liu J, Pan X, et al. Crystal structure of swine major histocompatibility complex class I SLA-1 0401 and identification of 2009 pandemic swine-origin influenza A H1N1 virus cytotoxic T lymphocyte epitope peptides. J Virol. 2011 Nov;85(22):11709-24. 中国农业大学中国科学院 8 2008 He M, Li K, Xiao J, Zhou Y. Rapid bio-barcode assay for multiplex DNA detection based on capillary DNA Analyzer. J Virol Methods. 2008 Jul;151(1):126-31. 华东科技大学数据来源： US NCBI PubMed/Medline 数据库表 2 全球埃博拉病毒感染相关药物研发情况 Highest Status No. Drug Name Target-based Actions Active Indications Active Companies Launched 1 antithrombin alfa Antithrombin III Shin Poong harmaceutical Co Ltd ; Lundbeck Inc ; rEVO Biologics Inc ; LEO Pharma A/S Phase 1 Clinical 1 Ebola/Marburg vaccine (AdVac, PER.C6), Crucell/NIAID -- Ebola virus infection; Marburg virus infection Crucell NV; National Institute of Allergy and Infectious Diseases; National Institutes of Health 2 TKM-Ebola -- Ebola virus infection Tekmira Pharmaceuticals Corp 3 Ebola virus vaccine (recombinant adenoviral vector vaccine), Crucell/NIAID -- Ebola virus infection National Institutes of Health ; National Institute of Allergy and Infectious Diseases Discovery 1 bivalent vaccines (rabies/ebola virus infections), National Institute Of Allergy and Infectious Diseases/Thomas Jefferson University -- Rabies virus infection; Ebola virus infection Thomas Jefferson University ; National Institute of Allergy and Infectious Diseases 2 BCX-4430 RNA polymerase inhibitor Marburg virus infection; Viral infection; Ebola virus infection BioCryst Pharmaceuticals Inc 3 adenoviral vector vaccine (Ebola virus infection), Okairos/NIAID -- Ebola virus infection Okairos ; National Institute of Allergy and Infectious Diseases 4 Ebola virus vaccine, SRC VB Vector -- Ebola virus infection State Research Center of Virology and Biotechnology VECTOR 5 Ebola virus vaccine, BioProtection Systems -- Ebola virus infection BioProtection Systems Corporation 6 ZMapp Viral envelope glycoprotein inhibitor Ebola virus infection Mapp Biopharmaceutical Inc ; Leaf Biopharmaceutical Inc 7 DEF-201 + AdHu5-ZGP therapy (viral infection), Defyrus Interferon alpha ligand Ebola virus infection Defyrus Inc 8 DEF-201 Interferon alpha ligand Chikungunya virus infection; Yellow fever virus infection; SARS coronavirus infection; Vaccinia virus infection; Western equine encephalitis virus infection; Phlebovirus infection; Ebola virus infection Defyrus Inc ; HP Labs Inc 9 MB-2003 -- Ebola virus infection Mapp Biopharmaceutical Inc ; Leaf Biopharmaceutical Inc ; US Army Medical Research Institute of Infectious Diseases 10 Ebola and Dengue virus therapy (nanoparticle formulation), NanoViricides/US Army Medical Research Institute of Infectious Diseases -- Ebola virus infection; Dengue virus infection US Army Medical Research Institute of Infectious Diseases ; NanoViricides Inc 11 ebola virus vaccine, Greffex -- Ebola virus infection Greffex Inc 12 viral capsid assembly inhibitors (influenza/Ebola virus infections), Prosetta -- Influenza virus infection; Ebola virus infection Prosetta Antiviral Inc 13 viral capsid assembly inhibitors (HCV/Ebola/VEEV infection), Prosetta -- Hepatitis C virus infection; Venezuelan equine encephalitis virus infection; Ebola virus infection Prosetta Antiviral Inc 14 FiloVax -- Ebola virus infection; Marburg virus infection Integrated BioTherapeutics Inc 15 viral uptake inhibitors (filoviruses), SIGA -- Marburg virus infection; Ebola virus infection SIGA Technologies Inc 16 fully human monoclonal antibody therapy (ebola virus infection), Humabs BioMed -- Ebola virus infection Humabs BioMed SA 17 rVSV Ebola/Marburg vaccine, Profectus BioScience -- Ebola virus infection; Marburg virus infection Profectus BioSciences Inc 18 trimeric non-degradable protease-resistant D-peptide program (ebola virus infection), Navigen -- Ebola virus infection Navigen Inc 19 ZMAb Viral envelope glycoprotein inhibitor Ebola virus infection Defyrus Inc 20 ARD-5 (ebola virus infection), University of Iowa Ebola virus infection University of Iowa 21 small molecule ebola virus entry inhibitors, Harvard University/Harvard University Office of Technology Development -- Ebola virus infection Harvard University Office of Technology Development ; Harvard University 22 Antibody vaccine (ebola virus infection), US Army Medical Research and Materiel Command -- Ebola virus infection US Army Medical Research and Materiel Command 23 ucleic acid vaccine (Ebola virus infection), NIAID -- Ebola virus infection National Institute of Allergy and Infectious Diseases ; National Institutes of Health 24 neutralizing antibody (Ebola virus infection), Scripps/USAMRIID -- Ebola virus infection Scripps Research Institute ; US Army Medical Research Institute of Infectious Diseases 25 recombinant viral vector vaccine (ArV, VEE virus technology, filovirus/Marburg/Ebola virus infection), AlphaVax -- Marburg virus infection; Ebola virus infection; Filovirus infection AlphaVax Inc 26 filoGP-Fc fusion protein subunit vaccine (ebola virus infection), USAMRIID -- Ebola virus infection National Institutes of Health ; US Army Medical Research Institute of Infectious Diseases 27 cyanovirin-N (HIV infection/influenza virus infection), NCI/NIDDK -- HIV infection; Influenza virus infection National Institute of Diabetes, Digestive and Kidney Diseases ; National Cancer Institute ; National Institutes of Health 28 adenovirus vector 5-based ebola vaccine (oral/tablet), Vaxart -- Ebola virus infection Vaxart Inc 29 MVA-BN Filo -- Ebola virus infection; Marburg virus infection Bavarian Nordic A/S 30 Ebola virus entry inhibitors, Microbiotix -- Ebola virus infection; Marburg virus infection Microbiotix Inc 31 Ebola vaccine, SKAU Vaccine -- Ebola virus infection SKAU Vaccines ApS 数据来源： Thomson Cortellis 数据库表 3 抗埃博拉病毒药物临床试验研究编号时间名称针对疾病研究药物状态 1 2009-2013 Evaluating an Ebola and a Marburg Vaccine in Uganda Ebola Virus Disease Ebola DNA plasmid vaccine, VRC-EBODNA023-00-VP 完成 2 2006-2009 Experimental Vaccine for Prevention of Ebola Virus Infection Ebola Hemorrhagic Fever VRC-EBOADV018-00-VP 完成 3 2008-2010 Ebola and Marburg Virus Vaccines Ebola Virus Disease VRC-EBODNA023-00-VP VRC-MARDNA025-00-VP 完成 4 2003-2007 Experimental Ebola Vaccine Trial Hemorrhagic Fever, Ebola VRC-EBODNA012-00-VP 完成 5 2011-2012 Safety Study of Single Administration Post-Exposure Prophylaxis Treatment for Ebola Virus Ebola Hemorrhagic Fever AVI-6002 完成 6 2011-2014 Safety, Tolerability and Pharmacokinetic First in Human (FIH) Study of Intravenous (IV) TKM-100201 Infusion Ebola Virus Infection TKM-100201 完成 7 2014- Safety, Tolerability and Pharmacokinetic First in Human (FIH) Study for Intravenous (IV) TKM-100802 Ebola Virus Infection TKM-100802 for Injection 暂停 8 2012-2013 A Study to Assess the Safety, Tolerability and Pharmacokinetics of AVI-7537 in Healthy Adult Volunteers Ebola Hemorrhagic Fever AVI-7537 撤回 9 2008-2014 Poly-ICLC to Prevent Respiratory Viral Infections A Safety Study Ebola Poly-ICLC 完成数据来源： US Clinicaltrials.gov 数据库（文贾晓峰汪楠严舒）

个人分类: 埃博拉病|10357 次阅读|3 个评论

计量分析，情报利器——《情报学报》2013年第7期卷首语

huabolin 2013-8-19 14:56

任何一个学科的成果能为其他学科所承认并使用，是反映其社会价值的重要标志。信息检索是情报学对其他学科的一个重要“知识出口”。除此之外，情报学在科学计量方面也形成了强有力的学科输出。美国科技情报研究所（已并入汤森路透科技集团）加菲尔德先生研制的SCI很有影响力，已成为很多学科检索文献与开展科学评价的利器。中国科学技术信息研究所的中国科技论文引文数据库（CSTPCD）也很有影响，每年召开的中国科技论文统计结果发布会有上千人出席。南京大学编制的中文社会科学引文索引（CSSCI）也颇具影响，其创始人之一苏新宁教授获评教育部长江学者。这些都说明，计量分析有着很强的学科输出表现及社会影响力。如何针对特定的情报需求，快速地获取准确数据、高效地分析海量数据、清晰地解读系列数据是情报工作者面临的严峻挑战。应对这一挑战，需要敏锐的思维以及专业的工具与方法。在可资利用的各类工具与方法中，计量分析是相对成熟、可靠的。计量分析的对象主要包括论文、专利、科研项目、学术会议甚至科研活动本身的信息，计量分析的方法包括TOP N统计、数量分布统计、年度增长统计、关联分析、共现分析、聚类分析等；计量分析的功能包括核心作者发现、核心期刊遴选、重要机构识别、国家实力对比、前沿热点监测等，根据这些结果可以判断科学技术发展各要素及总体的现状与趋势，并进一步分析出机遇和威胁，从而把信息变成情报。《情报学报》刊发了很多把计量分析用于科技评价与情报预测方面的论文。如果只用现成的方法或工具对某一学科领域进行一系列相关分析，如期刊分布、机构分布、合作关系、高频词统计分析等，也许能产生一份情报分析报告，但若以学术论文的标准来衡量，这样的套路就不灵了。一般说，优秀的计量分析类论文应具有以下特点：使用多源异构数据进行更加全面的分析与监测；提出新指标或新方法并用充分的数据进行验证；发现新的规律或修正前人认识的不足以更好地指导实践。长期从事计量分析研究的机构或个人，都对以下两个方面特别重视：一是选择特定的研究领域，建设自己的数据库并维护下去。中国科学技术信息研究所若不是从1987年起就建设CSTPCD，就不可能建立起在科学计量学领域的相对研究优势；荷兰莱顿大学科技元勘研究中心（CWTS）若没有在WoS数据库基础上建立起自己的专用数据库，就不可能在科研绩效评价和大学评价方面在世界上独树一帜。二是开动脑筋活用常规数据，好比利用同样的食材和佐料，有人只能做出家常菜，有的高级厨师却能创制出脍炙人口的名品佳肴。计量分析是一把利器，我们需要将这把利器锻造好、打磨好、利用好。 2013-7计量分析,情报利器.pdf 化柏林武夷山

个人分类: 情报学报|4159 次阅读|0 个评论

我国新能源汽车及其轻量化材料科技成果计量分析

Sibiling 2011-9-20 13:00

我国新能源汽车及其轻量化材料科技成果计量分析吕鹏辉陆科等摘要：新能源汽车是我国“十二五”期间重点发展的战略新兴产业之一，轻量化材料的发展对新能源汽车的发展起到很重要的作用。本文利用文献计量、数据对比、数值模拟计算等分析方法，对 2000 年以来我国及中国科学院的新能源汽车及轻量化材料科技成果产出数量、年度分布等进行计量分析。尤其对碳纤维、碳纳米管和树脂科技成果的年度发展态势、完成地域分布、主要完成机构等变化规律进行分析比较，揭示了新能源汽车轻量化材料科技成果的现状、发展前景及未来趋势。关键词：新能源汽车轻量化材料研究机构科技成果计量分析 Bibliometric Analysis of ST Achievements on New Energy Vehicles and Its Lightweight Materials in China 我国新能源汽车及其轻量化材料科技成果计量分析.pdf Abstract: New Energy Vehicles is one of the key emerging strategic industries during the “Twelfth Five-Year Plan” in China. Its l ightweight materials which were made exploratory research in several areas play an important role in automobile manufacture. In this paper, the method of bibliometrics, data comparison and numerical simulation were used to analyze the domestic scientific and technological achievements on n ew energy vehicles and its lightweight materials since 2000. The number of outputs, annual distribution, the results from all major cities, and annual distribution of carbon fiber, carbon nanotube and resinene in China as well as Chinese Academy of Sciences were carefully studied, and some develop trends were also proposed. Keywords: New Energy Vehicles; lightweight materials; research institutions; ST achievements; bibliometric analysis 随着全球能源日趋紧张，生态环境日益恶化，汽车产品正在向节能、环保、安全的趋势发展，新能源汽车目前已成为各国竞相研发的热点。而在我国，随着发展低碳经济的迫切需求，汽车材料与结构的轻量化被写入“十二五”规划纲要。我国《国务院关于加快培育和发展战略性新兴产业的决定》（以下简称《决定》）中指出：新能源汽车产业要着力突破动力电池、驱动电机和电子控制领域关键核心技术，推进插电式混合动力汽车、纯电动汽车推广应用和产业化，同时推广高效内燃机、高效传动与驱动、材料与结构轻量化、整车优化、普通混合动力技术，推动汽车产品节能。《决定》对我国新能源汽车发展提出了更高更细的要求，充分显示我国发展新能源汽车的决心。汽车的油耗主要取决于发动机的排量和汽车的总质量，在保持汽车整体品质、性能和造价不变甚至优化的前提下，通过降低汽车自身重量可有效提升输出功率、降低噪声、提升操纵性、可靠性，提高车速、降低油耗、减少废气排放量、提升整车安全性。轻量化材料对汽车的发展起着重要的作用，同时也使新能源汽车朝更高性能的方向发展。当前，国内外汽车制造中轻量化主要采取三种途径：一是轻量化的结构设计和分析，二是通过材料替代或采用新材料来使汽车轻量化，三是采用先进的制造工艺，使用基于新材料加工技术而成的轻量化结构用材。这三种发展方向都使汽车车身结构材料将趋向多种材料设计方向发展。用碳纤维和高性能的树脂基体复合而成的先进碳纤维树脂基复合材料是目前使用较广泛的一种结构复合材料。不少汽车厂家在汽车制造和改装过程中为追求极致轻量化开始尝试大量应用碳纤维增强复合材料。随着新能源汽车的发展，碳纤维复合材料在新能源汽车上在应用也将会越来越广泛。本文旨在从文献计量的角度对我国新能源汽车及轻量化材料科技成果与完成机构进行分析对比、科学计量与数据挖掘。由于轻量化材料涉及较广，只选取一类材料即碳纤维复合材料为研究对象，具体对该类材料中的碳纤维、碳纳米管和车用基体树脂材料进行科技成果计量分析。通过国家科技数据库（ CSTAD ）等科技成果信息网站系统，收集我国新能源汽车轻量化材料科技成果信息，利用文献计量分析、数据对比分析及数值模拟计算等方法，从科技成果的类别、年度发展态势、完成地域分布、主要完成机构等方面，系统描述和揭示新能源汽车轻量化材料科技成果的现状与发展态势。 1 、数据来源本文选取中国知网（ CNKI ）之《中国科技成果数据库》，为提高科技成果检索主题相关性，采用 “ 名称 + 关键词 + 成果简介 ” 的组合检索策略，以“碳纤维”、“车 * 树脂”以及“碳纳米管”为检索词对 2000-2010 年间我国科技成果产出进行检索与数据清洗，共得到 1603 条题录。 2 、计量方法本文选择中国科技成果数据库作为检索数据平台，以 TDA 和 Origin 、 MS Office Excel 2010 等统计与绘图软件为主要分析工具进行数据挖掘分析与研究。从科技成果计量分析的角度，对我国新能源汽车及轻量化材料科技成果方面我国尤其是科技成果产出靠前的中国科学院的科技成果的年度分布、机构分布等方面进行分析与研究。 3 、结果分析中国科技成果数据库对科技成果划分为科学理论成果、应用技术成果和软科学成果三大类。从图 1 可看出我国在新能源汽车技术方面科技成果类型多数为应用技术成果，科学理论成果和软科学成果较少。图 1 我国新能源汽车科技成果产出类型 3.1 我国新能源汽车及其材料成果趋势分析图 2 给出了我国新能源汽车及其轻量化材料科技成果的发展态势。 2000 到 2008 年，新能源汽车的科技成果产出从 7 项增长到 133 项，增长 19 倍；同时轻量化材料产出也增加了近 10 倍。从 2005 年到 2008 年，新能源汽车及轻量化材料的科技成果登记数量都呈现出快速扩大趋势，这表明“十一五”早中期，我国在新能源汽车及轻量化材料上的投入与产出较多。中国科学院在 2005 年后的轻量化材料科技成果产业也出现明显扩大趋势。从 2000 年以来的走势与全国总量走势大体一致， 2008 年也出现产出高峰。图 2 我国新能源汽车及轻量化材料科技成果产出趋势 3.2 我国轻量化材料科技成果登记年度分析图 3 给出了碳纤维、车用树脂和碳纳米管三种主要轻量化材料科技成果年度分布。可以看出， 2001 年开始碳纤维科技成果数量就出现快速增长的势头。 2006 年后，科技成果产出一直维持在百件以上。碳纳米管的科技成果数量在 2007 年出现飞跃，从 2006 年的 32 件增长到 81 件，并于 2008 年达到 118 件的峰值。经过调研发现， 2005 至 2006 年，美国、日本和欧洲等发达国家对新能源汽车中碳纳米管的应用研究投入加大，我国研发力量也紧随其后，再加上 2006 年是“十一五”开篇之年，因此碳纳米管科技成果出现大量增长。车用树脂基复合材料的科技成果相对较少，这说明我国在车用树脂材料的研究上相对薄弱，前十年尚未大量部署这方面研究，“十二五”期间将会迎来产出高潮。图 3 我国新能源汽车轻量化材料科技成果产出年度分布 3.3 我国新能源汽车省市科技成果领域分析通过对我国主要省市在新能源汽车的科技成果产出分析，有助于了解我国主要省市在该领域的科技地位及研发的力度，挖掘不同地区间研发力量差异，有助于将资源有效配置到合理地域并利用已有基础进行继续开发，如在图 4 中可见新能源汽车研究上地域分布地域极其不均，在我国三大直辖市北京、上海和天津，以及东部沿海的浙江省、江苏省其科技成果明显高于全国其余省市、自治区。图 4 还对碳纤维、碳纳米管、车用树脂材料已有成果登记的地区进行结果统计，重点对我国北京市、上海市、江苏省等 9 个省市进行了轻量化材料技术领域构成计量分析。结果发现各主要省市中碳纤维研发成果占据主体地位，这也与近几年信息技术研究热点基本吻合。碳纳米管的科技成果产出来自北京市、上海市和浙江省的较多，车用树脂的科技成果在黑龙江占有较高比例。经过调研发现，这些省市都成立了相应的产业基地帮助进行成果转移转化，可以看出其未来发展以至产业化已有较为雄厚的成果基础。图 4 我国主要省市科技成果领域分布 3.4 中科院轻量化材料科技成果年度分析图 5 给出了中科院新能源汽车轻量化材科技成果登记的年度变化趋势。可以看出，在 2007 年、 2008 年的科技成果登记量增长较其他年度显著，这显示出中科院在新能源汽车轻量化材料技术上研发投入主要分布在近三年而且呈现良好的发展态势，通过年度对比可以看出，碳纳米管和碳纤维在近年发展迅猛，而车用树脂则科技成果产出较少，处于研发起步阶段。图 5 我院新能源汽车轻量化材料科技成果产出年度分布 3.5 新能源汽车轻量化材料科技成果分析 3.5.1 碳纤维科技成果信息分析碳纤维是指含碳量高于 90 ％的无机高分子纤维。它是由有机母体纤维 ( 聚丙烯睛、粘胶丝或沥青等 ) 采用高温分解法在 1000 ～ 3000 ℃高温的惰性气体下碳化制成的，是一种力学性能优异的新材料，比重不到钢的 1 ／ 4 ，能像铜那样导电，比不锈钢还耐腐蚀，而其复合材料抗拉强度一般都在 3500Mpa 以上，是钢的 7~9 倍，抗拉弹性模量为 23000 ～ 43000Mpa 也高于钢。碳纤维按其原料可分为三类：聚丙烯腈基 (PAN) 碳纤维、石油沥青基碳纤维和人造丝碳纤维三类。表 1 为碳纤维领域中主要成果完成机构的科技成果登记总量（科技成果登记总量大于 15 的部分）。从科技成果登记总量来看，中国科学院是碳纤维技术领域主要科技成果的完成机构，同时在近三年的科技成果登记量均占到该研发机构在该技术领域的科技成果登记总量的 46% 以上，是碳纤维技术领域中科技成果创造的活跃者；其他多数登记机构的技术活跃度也达到 30% 以上，表明该技术领域具有较强的技术吸引力。在碳纤维技术的应用技术成果方面，中国科学院最多达到 77 项，其次是哈尔滨工程大学与东华大学为 20 项以上，其余机构在 20 项以下。这表明中国科学院非常注重对碳纤维技术应用研究，仅金属所成果产出就超过 20 项。表 1 碳纤维科技成果完成单位及产出数量分布序号全国科技成果登记机构数量 1 中国科学院 77 2 哈尔滨工程大学 23 3 东华大学 20 4 山东大学 16 序号中科院院属登记机构数量 1 金属研究所 22 2 山西煤炭化学所 14 3 化学研究所 8 4 长春应用化学所 5 3.5.2 车用树脂科技成果分析树脂基复合材料是指以热固性树脂如 PP 聚丙烯树脂、 ABS 树脂、酚醛树脂、乙烯基酯树脂等为基体，以玻璃纤维、碳纤维、芳纶纤维、超高相对分子质量聚乙烯纤维等为增强材料，以填充剂、增韧剂抗氧剂等为辅助材料制成的复合材料。表 2 为车用树脂领域中主要成果完成机构的科技成果登记总量（科技成果登记总量大于 2 的部分）。从科技成果登记总量来看，大庆华科公司是车用树脂技术领域主要科技成果的完成机构。在车用树脂技术的应用技术成果方面，大庆华科公司最多达到了 18 项，其次是中科院，为 14 项。在中国科学院院属机构中，化学研究所、广州化学研究所在车用树脂材料上取得了较多科技成果。表 2 车用树脂科技成果完成单位及产出数量分布序号全国科技成果登记机构数量 1 大庆华科公司 18 2 中国科学院 14 3 四会互感器厂 6 4 清华大学 3 序号中科院院属登记机构数量 1 化学研究所 5 2 广州化学有限公司 3 3 长春应用化学研究所 2 3.5.3 碳纳米管科技成果分析碳纳米管的结构可以看成是由碳原子形成的石墨烯片层卷成的无缝、中空的管体。石墨烯的片层一般可以从一层到上百层，含有一层石墨烯片层的称为单壁纳米碳管，长度一般在微米量级，最长者可达数毫米，它一般具有惊人的强度和导热、导电能力，可利用在新能源汽车上。表 3 为碳纳米管领域中主要成果完成机构的科技成果登记总量（科技成果登记总量大于 10 的部分）。从科技成果登记总量来看，中科院是碳纳米管技术领域主要科技成果的完成机构。在碳纳米管技术的应用技术成果方面，中科院最多达到 96 项，其次是清华大学，为 34 项。中国科学院是碳纳米管技术领域主要科技成果的完成机构，占比达到了 23% ，是碳纤维技术领域中科技成果创造的活跃者。在中国科学院院属机构中，金属研究所、上海硅酸盐研究所以及物理研究所在碳纳米管材料上取得了较多科技成果达到了 25 和 13 项，是中科院主要产出机构。表 3 碳纳米管技术成果完成单位及产出数量分布序号全国科技成果登记机构数量 1 中国科学院 96 2 清华大学 34 3 浙江大学 19 4 北京大学 14 序号中科院院属登记机构数量 1 金属研究所 25 2 上海硅酸盐研究所 13 2 物理研究所 13 3 成都有机化学公司 10 结束语本文通过数据统计与计量发现我国新能源汽车及轻量化材料的科技成果的基本态势为：第一，我国新能源汽车及其轻量化材料科技成果以应用技术为主，比例超过九成；科学理论和软科学方面的成果较少，二者的占比不到一成；说明我国新能源汽车及其轻量化材料领域中，实践应用为该领域发展的最主要推动力。但展望未来发展态势，应用技术的广泛拓展也需要更多理论研究作为基础和铺垫，因此理论方面的研究成果也亟待取得长足的发展。第二、近三年是新能源汽车科技成果的主要产出年份，说明我国早在“十一五”末期就开始着手发展新能源汽车，随着新能源汽车的发展轻量化材料也得到相应的发展。第三、我国与中科院在新能源汽车和轻量化材料上的发展趋势基本一致，中科院在该领域充分发挥了其科研“国家队”的重要作用；第四、通过地区分析可以看出，在碳纤维方面各个省市都保持了相当大的研发比例，说明碳纤维是目前的研究热点，碳纳米管的科技成果产出来自北京市、上海市和浙江省的较多，而车用树脂的科技成果则在黑龙江占有较高比例。第五、中国科学院、清华大学、浙江大学、哈工大等是主要产出机构，中科院在碳纤维和碳纳米管研发方面优势明显，但在车用树脂方面中科院与大庆公司差别不是很明显。通过分析可以看出，各机构在车用树脂方面研发较为薄弱，在我国“十二五”期间普遍有待加强，以最终达到《决定》中的既定目标。参考文献：国务院 . 国民经济和社会发展第十二个五年规划纲要 . http://www.gov.cn/2011lh/content_1825838_4.htm. 2011-3-16. 国务院 . 国务院关于加快培育和发展战略性新兴产业的决定 . http://www.gov.cn/zwgk/2010-10/18/content_1724848.htm. 2010-10-18. 汽车轻量化先进材料纵览 . 汽车零部件， 2010 ，（ 3 ）： 37-39 冯奇 . 汽车的轻量化技术与节能环保 . 汽车工艺与材料， 2010 ，（ 2 ）： 4-11 姜超 . 汽车轻量化材料及成形技术 . 汽车工艺与材料， 2008 ，（ 12 ）： 9-14 杨忠敏 . 低碳经济带来轻量化碳纤维新材料的发展机遇 . 化学工业， 2011 （ 2-3 ）： 1-5 曾大新 . 碳纳米管在汽车上的应用 . 湖北汽车工业学院学报， 2006 ，（ 3 ）： 23-27. 李惠生 . 车用树脂基复合材料结构件的应用研究 . 化学与粘合， 2010 ， 32 （ 3 ）： 66-71 高波 . 碳纤维及其复合材料的发展和应用 . 机电产品开发与创新， 2010 ，（ 4 ）： 36-39 李军 . 碳纤维及其复合材料的研究应用进展 . 辽宁化工， 2010 ，（ 9 ）： 990-992 杨孝文 . 碳纳米管可能改变世界的八种方式 . 百科知识， 2011 ， (2) 我国新能源汽车及其轻量化材料科技成果计量分析.pdf

5129 次阅读|0 个评论

Web结构化信息及其挖掘

bruisefree 2011-9-15 17:00

互联网信息生，应该说都是界于结构化与非结构化之间。互联网信息的概念过泛，这里限定在 Web 网页信息及其链接网络所承载的信息，或者叫做 Web 信息更为合适一些。关于 Web 信息的挖掘研究，各个学科研究重点有些不同。大的来看， Web 挖掘（ Web Mining ），主要有 Web 内容挖掘、 Web 结构挖掘和 Web 使用记录挖掘。计算机科学，强调如何利用计算机技术自动得到有用的信息；而情报学，则更为偏重这些信息是什么，怎么让它更为有用；相应地其他学科研究也有自己的特色。从最近的技术发展和应用来看，我更倾向于将任何非结构化的信息，看作是结构化的信息。 NoSQL 之美，也逃不过结构的骨干；社交网站更像一个网络信息组织系统，只是组织方式发生了变革； Web 链接，也有结构化表示方法； Web 的 HTML 也能抽取出核心的结构要素。似乎结不结构在于如何看待与分析了，个人觉得目前对于非结构的信息转变为了结构信息才更有研究价值，研究也更为方便。最近有一些关于 Web 信息结构化处理的想法，先记在下面。首先， Web 结构化信息的搜集。国内计量学喜欢对一些结构性较强的数据进行分析，其原因之一在于这些信息获取非常容易， ISI 、期刊网等等说到底也都是关系数据库中的数据，其结构性非常强，数据获取比较容易。在 Web 信息获取方面，链接信息结构性也比较强，似乎也可以利用现有的一些网络计量理论进行分析。但链接信息，似乎是网络中比较外在的数据，对于 Web 网页内容呢，是不是也有结构化的信息可以采集并进行分析？这一方面，深网、垂直搜索引擎等已有所研究，主要还是数据库信息的 Web 呈现方式。一般来说，其采集的信息在一个 Web 页之内。利用相关的一些数据采集软件即可实现，如火车头、 htmlclient 、 htmlparser 等，不算难但也并不是随便就能使用的。而对于一些涉及多个 Web 页、更为宏观一些的结构化数据呢？目前这方面的分析似乎不太多，比如说社交网站中的数据采集，需要涉及用户关系的采集、核心分析对象（如日志）的采集等，并不是在一个网页内就能实现的。这恐怕只有编程实现了。当然，如果有数据库数据，那么也不用去采集。可惜的是，这方面开放的数据集很少见，需要看研究的具体领域，现在关于标签数据集、评论数据集等还有一些。其次， Web 结构化信息的分析方法。说到分析方法似乎都逃不过计量和语义了，语义难度大，现实应用较少，计量分析（这里理解为利用数理原理进行分析的方法）内涵丰富，研究较多。个人觉得，词频分析、共现分析、基于图论的分析方法，都属于这个范畴。词频分析的难点，也是这一方面分析的基础性难题，就是“词”的确定。中文中需要分词处理，特定领域（ domain ）需要特征词提取，每一个问题都是大问题，由计算机全自动处理能够取得一定的效果，但似乎都逃脱不掉人工标注，尤其是在情报学领域的研究，似乎人参与的部分所占比例更大，计算机科学则在尽力解决如果让人参与得更少。现在的方法热点，也集中在寻找一种更好地数理理论模型，来解决具体领域的一些问题，揭示存在和发展规律（最近似乎都喜欢用“机制”、“演化”这样的词）。最后， Web 结构化信息的分析目的，这个也是情报学领域里研究的目的吧。通过 Web 信息挖掘，能够为“人”带来什么？个人了解得并不是很多，胡乱谈一通。从服务角度讲，提供协同服务、集成服务、个性化服务是热点；从知识角度讲， Web 知识发现、知识组织方式、知识形成和演化规律；从人的角度，研究网络用户兴趣、认知行为、选择行为、检索行为、交流行为、分享行为等等；从宏观管理的角度，有舆情监测；更细粒度的一些有意见挖掘、情感倾向性分析、话题跟踪与监测、主题识别、分类、聚类等任务，而这些任务主要是计算机领域在解决。对于 Web 结构信息的研究，有一些倾向于对某个或某些特定领域进行深入的分析，例如 Web2.0 环境下的科学研究的知识交流和知识共享、学术博客的知识组织和整合模式、网络学术社区的信息聚合与共享模式研究等。有些奇怪的是，情报学研究在选择研究领域时，似乎总喜欢围绕“知识”本身的相关领域。另外，部分研究比较喜欢新的技术，比如 Grid Computing 、 Distributed Computing 、 Linked Data 、 Cloud Computing ，而往往题目是 XXX 在 XXX 中的应用，俨然一副应用科学的样子，还是深入一些好。

个人分类: 科研杂想|3272 次阅读|0 个评论

计量分析类论文如何创新?

热度 5 huabolin 2011-5-4 16:39

目前，主题型计量分析类论文已比较多，常规的统计包括发文量年度增长统计分析、作者统计分析（核心作者与作者合作）、期刊统计（核心期刊与期刊学科）、机构统计（重要机构与机构类型）、关键词频次统计（绝对统计、相对统计、累积量统计等）、基金资助统计等。但是要想有所创新或有亮点的话，可从以下几个方面考虑：一、数据来源方面：异源数据的融合： – 万方与同方的融合 – SCI 与 EI 数据的融合异构数据的集成 – 期刊论文、学位论文、会议论文、专利、图书、项目信息、会议信息多语数据对比 – 中文、英文、日文、法文、德文、俄文、阿拉伯文等多语数据对比分析二、研究方法方面：提出新指标如 h 指数、下载指数等。使用多重指标体系对指标进行加权三、结果解析方面：规律的总结验证先前的错误并进行修正异常点发现新关系的发现

个人分类: 文献计量|4545 次阅读|8 个评论

中信所研究生《情报分析技术》第四次课

热度 2 huabolin 2011-3-24 09:47

本次课为实验课，通过实验掌握文献题录信息的预处理、数据过滤与筛选、数据拆分与提取等技术。本技术与方法适用于 CNKI 、万方、维普、 WebofScience 、 PubMed 、 MedLine 、国家知识产权局专利信息、国家图书馆的图书目录、国家自然科学基金项目信息等。以上信息，处理流程与思路基本一致。本实验以 CNKI 的期刊论文题录数据为例，在 excel 中编写 VBA ，使用 For 循环、 if 语句及三个字符串处理函数实现所有的操作。当处理其他来源的信息时，程序结构基本不变，只需要调整参数即可。具体内容包括：行列转换、数据过滤与筛选、拆分与提取。任务一：行列转换难度指数： * 1 ．待解问题：网络采集的文献题录信息的详细记录都是单列的，需要转换成二维表格形式。 2 ．问题分析：题录信息按照行数的形式分为两类：一类是每条记录有固定的行数，如 CNKI 、万方、维普等，多个作者或者多个关键词都在一个单元格内；一类是每条记录的行数不固定，如 SCI 数据（ Web of Science ），作者、关键词等信息分在不同的行内，共同使用一个字段名称。 3 ．解决方案：对于有固定行数的题录信息可以通过行数除以字段数进行行列转换；而对于行数不固定的题录信息可根据字段名称来识别。任务二：数据筛选难度指数： ** 1 ．待解问题：会议通知、征稿启示等非正式文献题录信息需要过滤。从不同数据库来源的同类数据需要滤重。例如，有些数据 CNKI 上有，有些数据在万方上有，而这几年纷纷与数据库商签独家的期刊越来越多。针对一个科研课题的文献分析，使用单一数据源的数据难免有疏漏，需要使用多个数据库配套使用，把相关的数据集成起来，在数据集成的过程中，需要对重复的数据进行过滤。 2 ．问题分析：非正式文献题录信息一般没有作者，有些信息具有关键词。不同来源的信息字段数可能不一样，字段名称也不尽相同。但记录的值是一样的。 3 ．解决方案：对于非正式文献题录信息，可以把作者字段为空的数据过滤掉。如果字段名称不一样，则首先进行字段的映射处理。对于文献题录信息，重复的数据有以下几种判断方法。第一种方法：使用 DOI ， DOI 是惟一的，只要 DOI 相同，则可以进行滤重，但并不是所有数据都有 DOI ；第二种方法：标题 + 作者，同一作者一般不会发表同一标题的文章，而重名作者发表同一标题的文章概率也非常小；第三种方法：期刊 + 年 + 期 + 标题，也可以确定一条信息，某种期刊上一般不会发表同一标题的文章，但不能使用期刊 + 年 + 期 + 作者，对于有些期刊的专题文章，有的作者同时发两三篇的。任务三：数据拆分（ SCI 数据不需要拆分）难度指数： ** 1 ．待解问题：作者、关键词、单位等信息需要拆分才能统计。机构信息中包含单位名称、城市名、邮编等多种信息，数据可以再分，不符合 1NF 。 2 ．问题分析：一篇文章有一位或多位作者，一篇文章有多个关键词。作者与作者之间，关键词与关键词之间存在分隔符，但是分隔符并不统一，有的是分号，有的是逗号；有的是全角，有的是半角；有些作者或关键词末尾也有分隔符；有些末尾没有。机构信息与城市名之间有分隔符，例如空格；而城市名与邮编之间有的有分隔符，如逗号，有些则没有分隔符。城市名的长度是不确定的，例如北京、哈尔滨、乌鲁木齐，还有些不规范的数据，如河北保定等。邮编的长度是固定的，对于中国大陆，都是 6 位数字编码。 3 ．解决方案：把各种可能出现的分隔符统一替换成一种分隔符，并且把末尾都统一加上分隔符，然后利用分隔符进行分割处理。对于机构信息，可以先从后面把 6 位数字编码的邮编取出来，然后去掉邮编前面的分隔符（标点符号），然后再利用分隔符把作者单位与城市名分别提取出来。

个人分类: 文献计量|4636 次阅读|3 个评论

中信所研究生《情报分析技术》第三次课件

热度 1 huabolin 2011-3-7 13:57

上次课讲述了信息采集与批量获取问题，本次课就获取的信息如何分析展开讲解。在众多的分析方法中，计量分析是一种关键技术与方法，本讲重点讲述计量分析如何实现？第一节：计量分析与情报；情报乃情况之报告。情况包括哪些呢？从空间上讲包括他方与本方情况；从时间上讲包括过去的情况，现在的情况以及将来的情况。对于过去的情况，我们通过评价计量分析、主题演化分析等方法进行梳理；对于现在的情况，我们通过情报采集系统、话题识别跟踪、科技热点监测等技术进行掌握；对于将来的情况，我们通过发展趋势预测、技术预测预见等方法来实现。第二节：计量分析软件与系统介绍与评述 ISI 、 STADS 等计量分析系统， endNote 等参考文献管理软件， TDA 等专利分析软件， Pajek 、 CiteSpace 等信息可视化软件。第三节：计量分析流程与技术计量分析流程与技术包括数据的预处理、数据拆分与提取、统计与分析等三大过程。数据预处理包括不同数据来源的数据格式转换、通知类文献的过滤等；数据拆分涉及作者、关键词等字段的拆分；统计与分析包括 TopN 统计、数量分布统计、年度增长统计、关联统计等各种类型的统计。第四节：计量分析论文撰写介绍各种类型的计量分析类论文，包括主题计量型、资源获取型、预测分析型、对比分析型、指标验证型。讲述计量分析类论文的结构与写作手法等。本次课课件：第三讲_信息计量分析技术.pdf

个人分类: 情报探讨|4027 次阅读|1 个评论

书评：《信息分析的核心》之信息分析

热度 2 huabolin 2011-3-2 10:46

陈功编著的《信息分析的核心》一书已由新星出版社于 2010 年 7 月出版。本书在信息分析实践的基础上，从情报学和信息分析的原理出发，利用大量详实的案例，全面阐释了信息分析的关键与核心，强调了两个观点：发现和预测是信息分析的关键；应用训练是情报学这一应用科学的根本。《信息分析的核心》从原理、方法、实践三个层面对信息分析的核心进行了论述，本文则从形式、内容、思想三个方面对《信息分析的核心》一书进行分析述评。 1 形式分析 1.1 洒脱的行文本书由原理、方法、实践三编构成，其中每编又由若干篇观点鲜明的小文章组成，其中原理编有 41 篇，方法编有 35 篇，实践编有 21 篇，共 97 篇。全书没有划分显性的章节，也没有标注序号，对于专业书籍，使用这种以问题为引子的方式并不多，颇有散文集的方式，感觉新颖独特，也印证了作者喜欢“天马行空”的性格。 1.2 统一的阵型对于每篇小文章，采用理论铺垫与观点陈述、案例分析论证、结论三部分的论述模式。从字数上来看，理论铺垫或观点陈述大约占 40% ，案例分析说明论证部分大约占 50% ，最后的结论部分大约占 10% ，基本上符合“ 451 ”阵型。本书共有 97 篇文章（不包含自序与后记），这些文章的标题按照特征可以分为三类，即：提问型标题、主题型标题、观点型标题。各类型标题数量分布如表 1 所示。表 1 标题类型数量分布提问型主题型观点型合计原理编 13 15 13 41 方法编 8 21 6 35 实践编 10 7 4 21 合计 31 43 23 97 提问型标题共有 31 个，例如：“观点是如何形成的？”、“为什么说研究体制是终极武器？”、“战略开支还敢不花钱？”等。主题型标题共有 43 个，例如：“信息分析与趋势判断”、“思维训练与应用学科”、“信息分析的四种工作模式”等。观点型标题共有 23 个，例如：“战略必须依靠信息分析的支撑”、“‘思维实验室’可以创造奇迹”、“‘长官意识’有害于信息客观性”。当然有些问句（特别是反问句）也带有明显的观点性，例如“美国人不了解阿富汗？”暗含着“美国人很了解阿富汗”的意思。 1.3 实用的附录书中把引用文献与参考文献进行了区分。引用文献以脚注的形式列在了相应页面的下面，共引用 89 处，包括图书、论文、报纸、网页、讲话等多种文献形式，其中包昌火的《情报研究方法论》、陈功的《分析的艺术》等文献多次被引用。参考文献列在了书的末尾，共 72 篇，全部是图书，没有其他形式的文献，所列参考文献是对作者构思产生重要影响的文献。书的后面附有信息小词典，这些词汇解释很有用，基本上是作者在实践过程中的认知，而并非学术定义。一共列了 81 个词汇，词条没有标号，也没有序化，至少不是按照字顺排列（包括拼音顺序或笔画顺序）的，也不是按文中出现顺序进行排列的，也不是按照内涵大小依次排列的，也没有按照词条分类进行排列的。索引是著书的一项重要内容。外文的图书附录一般会有术语索引，中文硕博士论文一般会有图表索引（或者是图表目录）。本书中一共出现了 118 处案例，如果能在附录里做个案例索引，那么这本书的特色将会更加突出。 2 内容分析 2.1 经济预测优势尽显作者在业界有几个较为著名的关于形势方面的趋势判断，而书的写作成稿过程又恰逢金融危机的大环境，因此书中大量使用金融危机及经济预测方面的案例。例如，股市的趋势预测（自序 V ）、 2008 年全融危机的预测（ P148 ）、钢铁行业形势（ P93 ）、华尔街金融风暴（ P95 ）、迪拜危机（ p79-81 ）、 2008 年美国白宫和国会对汽车行业的援助（ P248-249 ）、 2010 年中央经济工作会议后的经济形势判断（ P262-265 ）等，通过这些切合时代的真实案例，充分体现了作者及其团队在经济预测方面的独特视角与成功模式，也反映了作者的信息敏感性以及与时代紧密结合的特征。 2.2 案例分析无处不在几乎每篇文章都有案例，有些案例是作者独创的或亲身经历的，有些案例是广为传播但作者从不同的视角进行了分析。书中案例从来源上讲分为两类，一类是安邦案例，例子说明过程中使用“在安邦研究总部”或者“我们在进行 … 分析时”等指示语。另外一类是非安邦案例，对于非安邦案例，作者往往也加上自己的观点、评论。本书共出现了正规案例分析 118 处（文字在百字以上，有分析过程，用于证明作者观点的案例），篇均 1.36 个，也就是说平均起来，每篇文章都会有一个或多个案例。案例数量分布如表 2 所示。表 2 书中案例数量分布非安邦案例安邦案例合计原理编 35 13 48 方法编 31 10 41 实践编 25 4 29 合计 91 27 118 其中，安邦案例又分为三类，即安邦的信息分析与咨询案例、安邦人的实证考察案例、安邦的内部管理与学习案例。信息分析与咨询案例是安邦的产品，如讲到“无证不立、孤证慎立”时用到安邦研究总部在 2009 年关于中国钢铁行业的经营态势分析。安邦人的实证考察案例是指安邦人员在进行研究过程中的一些例子，例如在讲到“成才的关键是知识能力训练”时讲述了“非典”时期安邦两位人员参加科技部一个会议时不同的笔录所反映出知识能力的区别。安邦的内部管理与学习案例指安邦公司在研究过程中所建立的平台、形成的学习方法、研究套路等，如讲到“英雄不问出处吗？”时指出安邦研究平台的每一条信息旁边加的搜索引擎链接按钮。通过这些案例，读者可以深入地了解安邦人员、安邦体制、安邦产品，这也是对一家公司进行信息分析的三大要素。 2.3 新颖观点层出不穷书中不仅提出了一些“思维训练”、“思维实验室”、“窗口分析法”等新的概念，也从实践的角度阐明了作者的一些观点。这些观点可以分为现象评判型、概念关系型、工作指导型等三种类型。第一类是现象评判型，例如：“缺乏逻辑的证据，只是现象；没有证据的逻辑，实际上只是猜想”、“现在缺的不是方法，而是训练”、“信息分析按照情报学理论来解释，永远做的是一种黑箱系统的分析”。第二类是概念关系型，例如“报告是供参考的，简报才是参与决策的”、“战略是框架，政策是文件。战略因人而定，政策因事而定”。第三类是工作指导型，例如“信息分析人员在一个很长的时间里面，保持研究状态，汇总信息资源，通过逐渐逼近的方式，对各种动向和趋势，做出自己的趋势判断，完成预测”、“趋势判断主要依靠两样东西搞研究。一是跟踪研究体制，另一种是运作模式识别”等。 3 思想分析 3.1 系统贯主线尽管封面和扉页上印有 “ 一流学者 ‘ 发现 ’ 问题，二流学者 ‘ 解决 ’ 问题，三流学者 ‘ 讨论 ’ 问题，四流和不入流学者 ‘ 研究 ’ 问题 ” 。但全书并非按照这样的路线来组织，书中也没有使用大量篇幅来论证上述观点（只是在著作开篇《大师安在？》一文中进行论证），实际上贯穿本书主线的是系统科学思想。例如：“信息分析的四个关键因素：资源（ Input ）、工具 (Process) 、可验证 (Output) 、反应（串联起 IPO ）”、“信息分析的意识流，是逻辑，是证据，是系统模型，所强调的不外乎是在客观证据的基础上，建立合理的逻辑关系，最后形成一个系统，用来解释事物和发展规律”、“信息分析是实证科学，从证据开始，到证据结束”、“逻辑、证据和系统模型是信息分析的三大核心要素”等等，这些观点及论述都体现着系统科学或系统论的思想。作者十几年的程序实践让其认定系统论不仅仅是思想，也是重要的实践和现实。围绕着信息分析的资源 (Input) 、工具 (Process) 、可验证 (Output) 、反应 ( 串联起 IPO) 这四个关键因素作者展开了诸多论述，如图 1 所示。 (注:此图并非书中原图,而是本人读完此书之后绘出的图。) 3.2 实践出真知全书虽然分为了理论编、方法编与实践编，但在理论编与方法编部分，也大量使用案例，几乎在每一个理论阐释与方法解析过程中都举例说明或用案例论证。作者有着丰富的信息分析实践，在实践过程中有很多体会，而这种实践以及实践中所产生的体会对于信息分析与情报工作从业人员具有启发与借鉴意义，对高校情报学专业的师生也具有很强的指引作用。因此，《信息分析的核心》一书架起理论与实践相结合的桥梁，也是解决情报学“理论与实践脱离”这一问题的有益尝试。作为一名企业家，身处竞争激烈的行业，敢于把多年的从业体会揭示出来，其精神难能可贵，也足以看出作者对这个行业及学科的喜爱程度。针对情报学这样一门应用学科，希望有情报实践的人多讲讲课、写写书，而有情报理论的人多多参与实践、从实践中总结提炼理论并把理论用于实践。 3.3 十年磨一剑作者用了将近十年的时间，把情报实践中的点点滴滴汇聚起来，完成了这本可读性很强的“小书”，可谓用心良苦、字斟句酌。十年磨一剑，一剑刺喉，剑指信息分析的核心。信息分析的三大核心要素是逻辑、证据和系统模型。关于逻辑的论述，包括“逻辑与分析逻辑”、“分析逻辑是柄思想之剑”等。关于证据的论述，如“就事论事说实证”、“从证据到证据的分析”、“无证不立，孤证慎立”，“事实永远只能接近”等。关于系统模型，有“什么是系统？”、“世间万物皆为系统”、“‘系统语言’的基础有哪些？”、“信息分析的系统工具”、“只有数学模型才是模型吗？”等等。除此之外，作者还阐述了信息分析三样最宝贵的东西：各种各样的流程、跟踪研究的模式、技术系统平台，这三样东西形成的研究体制最为重要，是信息分析的终极武器，这也是安邦咨询的研究体制。在书名里使用“核心”一词，足以反映作者具备扎实的理论功底、丰富的实践经验以及独到的思想见解。 4 结束语《信息分析的核心》一书运用信息分析与情报学理论来解释一些现象，并运用大量的案例来论证信息分析与情报学的理论与观点，是一本情报理论与实践结合紧密的好书。能让读者逐字逐句地读，并建立全文倒排索引，采用内容分析法的方式撰写书评，的确是一本有特色的佳作。不包括类比与没有进行分析的简单举例。类比如 118 页的“电影里面有很多终极武器，飞天入地 … ”，简举例如 117 页的“如物理学中的光谱分析方法、化学中的比色方法”等。注: 原文发表于《情报理论与实践》2011年第1期：P126-128

个人分类: 著作评析|6932 次阅读|3 个评论

2010年第二期计量分析评价与前沿热点监测高级研讨班 12月5-10日

xupeiyang 2010-11-8 15:08

博主推荐：在海量信息时代，信息专业人员和科研人员只做文献检索已经不够啦，必须对检索结果进行分析，将分析评价结果用于科研决策。这个研讨班的学习内容非常实用，重点在于计量分析能力、热点监测能力、信息可视化能力以及论文撰写能力的培养。 2010年第二期计量分析评价与前沿热点监测高级研讨班详见： http://www.sciencenet.cn/m/user_content.aspx?id=381640#t1 一、研修内容计量分析的软件与系统万方数据的STADS、中国知网（清华同方）的文献计量分析系统、ISI的web of science，专利分析软件TDA，参考文献管理软件EndNote、RefViz、NoteExpress等。数据源的预处理异源异构数据的滤重、融合、归一化、重名处理等。数据源的快速批量获取文献题录数据（中国知网、万方数据、SCI、EI、PubMed等）、专利数据、项目信息（如国家自然科学基金）、调查问卷等。数据的统计分析计量的指标与类型，TopK统计、数量分布统计、年度增长统计、关联统计分析等。论文的撰写期刊载文量、核心作者、最新热点监测、期刊偏好、国内外对比分析等等。信息可视化基于引文分析、合作分析等的关联图、树图、云图、时序图的绘制，社会网络分析等。

个人分类: 科技评价|2783 次阅读|0 个评论

[转载]2010年第二期计量分析评价与前沿热点监测高级研讨班

huabolin 2010-11-8 13:38

2010年第二期计量分析评价与前沿热点监测高级研讨班内容简介时间：2010年12月5日至12月10日（6天）地点：北京数据庞杂繁多，信息琳琅满目，知识却相对匮乏，如何从海量信息中分析出有价值的知识或情报，如何把握最新前沿热点问题，这需要敏锐的思维以及专业的工具与方法，计量分析是一条成熟的路径。文献题录信息、专利信息、访问日志信息、调查问卷信息，大量的信息中存在哪些规律，如何看待与使用这些规律，是体现信息分析能力的标志之一。如何针对成千上万条信息进行统计分析，迅速找出核心作者、主要机构、区域分布、最新热点、趋势变化等重要信息，并在一周内快速形成一份研究报告或学术论文，这是科研选题的重要一环。我国科技情报界、科研管理部门在长期的研究工作实践中，在计量分析的理论和实践上有较为丰富的积累。为了帮助广大专业人员尽快提高信息分析能力，提高各行各业对于信息的利用能力，中国科学技术信息研究所定于2010年12月5日至12月10日在北京举办2010年全国计量分析评价与前沿热点监测高级研讨班，重点在于计量分析能力、热点监测能力、信息可视化能力以及论文撰写能力的培养。本次培训将邀请国内资深专家和教授讲授，并组织与会代表进行研讨和交流。一、研修内容计量分析的软件与系统万方数据的STADS、中国知网（清华同方）的文献计量分析系统、ISI的web of science，专利分析软件TDA，参考文献管理软件EndNote、RefViz、NoteExpress等。数据源的预处理异源异构数据的滤重、融合、归一化、重名处理等。数据源的快速批量获取文献题录数据（中国知网、万方数据、SCI、EI、PubMed等）、专利数据、项目信息（如国家自然科学基金）、调查问卷等。数据的统计分析计量的指标与类型，TopK统计、数量分布统计、年度增长统计、关联统计分析等。论文的撰写期刊载文量、核心作者、最新热点监测、期刊偏好、国内外对比分析等等。信息可视化基于引文分析、合作分析等的关联图、树图、云图、时序图的绘制，社会网络分析等。研讨与交流为达到更好的培训效果，有条件的代表请自带笔记本电脑（最好具备无线网卡）。二、参会对象政府部门的项目管理人员、评价人员、奖励办人员；高等院校的科研处、社科处、人事处、校办公室人员；图书情报机构；统计中心、战略中心、参考咨询部、技术支持部人员；各类企业的信息中心、研发中心、战略规划部门人员。三、研讨安排 1.2010年12月5日全天报到，12月6日至12月10日全天授课及业务交流。 2.报到及培训地点：北京瑞成大酒店（北京市海淀区西翠路9号） 3.培训费：2800元（含培训资料、证书等费用）。培训费请于2010年12月3日前汇至以下帐户，并注明计量分析研讨班。户名：中国科学技术信息研究所开户行：中国工商银行北京玉渊潭支行帐号：0200232109200900593 4.食宿统一安排，费用自理。住宿：北京瑞成大酒店（标准间280元/天）四、参加培训人员请务必于2010年12月3日前将报名表返回会务组。邮寄、（邮件附件请注明计量分析-姓名）或传真返回均可。五、联系办法通讯地址：北京复兴路15号（100038）联系人电话：胡老师010-58882298；陆老师010-58882299；吴老师010-58882297；传真010-58882296。招生网址： www.istic.ac.cn 邮箱地址： kjpx@istic.ac.cn

个人分类: 文献计量|3460 次阅读|2 个评论

1998—2008年国内外本体应用研究计量分析及可视化

BlueSkyBird 2010-7-6 17:30

胡泽文王效岳山东理工大学科技信息研究所淄博 255049 运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对本体领域的历史文献进行分析，通过绘制文献数量分布图、核心关键词的共现网络，挖掘当前本体应用领域的发展趋势、概况和研究热点等信息，以期让读者对国内外本体应用领域的研究概况、趋势和热点有一个直观、清晰的认识，为以后的研究工作提供一个指引。本体共现分析计量分析社会网络分析可视化图谱亮点1：利用SQL语句统计高频关键词，利用社会化分析软件如 Ucinet 和 NetDraw 进行高频词共现分析及可视化。亮点2：结合图表分析，对共现分析所得研究热点的直观清晰和简明扼要的综述，使读者能够迅速了解到本体的应用领域概况及如何在这些领域应用？文章下载地址： 1998-2008年国内外本体应用研究计量分析及可视化.pdf

个人分类: 研究论文|6828 次阅读|2 个评论

文献计量分析研究的分类与处理流程

huabolin 2008-10-24 12:22

文献计量分析研究的分类与处理流程化柏林 ( 中国科学技术信息研究所，北京 100038) （发表于《情报科学》2007年第9期，人大复印资料全文转载）【摘要】文献计量统计分析的流程包括数据获取、数据预处理、统计计算与应用分析四大模块。数据来源分为数据库数据与网页数据，获取方式分为手工获取与自动获取。数据预处理主要是格式转换、拆分与提取，并过滤掉不符合要求的数据。统计计算按统计结果可分为 Top N统计、奇异值统计、数量分布统计、年度增长统计、其它关联统计等。 *************************************************** 论点一：应用型计量分析研究的分类：评价型计量分析、主题型计量分析、预测型计量分析、资源获取型计量分析。 *************************************************** 论点二：计量分析数据获取的三种方式：直接从数据库商获取原始数据；从数据库商网站通过检索得到检索结果，然后复制检索结果，进行行列转换后得到二维关系数据；通过改变URL的传递参数来构造URL，然后下载相关网页，从HTML网页中析取内容并存入数据库。 *************************************************** 论点三：计量分析数据处理的四步过程：数据获取；数据预处理；拆分与提取；统计计算； *************************************************** 论点四：计量分析统计分类： Top N统计、奇异值统计、数量分布统计、年度增长统计、其它关联统计。 *************************************************** 文献计量分析研究的分类与处理流程

个人分类: 文献计量|7774 次阅读|1 个评论

用VBA剖析文献计量分析研究中的统计分析技术

huabolin 2008-10-24 12:20

用 VBA 剖析文献计量分析研究中的统计分析技术化柏林 ( 中国科学技术信息研究所北京 100038) （发表于《现代图书情报技术》2007年第4期）【摘要】对计量分析研究中的统计按照统计结果进行了详细分类，然后对这些统计进行归纳分析，发现各种统计的关键技术都一样，只是对基础统计的依赖程度和输出结果的表现形式有所不同。在不支持 SQL语句的excel里用VBA进行统计，其实质变成了查找。通过本项研究，有望推动文献计量分析论文的自动生成与深入正文字段的内容分析。【关键词】　计量分析　统计分析　技术实现　 VBA 【分类号】　 TP311，G35 Anatomy of statistic analysis technology in bibliometric and analytic system via VBA Hua Bolin ( Institute of Scientific and Technical Information of China, Beijing 100038, china) 【 Abstract 】 Statistic process of bibliometric is classified by statistic result. After concluding and analyzing various statistics, It is showed that critical technology of these statistics is same, but there is some difference in dependence on basic statistic and form of output. Statistic is actualized by find and comparing in excel using VBA, which is not supported with SQL. It is expected that papers of bibliometric can be written automatically and paper text can be analyzed deeply. 【 Keywords 】 bibliometric, statistic analysis, technical implement, VBA 文献计量中的统计按照对象分为作者统计、关键词、机构统计、主题统计、分类号统计、期刊统计、地区统计、参考文献统计（不同于引文分析）、基金资助统计、篇名统计、摘要统计、正文统计。按照统计结果又分为Top N 统计、奇异值统计、数量分布统计、年度增长统计、其它关联统计。统计计算过程与类型如图 1 所示。图1 统计计算过程与类型图 1 数量初步统计初步统计从技术实现上分为顺排统计与倒排统计。顺排统计指每一步统计只针对一条记录，如一篇文章含有几个关键词 ( 篇含关键词数 ) 、一个标题含多少字 ( 标题长度 ) ；倒排统计指每一项的统计涉及很多条记录，如一个关键词出现在哪些文章里，即统计关键词在统计样本里的总频次。顺排统计一般只需要一重循环就可以了，而倒排统计往往要麻烦得多。在不能使用 SQL 语句的情况下，倒排统计变成了一个查找的过程。以作者统计为例的统计程序流程如图 2 所示。图 2 作者统计数据流程图以作者统计为例的处理过程如下：从源表里每取一个数据，就要到目标表里去找，如果已经出现，那么在相应值后加 1 ，如果没有找到，则把该作者追加到后面，并初始化值为 1 。该程序需要注意的地方是对目标表必须遍历一趟才能知道有没有，所以用个布尔变量 bFind 来控制，如果找到了，置为 True ；如果没有找到，一直为 False 。也就是说相等说明找到了，不相等不能说明没有找到，只有所有的都不相等才能说明没有找到。统计程序源代码如表 1 所示。表 1 关键词统计程序源代码 1: For i = 1 To iSrceCount 2: For j = 1 To 20 3: bFind = False 4: sTemp = Trim(Worksheets(sSrce).Cells(i, j)) 5: If sTemp = Then 6: Exit For 7: End If 8: For k = 1 To iDestCount 9: If sTemp = Worksheets(sDest).Cells(k, 1) Then 10: Worksheets(sDest).Cells(k, 2) = Worksheets(sDest).Cells(k, 2) + 1 11: bFind = True 12: Exit For 13: End If 14: Next 15: If bFind = False Then 16: iDestCount = iDestCount + 1 17: Worksheets(sDest).Cells(iDestCount, 1) = sTemp 18: Worksheets(sDest).Cells(iDestCount, 2) = 1 19: End If 20: Next 21: Next 这个算法速度非常慢，当有近五万条数据时，执行时间为二十多个小时。其原因是查找过程（ k 循环）读取的是硬盘，因此把目标内容装到内存里，等操作完毕后再写回硬盘。改造前读写硬盘的次数为 iSrceCount*iCount*iDestCount/2 。在本实验中统计关键词时， iSrceCount=42989 ， iDestCount=43980 ，篇均关键词个数为 4.7 ，因此统计关键词时读写硬盘的次数为 42989*4.7*43980/2=8886084234 ，约合为 9G 次。为了提高程序执行速度，把要查找的内容装到内存里（也就是变量），执行查找，等完全操作完毕后再写回硬盘，并把查找的过程写成函数，程序代码改造如表 2 所示。表 2 改造后的统计程序源代码 1: Dim sTable(iRecCount, 2) As String 2: For i = 1 To iRecCount 3: For j = 1 To 10 4: sTemp = Worksheets(sSrce).Cells(i, j) 5: If sTemp = Then 6: Exit For 7: End If 8: iFindCol = findinArray(sTemp, sTable, 1) 9: If iFindCol 0 Then 10: sTable(iFindCol, 2) = sTable(iFindCol, 2) + 1 11: Else 12: iDestCount = iDestCount + 1 13: 　 sTable(iDestCount, 1) = sTemp 14: 　 sTable(iDestCount, 2) = 1 15: End If 16: Next 17: Next 18: For i = 1 To iRecCount 19: Worksheets(sDest).Cells(i, 1) = sTable(i, 1) 20: Worksheets(sDest).Cells(i, 2) = sTable(i, 2) 21: Next findinArray() 函数类似于系统提供的 instr() 函数。 Instr() 查找某字符串在整个字符串中的首次出现的位置，而 findinArray() 查找某字符串在整个数组中的位置。本程序的查找过程使用了顺序遍历，如果目标数据做成有序的，按字符顺序排列就可以使用二分查找；如果是按频率排序，还需顺序遍历，这样保证高频词快速找到。按字符顺序排序的情况下，插入新数据比较麻烦；按频率排序的情况下，直接在末尾插入就可以了。 2 加权统计不同位置的数据有着不同的重要性，因此有的统计需要加权。加权统计分为同字段位序加权与多字段加权。同字段位序加权是同一字段内给不同位序的值分配不同的权重，如作者、机构、分类号等都是有位序的，关键词等一般来讲是无序的。多字段加权是为不同的字段分配不同的权重，例如主题分析时为标题、关键词、分类号等字段分配不同的权重，然后利用公式进行计算求得文献的主题，同一个词在标题、关键词、摘要与正文里出现的权重是不同的。同字段位序加权是按不同的位序分配不同的权重，一般来讲，位置靠前的作者权重高。加权统计有多种算法，常用的加权统计方法有等级分配法，即按合著文献中每个作者的排名先后递减分配其权重，设合作者人数为n ，则排名第i 位的著者的权重为：。如果是加权统计，按表 2 进行计算的话，把对目标表第 2 列加 1 的地方换成 (iCount-j+1)/iSum 就可以了，当然 iCount 与 iSum 要提前求出来。由于关键词没有顺序关系，因此直接按出现次数进行统计并从大到小排列就可以了。但是统计关键词平均长度时就需要考虑是否带上频率。统计关键词平均字符个数有两种统计方法，一种是不考虑出现频率的平均长度统计，一种是考虑出现频率的平均长度统计。用每个关键词长度乘以出现频率累加后除以总关键词频数，得到带频率的关键词平均长度。关键词长度统计算法如表 3 所示。表 3 带频率的关键词长度取值 1: For i = 1 To recCount 2: Worksheets(sDest).Cells(i, 3) = Len(Worksheets(sDest).Cells(i, 1)) 3: Worksheets(sDest).Cells(i, 4) = CInt(Worksheets(sDest).Cells(i, 3)) * CInt(Worksheets(sDest).Cells(i, 2)) 4: Next 3 TopN 统计 Top N是最常用最基本的统计，如高产作者统计、高被引作者（或文章或机构）统计、高频关键词统计等，以分析核心作者、核心期刊、核心研究机构等，Top N的输出以表格式形式所列，一般不进行图形显示。 Top N统计分为两类，一类是绝对数N，不管总数据量有多少，取绝对数N，例如高产作者前50位。另一类是相对数N，这个N的值不是一个确定的数，往往根据总数据量的多少来确定，一般是数据量的百分比。例如核心期刊的确定就是按照总数据量的多少来取，或者按二八原则确定某一专题研究的核心作者。前者几乎不需要什么算法，直接取就可以了。后者的处理方式很多，有的按数据个数的百分比，有的按数据累加量的百分比。按二八原则取前N项的程序如表4所示。表 4 按二八原则取前 N 项的程序源代码 1: For i=1 to iRecCount 2: iTotal=iTotal+ Worksheets(sDest).Cells(i, 2) 3: next 4: For i=1 to iRecCount 5: iSum = iSum+ Worksheets(sDest).Cells(i, 2) 6: if iSum/iTotal0.8 then 7: iTopN=i 8: exit for 9: end if 10: next 4 　奇异值统计奇异值统计包括最长、最短、最多、最少等端点值的统计，它不同于Top N统计。Top N统计某一特征的前N项，奇异值统计的是某一特征的端点值，而且有些特征本身就比较特殊，返回的是一个值，这种特征有时是一些很特殊的需求，所反映的是个别现象或特殊情况，如字符数最多的关键词、不含英文字符与标点符号的最长的关键词是什么，有多长，篇含关键词最多的个数，最短标题的长度，用等值统计和加权统计差别最大的作者（前者是不管第几作者都按一篇计算，后者按位序乘以相应的权重，一篇文章所有的和为1，分析是否有挂名现象等）。这些统计不是没有意义，例如找出最长的关键词可以确定可以在使用关键词构成的词库对标题、摘要等字段进行向量分词时确定最大向量长度。奇异值统计不适合以任何图形形式展现。奇异值统计主要是循环比较，这种奇异值是需要根据特定的需求进行计算。如想查找标题里出现助词的最多的个数，其算法如表5所示。表 5 统计标题中助词的最多的次数程序源代码 1: For i = 1 To iRecCount 2: sSentence = LTrim(Worksheets(sSrce).Cells(i, iSrceCol)) 3: For j = 1 To Len(sSentence) 4: If InStr(j, sSentence, 的 /u) 0 Then 5: iDeCount = iDeCount + 1 6: Else 7: exit for 8: End If 9: Next 10: If iDeCountiMaxCount then 11: iMaxCount=iDeCount 12: End If 13: Next 本实验先对所有文章标题进行分词，然后进行词性标记，然后再进行查找出现的字最多的标题。经过分词与词性标记避免了的确、有的放矢等噪声的影响，最终求得的iMaxCount 就是标题里含有助词的最多的个数。 5 　数量分布统计数量分布统计主要统计数量分布关系，如实验中对图书情报学核心期刊的42,989篇文章进行统计分析，发现篇含关键词数量为三到八个的占到95%，这也要与大多数编辑部要求提供三到八个关键词有关，反过来也可以对一些规定进行验证其合理性。再者统计出四字关键词占关键词总数的41%。数量分布统计常以曲线图、柱状图、饼状图等形式展现。数量分布的统计比较简单，求标题长度分布的程序源代码如表6所示。表 6 统计标题长度分布的程序源代码 1: For i=1 to iRecCount 2: Worksheets(sDest).Cells(i, 2)=len(Worksheets(sDest).Cells(i, 1)) 3: iLength= CInt(Worksheets(sDest).Cells(i, 2)) 4: Worksheets(sDest).Cells(iLength, 7) =Worksheets(sDest).Cells(iLength, 7) + 1 5: Next 实验中把标题长度进行了数量分布的统计，发现14个字符的标题最多，达到3909篇。数量分布统计的关键是找到分布情况，而不是端点值。例如，标题长度介于8~24个字符的文章数量达到38644篇，占90%，介于5~36个字符的文章数量达到42560，占99%。论文标题长度数量分布统计如图3所示。图 3 标题长度数量分布统计图 6 　年度增长统计年度增长统计主要进行和时间有关的统计，如作者发文量的增长、关键词年度增长情况等。按年度统计可以分析新的生力军、新的研究热点，按关键词统计年度分布可以分析某项研究的生命周期，作者与关键词及年度的关系可以反映作者的研究轨迹。比较是年度增长统计的主要分析手段，无论是增长量还是增长率，都是双目运算。在年度增长的统计图中，必然要有年度作为一个时间维，这种统计常以曲线图或双柱状图，不适合以饼图形式展现。还有机构的年度分布，或者关键词按年统计并分析出关键词年增长情况，还可分析关键词与期刊或分类号与期刊之间的关系，得到期刊的偏好，以方便大家投稿。按年度统计关键词程序如表7所示。表 7 按年度统计关键词程序源代码 1: For i = 1 To iRecCount 2: iYear = Format(Date, YYYY) - Sheet5.Cells(i, 2) 3: iYearCol = iYear * 2 - 1 4: For j = 1 To 20 5: bFind = False 6: sTemp = Trim(Worksheets(sSrce).Cells(i, j)) 7: If sTemp = Then 8: Exit For 9: End If 10: For k = 1 To iYearCount(iYear) + 1 11: If sTemp = Worksheets(sDest).Cells(k, iYearCol) Then 12: Worksheets(sDest).Cells(k, iYearCol + 1) = Worksheets(sDest).Cells(k, iYearCol + 1) + 1 13: bFind = True 14: Exit For 15: End If 16: Next 17: If bFind = False And sTemp Then 18: iYearCount(iYear) = iYearCount(iYear) + 1 19: Worksheets(sDest).Cells(iYearCount(iYear), iYearCol) = sTemp 20: Worksheets(sDest).Cells(iYearCount(iYear), iYearCol + 1) = 1 21: End If 22: Next 23: Next 从关键词增长可以看出当年的研究热点，其计算方法也很多。第一种是年增长量，其弊端是高频关键词会靠前，如图书馆、中国等高频关键词会轮流排在前面；第二种方法是倍数，这样上一年较小的关键词排在前面，尤其是上一年频次为1的关键词；第三种方法是增长率，用当年的频次减去上一年的频次后再除以上一年的频次，得到的是相对于上一年的增长率；第四种方法是相对增长率，用当年的频次除以当年的所有关键词总频次f1，上一年的频次除以上一年的所有关键词总频次f2，然后用f1除以f2，当然也可以除以当年的文献数，这种情况主要是考虑不同年的文献量不一样，这种方法反映关键词在当年比重的增长情况；第五种方法是当年的关键词频次减去上一年的关键词频次再除以该关键词所有年的总频次，这种方法能够反映该关键词增长的高峰期，避免了基数大的词在当年排在了前面；第六种方法是把所有上一年为低频的次年变成高频的关键词统计出来，这能反映出关键词的快速增长期，反映出新的研究热点，不同的计算方法有不同的优缺点，可以满足不同的需求。除了与时间有关的关联统计外，还可以统计关键词与期刊的关系，以及年度关键词与期刊的关系等都能反映出期刊的侧重点或期刊倾向的转变，便于大家有针对性地查资料或者投稿。技术实现上与年度增长统计大同小异。 7 结论 Top N统计、奇异值统计、数量分布统计、年度增长统计、其它关联统计基本上是在初步统计的基础上进行的。这些统计之间既有共性，又存在着差异。统计不是最终目的，最终目的是通过统计，能够做出评价、分析与预测。不论是哪种统计，关键技术都比较相似，用循环与条件判断两种程序结构加上数学运算函数与字符串处理函数，无论是主题计量分析研究还是引文分析等计量分析研究都可以自动实现。纵观统计技术，实现起来都比较简单，期望更多的非技术背景的人能够很好的使用这种统计分析技术，共同推动计量分析特别是主题型计量分析研究论文的自动化生成。虽然各种统计的关键技术相似，但不同的统计计算对基础统计的依赖程度不一样，输出结果的形式也有所不同。数量初步统计是基础，各种统计与基础统计的关系主要有两类，一类是直接在初步统计的基础上，对统计结果进行某种处理，包括数量分布统计和 Top N 统计，它们都绝对依赖于基础统计，如文章所含关键词个数的数量分布依赖于每篇文章所含的关键词数量，高产作者前 N 位依赖于每位作者的发文量；第二类是在进行基础统计的时候加上某种限定条件，包括奇异值统计、年度增长统计、其它关联统计等，它们是部分依赖于基础统计的，如年度增长统计是按年度进行分类统计，在此基础上进行不同年度之间的比较。本研究尽管实现了对小字段的全自动统计分析，但尚存在以下几个问题：第一，处理大数据量能力有限，因为excel的限制，几十万的数据量处理起来就稍麻烦一些，需要多个sheet连接处理。第二，更多的是统计，对分析做得很不够。如统计模型与信息分析方法的运用很欠缺，缺乏对一些统计结果的自动化分析，如对奇异值的自动分析。也缺乏对统计结果上升到理论层面的验证与分析。对评价、预测与挖掘等深度分析尚未涉及。预测需要数学模型和专门的方法，如趋势外推法、时间序列法等。挖掘是要从大量的统计数据中总结出新颖的、潜在有用的知识。第三，没能实现统计报告的自动生成，统计报告要自动生成，语言理解与生成必不可少。使用统计报告要比统计论文更确切一些。这些统计报告大都涉及对数据源的选取、处理过程、统计结果以及对结果的说明，作者会在后续的研究中进一步总结这些报告或论文的框架与写作规律、常用句型的统计计量等，以实现报告或论文的自动化生成。参考文献 1 娄策群．社会科学评价的文献计量理论与方法．华中师范大学出版社， 1999 ： 68 2 李长玲，化柏林．我国网络计量学研究的文献计量分析．图书情报工作， 2006 （ 9 ）： 46-50 3 化柏林．图书情报学核心期刊论文标题计量分析研究．情报学报， 2007(x) 4 蔡筱英，金新政，陈氢．信息方法概论．科学出版社：北京． 2004 ． 231 ， 239 5 粟湘．数据挖掘在科技论文分析中的应用研究．中国科学技术信息研究所． 2003

个人分类: 文献计量|4762 次阅读|0 个评论

用VBA实现文献计量分析研究中的数据预处理技术

huabolin 2008-10-24 12:16

用VBA实现文献计量分析研究中的数据预处理技术化柏林 ( 中国科学技术信息研究所北京 100038) （发表于《现代图书情报技术》2007年第3期）【摘要】首先对网页数据的特点进行简单分析，针对网页数据的特点设计统计分析的预处理流程，对每一步处理过程都用几种不同的算法进行实验，以期得到最优的解决方案。实验证明，通过减少 IO操作、提高处理粒度、适当使用词表等方法可以提高程序运行速度与准确率。【关键词】　计量分析　实现技术　预处理技术　算法　 excel VBA 【分类号】　 TP311，G35 Implementation of preprocess technology in bibliometric and analytic research via VBA Hua Bolin ( Institute of Scientific and Technical Information of China, Beijing 100038, china) 【 Abstract 】 Process of statistic is designed in accordance with character of web data after analyzing them . Each stage is experimented with some different algorithms in order to achieve optimal solution. According to experiment, efficiency and effectiveness can be improved by decreasing IO operation, increasing process granularity and using lexicon. 【 Keywords 】 bibliometric, implement technology, preprocess technology, arithmetic, excel, VBA 1 　引言从网页上复制来的题录数据，由于不符合关系范式（连 1NF都不符合），直接导入数据库处理起来也很不方便。当前的统计分析，要么直接用统计软件的工具(如SPSS、SAS等)进行统计；要么就直接做成管理信息系统并封装起来，把统计做成与导入、查询相并行的模块，对用户的开放性不够。这类论文(如文献 )的论述主要是关注数据库结构、数据访问接口或检索实现等，而对统计实现以及计量分析技术的探讨很不充分，对关注文献计量的非技术人员的启迪也较少。目前的应用型文献统计分析缺乏把二者结合起来，在相应的统计软件里进行简单的编程实现多式多样的统计，把简单的工具用活用好来解决现实的复杂问题。因此几万条之内的小数据量统计分析的量佳方案是通过 VBA在excel里进行,因为它不需要很强的计算机编程能力，只要掌握好for 循环、条件判断和常用字符串处理函数就够了。 2 数据来源格式分析中国期刊全文数据库(清华同方)与中文科技期刊全文数据库(重庆维普)都提供每页显示50条详细记录，如图1所示。数据库商的检索结果是单列的形式，把它复制到excel表格里时，字段名与记录值分布在同一列里，这是因为在显示检索结果的网页里，字段名与记录值在同一个TD/TD标签对里。分析时除标题外，其它字段皆从]的后一个字符开始取就是记录的值。网页复制过来的数据预处理主要包括以下几个步骤：通过转换把它变成二维表格的形式；滤掉通知类非正式文献；根据标记符拆分作者、关键词、分类号等字段；析取多项目字段，从机构字段中提取作者单位、城市名、邮编等，从期刊字段中析取期刊名、年、卷期号、起止页码等信息。图 1 　重庆维普期刊全文数据库检索结果全记录显示示例图 3 行列转换与过滤从图1复制过来的数据，首先要把它转换成二维表格的形式，就是把单列数据按不同字段转换成多行多列的形式，其关键是识别一条记录的始末，具体处理方法如下所述。算法一。遍历所有有效行，如果行数被iFieldCount整除，把源表的单元格值赋给目标表相应行的末列；如果不是整除行，就把源表的单元格值赋给目标表相应行的余数列。此算法对于缺乏程序设计思想的人比较容易理解，类似于最直接的手工操作方式，一个值一个值地赋，一条数据结束后回车换行。 1: For i = 1 To iRowCount 2: sTemp = Trim(Worksheets(sSrce).Cells(i, 1)) ' 如果整除就换行，不整除就放在当前行相应的列里 3: If i Mod iFieldCount = 0 Then 4: Worksheets(sDest).Cells(k, iFieldCount) = sTemp 5: k = k + 1 6: Else 7: Worksheets(sDest).Cells(k, i Mod iFieldCount) = sTemp 8: End If 9: Next 算法二。每遇到一条记录进行一次操作，一次把该记录的所有字段赋过去。算法比较容易理解，特别是对具有关系数据思想的人。两重for循环合起来（iRowCount除以iFieldCount再乘以iFieldCount）的赋值语句执行次数与算法一相当，速度要快一些，因为不用执行条件判断。程序代码如下： 1: For i = 1 To iRowCount step iFieldCount 2: k = k + 1 3: For j=1 to iFieldCount 4: sTemp = Trim(Worksheets(sSrce).Cells(i-j, 1)) 5: 　 Worksheets(sDest).Cells(k, j) = sTemp 6: Next 7: Next 算法三。此算法把条件写到控制目标表行列的变量里去，用i与iFieldCount的商控制行，用它们的余数控制列。程序代码简单，可读性差。 1: For i = 1 To iRecCount 2: sTemp = Trim(Worksheets(sSrce).Cells(i, 1)) 3: Worksheets(sDest).Cells(i / iFieldCount + 1, (i - 1) Mod iFieldCount + 1) = sTemp 4: Next 经过行列转换后滤掉所有通知类文献，包括征稿简则、会讯通知、年度索引等。此类文献的特征是没有作者或作者单位，作者为无，作者单位为不详。数据处理完的结果如图2所示。图 2 　行列转换后的数据格式示例图 4 拆分格式转换后有两类字段不符合一范式，一类是多值同字段，如作者、机构、关键词、分类号等，一篇文章有多个作者、多个关键词、多个分类号等，但这些词的属性是同质的。另一类是多值异字段，如清华同方的单位或重庆维普的机构都含有三项内容，分别为作者所在单位、地名、邮编等信息，这些字段是异构的，数据类型、长度与取值范围都有所不同，重庆维普的刊名也含有很多信息，包括期刊名称、年、卷、期、起止页码等，需要进行拆分。在维普中文科技期刊数据库里，多于一个作者的都会加上标记，并在其后加上空格；对于机构，在多机构的前面加，不同的机构间以空格分开；关键词、分类号用空格自然切分。如果是清华同方的数据库，则每位作者后都会有分号，而关键词之间用双分号相隔。具体处理方法如下：算法一。如果待分析串里含有标记符，就析取标记符前面的值，同时把指针移到分隔符后面的位置，也就是截取待分析串。如果待分析串里已没有分隔符，则把最后一个值赋过去。 1: For i = 1 To iRecCount 2: sTemp = Worksheets(sSrce).Cells(i, iCol) 3: For j = 1 To 20 4: iFind= InStr(1, sTemp, sFlag) 5: 如果含标记符就析取 6: If iFind 0 Then 7: Worksheets(sDest).Cells(i, j) = Mid(sTemp, 1, iFind - 1) 8: sTemp = Mid(sTemp, iFind+ iFlagLen) 9: Else 10: Worksheets(sDest).Cells(i, j) = sTemp 11: Exit For 12: End If 13: Next 14: Next 算法二。从字串首字符到末尾，如果是分隔符，则把前面的值赋过去，并把存放分隔符前面值的变量清空；如果不是分隔符，则把该字符压入队列，相对于队列的零存整取操作。同算法一比较，内循环的执行次数显然增多，但中间计算比较简单。 1: For i = 1 To iRecCount 2: sTemp = Worksheets(sSrce).Cells(i, iCol) 3: For j = 1 To len(sTemp) 4: If mid(sTemp, j, 1) =sFlag Then 5: Worksheets(sDest).Cells(i, j) =sSplit 6: sSplit= 7: Else 8: sSplit=sSplit mid(sTemp, j, 1) 9: End If 10: Next 11: Next 仅仅通过标题来确定一条记录并不可行，标题不能作为主码，因为标题会有重复，为每篇文章加一个ID是个好的选择。本实验中并未作主码处理，需要其它信息时再去图3所示的表里找，因为图3显示内容与图2显示内容是行对应的。拆分完的结果如图3所示。　图3 关键词拆分结果示例图 5 提取关键词与作者的拆分属于同构拆分，还有一些列的拆分属于异构拆分。就是一个单元格里存在着多个字段内容。如机构、期刊等信息不符合第一范式（1NF），这些字段可以再分。拆分过的机构包含作者单位、城市、邮编等信息，如南京大学信息管理系，南京210093，特点是单位与城市名间以逗号分隔，城市名与邮编紧密相连。作者单位的提取从字符串开头取，取到逗号分隔符；城市名的提取比较困难一些，有的城市名是两个字符，而有的城市名是三个字符，所以不能用从逗号的下一个字符开始取定数个字符，可以采用从逗号的下一个字符开始取，取到数字为止，或者先去掉右6位，再从逗号开始取，因为邮编都是6位，无一例外。可是由于有些编辑部要求不严或数据库加工商粗糙等原因致使机构的信息非常复杂，机构主要有以下几种情况：类别特征描述举例问题责任者项目齐全、内容完整、格式规范单位与城市名间加逗号，城市与邮编中间加空格的形式武汉大学信息资源研究中心，武汉 430072 正常项目齐全、内容完整、格式不规范单位与城市名中间缺少逗号，或者地名与邮编中间缺少空格南京理工大学经济管理学院南京 210094 编辑部或数据加工商项目齐全、内容完整、格式规范、地名表述不规范城市名后带有市标记城市名前加省名，直接用省名代替城市名河北工业大学图书馆，天津市 300130 江汉石油学院，湖北荆州 434102 聊城大学图书馆，山东 252059 编辑部或数据加工商一人多单位情况单位之间用双斜杠加以区分河北大学管理学院，保定 071002 ／／中科院研究生院，北京 100039 ，正常项目不齐全、内容完整缺少邮编缺少城市和邮编美国密苏里大学，美国江苏理工大学图书馆编辑部项目不齐全、内容不完整单位名称不完整，或城市名不完整，或邮编不是 6 位南京大学信息管理系，南数据加工商作者单位所在的城市大都是地级市以上的城市，落座在县级市的也有，如曲阜师范大学就落座在山东的曲阜。因为有了邮编，所以不需要在城市名前加省名。如果含有邮编, 先把邮编取出来，因为邮编肯定是数字，正常情况下应该是六位，而且在末尾。如果含有标记符，根据标记符提取，把逗号左边的内容提取出来作为机构，逗号后面的内容为城市名；如果不含标记符，可以用城市列表来从右边进行匹配，这种办法准确率高，但会影响速度，前提是有权威的中国城市名库。也可以用机构名后缀进行截取，需要人工分析机构名后缀特征，然后构造数组来进行匹配。简单处理算法如下：邮编处理 1: If Asc(Right(sTemp, 1)) 47 And Asc(Right(sTemp, 1)) 58 Then 2: sPostcode = Right(sTemp, 6) 3: sTemp = Mid(sTemp, 1, Len(sTemp) - 6) 4: End If 串中含标记符，如分号、逗号等 5: If InStr(1, sTemp, sFlag) 1 Then 6: sAffiliation = Left(sTemp, InStr(1, sTemp, sFlag) - 1) 7: sCity = Mid(sTemp, Len(sAffiliation) + 2) 8: Else 单位与地名之间无标记符，可以利用定义好的数组进行处理，如系、学院、所等 9: For m = 1 To Ubound(sIdentify) 10: If InStr(1, sTemp, sIdentify(m)) 0 Then 11: sAffiliation = Left(sTemp, InStr(1, sTemp, sIdentify(m)) + Len(sIdentify(m)) - 1) 12: sCity = Mid(sTemp, Len(sAffiliation) + 1) 13: Exit For 14: End If 15: Next 16: End If 邮编处理完以后判断机构与城市间是否存在标记符，如果存在标记符，分别提取就可以；如果不存在标记符，可以用后缀截取法进行分割，因为机构名有规律可寻，大都以学院、系、所、中心、室、公司、馆等结尾，可以用特征枚举的方式构造数组，如程序中的sIdentify。但这种处理方式是没法保证结果的准确性，最好的方式还是获取官方数据，包括机构和城市列表。在具体处理中还可以利用其它信息(如作者和邮编)对不规范的机构数据进行自动修正，例如，利用规范的同一作者同一邮编的机构来修正不规范的机构(排除改名因素)。期刊可以分为刊名、年、期、卷、起止页码等信息，如情报学报-2005.24(3).-363-370。刊名后以短横线接年，年后以句点接卷，卷号用圆括号把期号括起来，卷期后加句点是起止页码，起始页码和终止页码前都有短横线。而像清华同方的数据就不需要这项分隔了。 1: For i = 1 To iRecCount 2: sTemp = Worksheets(sSrce).Cells(i, iCol) 3: Worksheets(sDest).Cells(i, 1) = Mid(sTemp, 1, InStr(1, sTemp, -) - 1) 4: Worksheets(sDest).Cells(i, 2) = Mid(sTemp, InStr(1, sTemp, -) + 1, 4) 5: Next 6 总结经过上述处理，就可以进行统计了。文献计量统计分析的流程包括数据获取、数据预处理、统计计算与应用四大模块。数据预处理也是关键一环，数据预处理的精确程度直接决定着统计计算的质量，从而决定着统计分析的结果。数据过滤与筛选，主要是把符合某种条件或不符合某种条件的数据滤掉。过滤是根据条件滤掉记录，拆分是根据字符串内的标记符分成同构的字段，而提取则是根据字符串内的标记符分成不同的字段。数据的预处理流程比较简单，技术实现也比较简单，无非就是行列转换、数据过滤、拆分与提取等几个步骤，所有的步骤只用了for循环、条件判断与常用字符串处理函数。实验中，对关键的处理都采取了几种不同的算法，并从执行速度、程序复杂度等方面对算法进行了比较，总结如下：涉及反复操作一定要读到内存，减少IO读写；循环内的处理过程越简单越好，能放在循环外的尽量往外放；数据处理的粒度尽可能地大，在不影响准确度的情况下，数据处理粒度越大，效率就会越高。地名与机构等信息的内容提取有相当的难度，准确率也难以保证，但通过复杂情况的归类以及支撑资源的不断更新，然后回溯分析，可以渐渐地提高准确率，尤其是一级单位与二级单位的划分开始涉及自然语言处理的浅层次问题。在实验中用重庆维普的数据时发现作者统计结果可信度也非常低，简单记录和详细记录的作者信息差别非常大，似乎从不同的数据表里取出来一样，这个问题不是算法本身的问题，没有好的算法能解决数据遗漏的问题。在涉及自然语言处理的问题上，资源的支撑显得相当重要，回溯分析也会提高准确度。参考文献 1 陈涛．武警学院学术论文统计系统开发及功能实现．武警学院学报， 2005(3) ：94-96 2 张守胜．基于 Web 的科技论文统计信息系统的应用研究．安徽理工大学学报 ( 自然科学版 ) ， 2004(01) ： 59-63 3 袁通路．基于 ASP 的学术论文信息检索统计系统．微机发展， 2004(02) ： 57-60

个人分类: 文献计量|5673 次阅读|0 个评论

图书情报学核心期刊论文标题计量分析研究

huabolin 2008-10-24 11:19

图书情报学核心期刊论文标题计量分析研究化柏林 ( 中国科学技术信息研究所，北京 100038) （发表于《情报学报》，2007年第3期）摘要从中文科技期刊数据库 ( 重庆维普 ) 选取了 1989 年到 2005 年的 17 种图书情报学核心期刊 (2004 版 ) 的所有论文，滤掉会议通知、征稿简则、年度索引等非正式论文后，利用 VBA 对 42989 篇文献的标题进行统计分析。统计结果表明，标题长度符合正态分布，标题的句型相对比较集中。大多数作者会从标题中抽出一至三个关键词。标题中的停用词与动词分布相对集中，而题首词、题尾词以及题含关键词分布相对分散一些。对标题的规律性分析有利于进一步指导标题的拟定，计量分析的结果为后续的摘要分析以及正文内容分析提供了一些基础数据。关键词图书情报学，核心期刊，标题，计量分析，内容分析 Title Statistical Analysis of Papers from Core Journal on Library and Informatics Hua Bolin ( Institute of Scientific and Technical Information of China, Beijing 100038) Abstract Based on all papers which is published on library and informatics core journals from 1989 to 2005 from China Journal Full-text Database, 42989 titles are analyzed by using VBA after filtering conference notice, call for papers and annual index. The result shows the following three conclusions. First, length of title is in accord with normal distribution, and sentence patterns of title are relative centralized. Second, most of authors extract one to three keywords from corresponding title. Last, stop-word and verb in title are relatively centralized, but first word, last word and keywords in title are relatively scattered. Analysing disciplines of title are convenient to guide sketching title. Furthermore, analytical result imply basic data for following abstract analysis and text content analysis. Keywords library and informatics, core journal , title, bibliometrics, content analysis 目前，计量分析的研究主要集中在作者、作者机构、地区、关键词、分类号、参考文献等方面，对于标题、摘要、正文等更能反映文章内容的计量分析却很少。本文从中文科技期刊数据库(重庆维普)选取了1989年到2005年的17种图书情报学核心期刊(2004版)的所有论文，利用VBA过滤掉会议通知、征稿简则、年度索引等非正式论文后，得到42989篇文章，然后对文章标题长度、题首与题尾词、高频动词、高频停用词、标题常用句型以及题含关键词数量进行了统计分析。 1标题长度统计 42989篇文章的标题一共695076个字符，平均每篇文章标题为16个字符。标题最长的为88个字符，最短的为2个字符。最长的为英文标题，所以字符数很长，但如果用单词计数，那么又变得太短。对于英文字符的处理有以下几种方式：一种是把英文翻译成中文进行计数，一种是按英文与中文的对应统计规律进行换算（包括一个英文单词平均对应几个中文字符或几个英文字符对应一个中文字符）。对于英文单词，译成中文后的字符数会变少，如Internet翻译成因特网后会由8个字符变成3个字符；对于英文缩写，译成中文后的字符数会变多，如XML翻译成可扩展标记语言后会由3个字符变成7个字符。所以总体上来讲英文单词与英文缩略语的弹性长度以及出现频率对标题长度统计的影响基本持平，可以忽略不计。文章标题长度端点值如表1所示。表 1 文章标题长度示意表文章标题长度 Integration of a ResourceOriented Vocabulary with KnowledgeOriented Vocabulary Systems 88 Electronic Journals in the Digital Environment： Issues and Future Trends 71 《图书馆论坛》又被确定为图书馆学、情报学类的核心期刊（ 2004年版），并被选定为2003年中文社会科学引文索引（CSSCI）来源期刊 70 ChemVillage、 CAonCD、Chemistry Server和Beilstein／Gmelin CrossFile的比较分析 67 深化改革，抓紧机遇，开拓图书信息工作的新格局在全国市场经济与图书馆建设馆长研讨班开幕式上的讲话（摘要） 1993年9月14日 65 新世纪新视点三人谈之继承与创新，信息资源建设在新世纪面临的新课题张勇：剪不断，理还乱的馆藏情结文献资源建设思想的反思与探索 65 适应市场经济的新形势深化图书馆事业的改革在全国市场经济与图书馆建设馆长研讨班开幕式上的讲话（摘要） 1993年9月14日 64 以三个代表重要思想为指导，大力推进我国图书馆现代化建设在中国图书馆学会第六次全国会员代表大会暨 2001年学术年会上的讲话 63 两种情报观： Information还是Intelligence？在情报学和情报工作中引入Intelligence的思考 61 图书馆个性化服务平台开发工具 Oracle9i Application Server Portal与uPortal的比较 61 论邮购 3 复分论 3 论文献 3 论馆风 3 论丛书 3 论别集 3 论浏览 3 导读论 3 评析 2 回归 2 新议 2 表1中所列第三条是非正式论文，但由于数据库加工商提供了作者、关键词等，所以没能过滤掉。标题长度10个字符以下的为3341篇，40个字符以上的为163篇，不到千分之四，50个字符以上的有28篇，仅为万分之六，说明长标题数量很少。其中文章标题长度为9~22个字符的文章数量都超过1000篇，共36209篇，占84%。介于8~24个字符的文章数量达到38644篇，占90%。介于5~36个字符的文章数量达到42560，占99%。也就是说，绝大多数文章标题的长度为5到36个字符。其中15个字符的最多，为3909篇，总体上符合正态分布，标题长度与数量分布如图1所示。图 1 标题长度与文章数量关系分布图较长的标题一般含有标点符号，包括带有破折号的讲话，带有书名号的书评，带有引号、冒号、顿号等标点符号。不含英文字符及日期的最长标题为65个字符，此标题含有两个破折号和一个冒号。不带标点符号和英文字符的最长标题为35个字符基于多层次概念语义网络结构的中文医学信息语义标引体系和语义检索模型研究。42989篇文章中带有正副标题的有2815篇，书评有1926篇，分别占文章总数的6.5%和4.5%。 2标题含关键词数量统计标题与关键词数量关系有好几个侧面。以关键词为主体，主要考虑篇含关键词个数。而以标题为主体，主要考虑标题含关键词数量。篇含关键词个数反映文章的关键词数量，见文献，题含关键词个数反映标题的关键词数量，题含关键词数量肯定小于或等于篇含关键词数量。题含关键词数量又有两种计算方法，一种是每篇文章标题含有的篇内关键词数量，反映文章标题与本文所提供的关键词的关系，另一种是每篇文章标题含有的所有关键词的数量关系，反映所有关键词在标题中的命中次数。 42989篇文章提供了43980个关键词，共202821次，其中有20671个关键词出现在相应的文章标题中，占关键词个数的47%，共出现85263次，占关键词总次数的42 %，也就是说有接近一半的关键词出现在了对应文章的标题中。42989篇文章中有85263个关键词出现在标题里，平均每篇文章标题中含有两个篇内关键词。最多的为9个，但经过人工验证，题含篇内关键词超过5个的大都是数据库商后加工的，并不是作者先行提供的。标题中出现一到三个关键词的文章数达37139篇，占文章总数的86%，标题中出现零个关键词的文章数达2753篇。题含篇内关键词个数与文章数量关系如图2所示。图 2 题含篇内关键词个数与文章篇数统计图用所有关键词对所有标题进行全切分，43980个关键词在42989篇文章中一共出现了444497次，平均每篇文章标题含10个次关键词，平均每个关键词在所有标题中出现10次，是题含篇内关键词数量的5倍。全切分题含关键词最多的为36个，有1篇，专业图书馆学科馆员组织模式探讨以中国科学院文献情报中心学科馆员制度建设为例，最少的为0个，有42篇。标题中含10个关键词的最多，有4314篇，其中5个到18个关键词的文章数都在1000篇以上，共39421篇，占文章总数的92%，5到16个关键词的文章数达36978篇，占文章总数的86%。标题全切分的很多关键词有包含关系，如图书馆包含图书。全切分题含关键词数与文章数量关系如图3所示。图 3 标题全切分含关键词个数与文章篇数统计图两种不同的计算方法有着不同的研究意义。第一种反映标题与关键词的直接关系，而第二种只是用关键词表对标题的全切分结果，直接的文献计量意义并不大。从总次数上，444497次基本是85263的5倍，从词的分布广度上，除去端点值外，35个也接近8个的5倍，题含篇内关键词为1~3个的文章数量占了86%，而采用全切分题含关键词数量为5~16个的文章数量占86%，5~16个也是1~3个的5倍。采用全切分题含关键词数量从各个方面基本是题含篇内关键词数量的 5倍。 3标题高频词统计分析用43980个关键词作为词典，使用正向最大向量对42989篇文章标题进行切分，然后对未切分出来的字符串用199801《人民日报》语料词典进行嵌套切分，直到不能再分为止。得到停用词表，停用词是指基于关键词的检索中出现频率太高而没大有检索意义的词，但是这些停用词在全文检索特别是进行句法分析时就相当有意义。停用词和未登录词一共出现了3621个，95783次，平均每个词出现26.5次，每篇文章标题出现2.2个。位于前20位的词共出现65068次，占总次数的68%，前50位的词共出现75942次，占总次数的80%，说明停用词的分布非常集中，题含高频停用词统计如表2所示。表 2 标题停用词高频统计表（前 20 位）停用词频次停用词频次停用词频次停用词频次的 27959 及 1945 谈 1366 几 732 与 7680 在 1808 关于 1306 下 691 论 3861 和 1796 试 1131 从 609 中 3445 对 1794 基于 1021 新 555 我国 2136 及其 1691 浅 832 之 496 出现频率最高的是的，42989篇文章标题中出现了27959次，其中出现两次以上的有1634篇，3324次，也就是说24635篇文章标题中出现了的，占文章总数的57%。其中有53篇文章出现了3个的，还有一篇出现了5个的，即从读者获取信息能力的现状谈信息能力的培养由一次对读者的文献信息能力的调查引出的话题。这些标题中有一些是主副标题，有一些不是，如一种基于改进的支持向量机的两类文本分类方法的研究。中文标题主要由三部分构成，限定研究范畴、确定研究主题和反映研究侧面。标题首部主要是限定研究范畴，主间确定研究主题，尾部反映研究侧面。因此，统计标题前两个字符和后两个字符也颇有意义。标题前两个字符一共出现了5057个，平均每个出现8.5次，频率最高的为图书，2387次，占题首词总数的5.6%，前50位一共出现了21589次，占50%，说明最常出现的五十个词占了五千多个词的一半，标题前两个字符高频统计如表3所示。表 3 题首词高频统计表（前 50 位）题首词频次题首词频次题首词频次题首词频次题首词频次图书 2387 浅谈 540 利用 248 论网 175 建立 142 网络 1683 中国 524 21 212 谈谈 166 浅议 140 信息 1294 文献 462 国外 210 In 163 试析 138 关于 1268 电子 460 面向 203 期刊 162 一种 131 高校 1182 论图 451 公共 195 浅析 161 浅论 128 我国 1157 情报 418 论信 194 国内 160 大学 126 基于 1087 企业 381 中文 193 加强 153 计算 125 试论 1049 《中 346 略论 183 论高 153 因特 124 数字 879 美国 319 网上 178 如何 147 提高 121 知识 541 现代 289 科技 177 市场 145 数据 119 在前50位的题首词中，论图、论信、论网、In、论高、因特等六个词为不合法的中文词，论图的全称为论图书或论图书馆，论信为论信息、论网为论网上或论网络，In为Internet，因特为因特网、论高为论高校，这六个不合法词中，有三个是关于网络的。这些高频题首词可以分为以下几类，程度副词加动词的，试论、浅谈、略议、浅析、浅议、浅论，论，共出现6425次，占文章总数的15%，说明每七篇文章就有一篇以论（包括议、析、谈、评、述等）开头的；二类是介词，如关于、基于、利用、从等，共出现4420篇，占文章总数的10%，说明每十篇文章就有一篇是以介词（包括关于、基于、利用、从等）开头的，三类是以地点状语开头的，以我国、我省、我馆等开头的有1309篇。通过题首词能分析出部分句型，但不能完整的反映标题的句型结构。在42989篇文章标题中，后两个字符一共出现了3475个，平均每个词出现12次。其中以研究最多，为3285次，占7.6%。出现前50名的一共有24830次，占58%，这个值大于题首词的50%，说明题尾词要比题首词相对更集中一些。题尾词高频统计如表4所示。表 4 题尾词高频统计表（前 50 位）题首词频次题首词频次题首词频次题首词频次题首词频次研究 3285 管理 635 策略 348 开发 228 述评 167 分析 1795 初探 626 教育 334 刍议 227 创新 166 思考 1698 工作 566 趋势 312 检索 226 我见 163 探讨 1294 方法 559 探析 272 实践 224 模型 154 应用 981 利用 551 综述 271 比较 222 改革 153 建设 956 书馆 479 模式 264 设计 220 体系 147 对策 952 影响 402 技术 254 构想 190 构建 144 问题 950 实现 369 探索 254 关系 187 浅析 140 服务 915 系统 365 启示 239 商榷 182 控制 138 发展 732 作用 350 评价 236 展望 172 途径 136 在标题后两个字符的前50个高频词中，除了书馆不是合适的词，其它词大都为可名词化的动词。后两个字符主要是通用性词语或反映研究侧面的词语。通用性词语如研究、思考、问题、初探、刍议等，反映研究侧面的词语如应用、实现、策略、设计等。主题词大都是名词，主题词是能反映文章主题的最好的词，但不是唯一的词。比如同样是讲搜索引擎的文章，《Google搜索引擎技术实现探究》与《Google搜索引擎的使用技巧》的主题词都是搜索引擎，但文章内容大相径庭，读者群也完全不一样。所以除了题尾词以外，标题中的动词也很有指示性。本研究利用199801《人民日报》语料词典用最大向量法进行切分，然后用一元概率法进行词性标记，把标题中的动词抽取出来，得到标题中的动词统计结果。标题动词高频统计如表5所示。表 5 标题动词高频统计表（前 50 位）题动词频次题动词频次题动词频次题动词频次题动词频次论 6450 分析 1005 浅析 466 检索 311 构想 196 研究 2532 服务 871 构建 461 看 303 存在 196 试 2257 影响 716 加强 437 是 280 选择 195 谈 1869 实现 686 面向 426 学 274 深化 191 发展 1694 管理 625 改革 403 评价 259 议 181 建设 1550 建立 623 应 373 启示 255 信息化 181 思考 1543 工作 581 实践 368 创新 254 挑战 178 探讨 1308 提高 512 探索 342 教育 228 培养 177 应用 1295 开发 494 谈谈 334 使用 223 变革 171 利用 1011 设计 480 开展 320 综述 200 发挥 170 42989篇文章标题中共出现1665个动词，共56624次，平均每个词出现34次，其中前50位出现了36455次，占标题动词的65%。目前，对文章内容进行计量分析，最多的是从关键词入手，而出现在标题里的关键词应该受到更多的关注。本研究设定最大向量长度为6个字符，利用正向最大向量法对标题进行切分，标题中出现了11031个关键词，共135640次，平均每个词出现12次，每篇文章出现3.2个。如果采用全切分的话，这些值会大很多。标题所含关键词高频统计如表6所示。表 6 题含高频关键词统计表 ( 前 50 位 ) 关键词频次关键词频次关键频次关键词频次关键词频次图书馆 3624 应用 1257 实现 653 图书馆学 467 比较研究 359 研究 2514 问题 1100 影响 643 21世纪 446 美国 356 高校图书馆 2211 网络环境下 1005 初探 642 开发 433 《中图法》 351 发展 1597 分析 999 管理 621 信息服务 418 技术 350 思考 1543 服务 855 工作 576 数据库 394 图书馆信息 346 建设 1499 利用 765 中国 543 提高 391 信息 339 数字图书馆 1384 公共图书馆 749 方法 540 改革 369 作用 332 探讨 1295 对策 704 建立 481 构建 367 探索 316 应用 1257 高校 698 设计 478 实践 365 检索 304 问题 1100 系统 658 现状 474 知识管理 360 浅析 303 标题中出现的关键词以图书馆最多，3624次，频次前50位的词一共出现了38058次，占标题关键词的28%。标题中的停用词、题首词、题尾词、题中动词以及题中关键词分别出现了3621个、5057个、3475个、1665个、11031个，平均每个词出现的次数分别为27 次、9次、12次、34次12次，说明停用词和动词的分布比较集中，题首词分布最分散。这五类词一共出现了374025次，每个词平均两个字符的话就是748050个字符，而这一数值比所有标题总字符数695076略大一些，说明停用词、题首词、题尾词、题中动词以及题中关键词构成了标题的全部。关键词以名词居多，而停用词绝不属于关键词，题首、题尾词也大都不是关键词，因此关键词与其它词重复并不多。这五类词中，主要是题首词、题尾词与停用词、题中动词有一部分重复。图4显示了这些词的平均出现次数。图 4 标题各类词平均次数统计图 4标题句法结构统计分析对文章标题仅仅进行词频统计分析是不够的，对标题的句法结构进行分析是理解标题语义的前提。而词性标记又是句法结构分析的前提。因此要进行语义分析，首先要做的就是分词、词性标记。对42989篇文章标题切分后再进行词性标记，共出现20101种词性标记结果，其中出现一次的为16666种，占39%。前50位的一共7909篇，占文章总数的18%。标题词性标记高频统计如表7所示。表 7 标题词性标记高频统计表 ( 前 50 位 ) POS 频次 POS 频次 POS 频次 POS 频次 POS 频次 NuN 563 Nv 231 pNNuv 115 vvNuN 104 NNNuv 78 NpN 433 NNuv 204 VNN 112 vnuN 94 vNpN 75 NN 405 vN 187 NfuN 112 Nvn 94 vNNuv 75 NNv 370 nNuN 169 NpNuv 111 Nnn 87 NuNN 74 NNuN 346 nNN 169 NN 110 Npn 87 pNuN 73 vNuN 333 NuNv 167 vNNuN 109 NvuN 86 npN 73 N 326 NnuN 162 nNNv 108 NuNn 85 NNuvpv 73 NNN 284 NpNfuv 125 NNn 108 NpNN 82 Nuvpv 73 Nn 242 vNvN 121 NNv 107 NcN 82 Nuv 72 NNn 240 NNNv 117 NpNv 106 NpNuN 80 Nnv 70 标记集中N为关键词，其余标记采用199801《人民日报》语料库的标记集中的首字符，如n包括标记集中nr、ns、n等。其实对这种标题进行词性标记和句法剖析意义并不是很大。我们更想要的是标题的句型结构。对句型结构进行分析，越是助词、连词等停用词（大都是虚词），越能说明句子结构，因此略掉关键词，剩余的句型结构分析是比较有意义的。滤掉关键词后共出12958个句型，出现两次以上的有1855个，共31839篇，占文章总数的74%，出现一次的有11103篇，基本上都是切分不完全的错误案例，如关于同城．．．的．．．中的同城就没能切分出来。出现10次以上的有255个，共26909篇，占文章总数的63%。非关键词句型高频统计如表8所示。表 8 非关键词句型高频统计表（前 30 位）句型频次句型频次句型频次 ... 5242 论 ... 414 我国 ...的... 226 ...的 ... 4870 ...及其 ... 397 ...中 ...的... 187 ...与 ... 1824 ...的 ...及... 369 浅谈 ...的... 155 ...的 ...与... 1197 试论 ...的... 331 谈 ...的... 152 论 ...的... 755 ...及 ... 311 ...和 ... 152 ...在 ...中的... 575 ...的 ...和... 292 论 ...与... 133 ...与 ...的... 531 ...的 ...及其... 279 试论 ... 124 ...中的 ... 478 我国 ... 275 《 ...》... 122 关于 ...的... 470 对 ...的... 258 ...之 ... 115 基于 ...的... 424 ...对 ...的... 239 ...下的 ... 111 前30位共计21008篇，占文章总数的49%。之所以句型数量如此之多，一方面由于有一些未登录词直接当停用词处理了，另一方面同义词太多，没有进行归一，如和和与等表并列的词是基本一致，可以归一的。把高频同义词或近义词进行归一可以使分析结果更有效一些。高频近义词归一如表9所示。表 9 高频近义词归一表结果情况浅* 浅、略、试、小再* 再、进一步论* 论、谈、议、谈、述、谈谈 N* 三、四、五、六、七、八、九、十、若干、一些、几、个* 个、点、种、类、大关于* 关于、有关、有关于我国* 我国、我们、我省、我馆、我校、我院、我市和* 和、与、及、以及、及其中* 上、中、下、进行* 进行、开展、从事重视* 关注、重视、加强、改进表9列了标题中高频近义词的静态结构，实际计算过程中并不完全按照表中情况与结果的一一对应，而是要充分考虑它们组合的情况。如试论、谈谈、小议最终都归一成论*。这样使得句型分布更集中一些。通过归一后，12958个句型变成了11823个，减少了一千多个。其中出现100次以上的有30种，计23612次，占文章总数的55%，比归一前提高了六个百分点。归一后非关键词句型高频统计如表10所示。表 10 归一后非关键词句型高频统计表（前 30 位）句型频次句型频次句型频次 ... 5242 基于 ...的... 424 我 * ...的...和 * ... 141 ...的 ... 4870 论 * ...的...和 * ... 350 ...的 N * 个 * ... 137 ...和 * ... 2684 论 * ...和 * ... 343 ...的 ...和 * ...的... 129 ...的 ...和 * ... 2138 我 * ... 291 ...中 * ... 125 论 * ...的... 1572 ...中 * ...的... 281 《 ...》... 122 论 * ... 853 对 ...的... 258 ...中 * 的...和 * ... 120 ...和 * ...的... 686 我 * ...的... 244 ...之 ... 115 ...中 * 的... 589 ...对 ...的... 239 论 * ...在...中 * 的... 107 ...在 ...中 * 的... 578 论 * ...中 * 的... 155 我 * ...和 * ... 103 关于 * ...的... 470 论 * ...和 * ...的... 144 关于 * ...的N * 个 * ... 102 这种统计没有很好的处理未登录词，如果只采用虚词来构成句型，准确率会有很大提高。只采用虚词出现了1626个句型，标题虚词句型高频统计如表11所示。表 11 标题虚词句型高频统计表 ( 前 30 位 ) 句型频次句型频次句型频次 ...的 ... 10831 ...的 ...和... 612 ...和 ...的... 207 ... 10133 基于 ...的... 546 从 ...的... 205 ...与 ... 2790 ...及 ... 545 ...下 ...的... 199 ...的 ...与... 2050 对 ...的... 532 ...下的 ... 183 ...与 ...的... 1009 ...的 ...及其... 487 ...的 ...与...的... 181 关于 ...的... 882 ...对 ...的... 482 从 ... 167 ...中的 ... 866 ...中 ...的... 387 ...为 ... 163 ...在 ...中的... 861 ...的 ...的... 342 ...在 ...的... 143 ...的 ...及... 693 ...和 ... 317 ...中 ... 141 ...及其 ... 630 ...之 ... 242 ...及 ...的... 101 标题虚词句型出现100篇以上的有30种，共出现39627篇，占文章总数的86%，说明大多数文章都采用了表11中所列句型。可以看出采用虚词句型比非关键词句型分析要有效得多。 5结束语清华同方、万方数据、重庆维普等全文数据库商目前只提供检索功能，随着把全文检索系统改成中国知网、知识链接门户等更大的工程，检索不再是唯一的功能，紧随其后的应该就是统计功能，因此，不久的将来，这三大数据库商会陆续推出统计功能，也就是计量分析查询系统，届时大多数计量分析系统将有计算机来提供，而不是人来写。大多数编辑部将不再接受此类文章。作为管理信息系统的三大常规模块之一的统计模块，在全文数据目前的计量分析方法或理论的文章，这类文章比较少。标题、关键词、摘要与正文是能反映文献内容特征的字段，而且分析关键词、标题、摘要的可操作性很强。通过这些简单统计分析，能够反映出期刊论文标题的一些问题和规律，但如果想把这种规律定量地求出来，数据量还是太小，样本范围太窄，处理精度也太粗。另外，进行大量统计分析时发现维普的论文数据质量也不高，错误很多，比如全记录显示与概要显示中的作者有极其大的不一致，好像是从不同的表中检索出来的结果，而且1990年以前的数据也不全，这给本研究的数据可信度打了一定的折扣。分词时应该获取停用词后对标题进行重新切分，先用停用词表把停用词切分出来，再用关键词表进行切分，会提高准确率，而分词时采用一遍扫描而不考虑前后关系，以及没考虑未登录词也是很有问题的，致使分词准确率不够高。在统计题首词与题尾词时只是截取了两个字符，取出来的大部分是合法词，但也有一些不是，如论网、书馆、因特等，因此这个统计分析需要进一步提高程序的覆盖度。句型分析时，只对高频近义词进行了归一，对于低频近义词并没有任何处理，这使得大量的标题因为有未切分出的串而成为了一个新的句型。而且许多标题不是句子，使用句型这个术语也有不妥之处。目前，这种针对标题和摘要进行计量分析的研究和论文都很少，因此，笔者在行文时对术语的使用有一定困难，如题首词、题尾词、标题句型、题含篇内关键词数、全切分题含关键词数等，而且能得到传统的计量分析定律的指导也很少。对于标题进行分词及词性标记是有意义的，但对标题进行句法剖析意义并不算大。因为好多标题就不是完整的句子，没有完整的句法结构，不具有时态、语态等句子属性。因此本研究从摘要开始进行句法分析，利用规则对句子进行分析与归约，得到句子成分结构与功能结构，然后进行语法统计分析，为语义分析和知识提取做好铺垫。最能反映文章内容的当属文章正文，可是正文结构复杂、内容繁多、数据获取较困难，因此目前进行大规模正文分析还是很有难度的。随着越来越多的文章采用pdf转换而不是扫描得来的数据，元数据的不断扩充，RDF及XML的广泛应用，本体库的逐步构建，加上自然语言处理的研究新热与人工智能的飞速发展，进行大规模正文分析的日子也是越来越近。参考文献 1 化柏林．图书情报学核心期刊论文关键词计量分析研究．情报科学， 2007，（5，8）作者简介：化柏林，男，1977年生，硕士，主要研究方向为自然语言处理。

个人分类: 情报探讨|4435 次阅读|0 个评论

图书情报学核心期刊论文关键词计量分析研究(下)

huabolin 2008-10-24 11:14

图书情报学核心期刊论文关键词计量分析研究 ( 下 ) 化柏林中国科学技术信息研究所，北京 100038 （发表于《情报科学》2007年第8期）应用型计量分析分为四类，其中主题型计量分析与评价型计量分析占主流，而预测型计量分析与资源获取型计量分析却很少。本实验以获取可计算资源为目的，从中文科技期刊数据库(重庆维普)选取了1989年到2005年的17种图书情报学核心期刊(2004版)的所有论文，利用VBA对文献的关键词进行统计分析，主要从数量分布、词长规律、增长趋势以及关键词与文章的数量关系进行了分析，并按功能对关键词进行了分类。图书情报学；核心期刊；关键词；计量分析；内容分析 G350 Keywords Statistical Analysis of Papers from Core Journal on Library and Informatics HUA Bolin Institute of Scientific and Technical Information of China, Beijing 100038, china Applicable bibliometrics are classified into four categories. Subject bibliometrics and evaluation bibliometrics are popular, but prediction bibliometrics and resource-acquirement bibliometrics are very poor. In order to acquire resource to support processing, we selected all papers which is published on library and informatics core journals from 1989 to 2005 from China Journal Full-text Database, and some aspects of them were analyzed by using VBA such as the count, length, increasing tendency of keywords and count relation between article and keywords. According to the analysis, it also presents keywords classification by function. library and informatics; core journal; keywords; bibliometrics; content analysis 5 图书情报核心关键词统计求证图书馆学情报学的研究核心是一件很难的事情。图书、文献、数据、信息、知识、情报这几个概念根据不同的研究侧面可能会有不同的逻辑关系，但是无论它们的关系如何，围绕这个几个概念的相关活动仍是图书情报的研究重点，甚至应该是研究核心。因此本文对这些概念的相关活动进行了单独统计分析。对这些活动之间的逻辑关系与流程分析正在进一步研究中。从图3中可以看出四字关键词占绝对优势，而且四字关键词比较规范，一般由名词加动词、名词加名词或形容词加名词构成，因此把含数据、信息、知识、情报、图书、文献的四字关键词进行统计也颇有意义，含数据、信息、知识、情报、图书、文献的四字高频关键词如表2所示。表2含数据信息知识情报图书文献的四字关键词高频统计（各前20位）关键词频次关键词频次关键词频次关键词频次关键词频次关键词频次数据挖掘 146 信息服务 2103 知识管理 655 情报检索 810 文献资源 324 图书编目 246 数据仓库 109 信息资源 732 知识经济 564 情报工作 462 文献检索 274 图书采购 211 书目数据 58 信息产业 593 知识产权 243 情报服务 382 地方文献 145 图书分类 190 数据备份 39 信息检索 580 知识创新 168 竞争情报 349 文献信息 134 图书补充 131 数据质量 32 信息技术 480 知识组织 154 情报研究 232 文献标引 116 图书外借 106 数据存储 26 信息管理 359 知识服务 147 情报教育 106 专利文献 106 电子图书 99 数据安全 26 信息组织 275 知识结构 95 情报分析 105 文献编目 101 图书著录 89 数据结构 23 信息需求 257 知识共享 67 情报需求 96 电子文献 100 图书采访 69 数据模型 22 信息市场 216 知识发现 62 情报机构 96 文献利用 93 中文图书 67 数据处理 22 信息系统 213 隐性知识 54 情报用户 93 文献著录 91 图书情报 56 数据转换 22 信息网络 189 知识传播 31 情报系统 79 科技文献 69 图书排架 50 数据格式 16 网络信息 186 显性知识 27 情报意识 63 文献采访 67 图书流通 50 数据管理 14 信息咨询 170 知识获取 26 图书情报 56 文献分类 65 图书评介 41 数据组织 14 信息安全 158 知识检索 24 情报事业 52 参考文献 60 图书保护 41 数据分析 13 文献信息 134 知识转化 23 情报职能 50 文献传递 58 图书发行 40 数据压缩 11 信息工作 133 知识工程 23 科技情报 49 文献工作 54 西文图书 33 数据采集 11 信息利用 123 知识仓库 21 情报科学 43 文献计量 52 图书开架 32 编目数据 11 信息开发 119 知识挖掘 19 情报信息 43 文献服务 48 图书市场 31 数据检索 10 信息时代 115 知识主管 19 情报管理 36 文献收集 44 图书管理 30 数据集成 9 信息交流 112 知识导航 17 情报人员 35 文献老化 44 图书改编 30 合计 634 合计 7247 合计 2439 合计 3237 合计 2045 合计 1642 在所有关键词中，含数据的关键词1,122个，共5,152次，平均4.59次/个；含信息的关键词3,405个，共21,202次，平均6.23次/个；含知识的关键词735个，共2,641次，平均3.59次/个；含情报的关键词879个，共7,409次，平均8.43次/个；含文献的关键词1,433个，共7,388次，平均5.16次/个；含图书（不含图书馆）的关键词706个，共3,954次，平均5.60次/个。可以看出，含情报的四字关键词相对较集中，含知识的四字关键词相对较分散。含数据、信息、知识、情报、图书（不含图书馆）、文献的关键词分布比重如图5所示。图5图书情报核心关键词分布图图5中左饼图是不带频次的，表征出现的个数，个数越多，说明研究侧面越宽泛或研究内容越具体。右边的饼图为计频的，计频比不计频高的有信息、情报，尤其是情报差别最大，说明关于情报的关键词相对比较规范、概念比较统一、研究领域比较集中。计频比不计频低的有图书、文献、数据、知识，其中知识差别最大，说明关于知识的关键词相对比较不规范、概念不够统一或研究比较分散。 43,980个关键词共计202,821个次，其中含图书馆三个字符的关键词出现了1,610个，共25,973次；个数占关键词总个数的3.7%，频次占关键词总频次的12.9%，也就是每八个关键词就有一个是显性关于图书馆的，可见图书馆在图书情报领域的重要地位。含图书馆的关键词按频次前30位如表3所示。表3含图书馆的关键词高频统计表（前30位）关键词频次关键词频次关键词频次图书馆 5855 图书馆自动化 595 图书馆学教育 102 高校图书馆 1998 图书馆建设 232 现代图书馆 101 数字图书馆 1889 大学图书馆 175 复合图书馆 98 图书馆管理 1237 专业图书馆 165 乡镇图书馆 98 图书馆学 1157 图书馆建筑 164 数字化图书馆 97 图书馆工作 1135 传统图书馆 151 图书馆网络 90 图书馆事业 1079 图书馆服务 147 社区图书馆 86 公共图书馆 991 虚拟图书馆 140 少儿图书馆 85 院校图书馆 955 图书馆学研究 113 中小型图书馆 78 图书馆员 785 电子图书馆 105 图书馆现代化 77 从表3中可以看出，关于不同功能的分类图书馆比较多，如高校图书馆，公共图书馆、少儿图书馆等，而反映图书馆的不同侧面的比较少，如图书馆员、图书馆建筑、图书馆网络等。关于图书馆业务流程（图书馆加动词）的非常少，反映流程的主要是以图书加动词为主。所以图书馆业务流程主要以图书的业务流程为主，也应验了图书是图书馆的主体。关于图书馆自动化、图书馆现代化、数字图书馆等近年来增势明显，但这些概念比较笼统，而图书馆学、图书馆工作、图书馆事业、图书馆学研究等非常稳定，不过热也不过冷。 6 关键词年度分布及增长分析把每年的关键词频次统计出来倒排序，可以很清楚的看到当年的高频词，如表3所示。但是这个表并不能反映出当年的研究热点，只能反映出研究重点。像图书馆、中国、信息服务等年年都排在前面，这是学科的研究重点。近五年来高频关键词统计如表4所示。表42001~2005年高频关键词统计表(各前10位) 2005年频次 2004年频次 2003年频次 2002年频次 2001年频次图书馆 503 图书馆 1018 图书馆 915 图书馆 802 图书馆 622 数字图书馆 298 数字图书馆 381 数字图书馆 369 高校图书馆 507 高校图书馆 326 高校图书馆 250 高校 351 信息服务 325 数字图书馆 391 数字图书馆 265 知识管理 143 中国 334 中国 319 中国 282 中国 263 中国 129 信息服务 285 高校 266 信息服务 272 信息服务 238 信息服务 128 读者服务 177 高校图书馆 240 网络环境 271 网络环境 205 网络环境 95 知识管理 153 网络环境 214 图书馆管理 137 知识经济 100 公共图书馆 93 信息检索 124 读者服务 190 企业 136 因特网 99 信息资源 93 数据库 123 网络信息资源 143 知识管理 123 图书馆管理 99 信息检索 82 资源共享 108 图书馆管理 120 图书馆员 115 信息资源 97 关键词的年度分布可以反映历年的研究重点，关键词增长可以反映历年的研究热点。关键词增长的计算方法很多。第一种是年增长量，用当年的频次减去上一年的频次，这种方法的弊端是高频关键词会靠前，如图书馆、中国等高频关键词会轮流排在前面；第二种方法是倍数，用当年的频次除以上一年的频次，这种方法会使得上一年较小的关键词排在前面，尤其是上一年频次为1的关键词；第三种方法是增长率，用当年的频次减去上一年的频次后再除以上一年的频次，得到的是相对于上一年的增长率；第四种方法是相对增长率，用当年的频次除以当年的所有关键词总频次f1，上一年的频次除以上一年的所有关键词总频次f2，然后用f1除以f2，当然也可以除以当年的文献数，这种情况主要是考虑不同年的文献量不一样，这种方法反映关键词在当年比重的增长情况；第五种方法是当年的关键词频次减去上一年的关键词频次再除以该关键词所有年的总频次，这种方法能够反映该关键词增长的高峰期，避免了基数大的词在当年排在了前面；第六种方法是把所有上一年为低频的次年变成高频的关键词统计出来，这种方式能反映出关键词的快速增长期，反映出新的研究热点。不同的计算方法有不同的优缺点，可以满足不同的需求。下面分别用第三种方法和第六种方法来分析近十年来的研究热点。用第三种方法计算高增长率的研究热点如表5所示。表51996~2005年高增长率的研究热点统计表（增长倍数） 2005年 2004年 2003年 2002年 2001年文章分析 12 问题 22 电子政务 17 服务理念 12 图书馆学教育 25 虚拟参考咨询服务 11 用户满意度 12 文献保障体系 13 信息获取 11 外国 23 向量空间模型 10 构建 10.5 信息共享 11 以人为本 11 学科发展 14 图书馆用户 10 随书光盘 9 读者意识 11 人力资源 10 竞争情报系统 13 信息资源整合 9 PHP 9 信息分类 9 建设目标 9 人力资源管理 12 开放存取 9 语义网 9 计算机软件 9 信息检索系统 9 CSSCI 10 制定 9 图书馆功能 8 信息发布 7 互操作 9 个性化服务 10 图书馆馆藏 8 B／S模式 8 图书馆合作 7 自动标引 9 关键技术 9 新模式 8 意义 8 信息决策 7 网络教育 8 中学图书馆 9 利用 7.5 作者 7.5 网络用户 6 目标管理 8 关系 9 2000年 1999年 1998年 1997年 1996年电子商务 9.3 21世纪 12 知识经济 24 精神文明建设 21 文献利用 12 馆员素质 9 开发利用 9.7 文献检索 23 网络化 7 情报事业 9 信息咨询业 9 因特网 9.6 发展对策 19 电子出版物 6 信息教育 7 Intranet 8 大学图书馆 8.5 读者服务 18 信息资源管理 6 布局 6 信息交流 8 策略 8 开发 8.8 设计 6 图书馆网 5 表中列出了从1996年到2005年的增长较快的关键词，2001~2005年选取了前十名，1996~2000选取了前五名，它们大都实现了比上一年的十倍左右的增长。其中有一些能反映出研究热点，如2003年的电子政务、2000年的电子商务等，而有一些却不能反映研究热点，如2005年的制定、2002年的建设目标等。下面以第六种方法分析近十年来新的研究热点，如表6所示。表61996~2005年突增研究热点统计表 2005年 2004年 2003年 2002年 2001年本体 21/3 问题 46/2 信息共享 48/4 入世 28/4 影响因素 28/3 利用 17/2 网络导航 24/4 机读目录格式 21/4 服务理念 26/2 改革 26/4 对策研究 16/3 构建 23/2 数据库检索 21/4 用户培训 20/4 图书馆学教育 26/1 比较分析 16/3 馆藏 20/4 电子政务 18/1 复合图书馆 17/4 外国 24/1 现状分析 15/3 职业培训 19/4 立法 17/4 网络信息资源开发 17/4 馆际互借 22/3 网上 15/2 隐性知识 18/4 信息开发 15/4 著作权 17/2 西部地区 20/3 图像检索 14/4 作者 17/2 大学 15/4 职能 16/4 运行机制 19/4 优化 13/4 关键词 16/4 业务流程重组 14/4 社区图书馆 16/3 INTERNET 19/4 层次分析法 13/3 网格技术 15/3 文献服务 14/4 现代图书馆 15/4 SCI 18/4 文献计量 13/3 策略 15/2 图书采访 14/4 著作权法 15/4 西部大开发 18/3 2000年 1999年 1998年 1997年 1996年电子商务 31/3 21世纪 39/3 知识经济 25/1 精神文明建设 22/1 读者研究 14/3 信息资源建设 26/4 开发利用 32/3 文献检索 24/1 数字图书馆 14/3 文献利用 13/1 互联网 26/4 比较研究 19/3 发展对策 20/1 电子出版物 14/2 图书馆网 12/2 图书馆服务 17/3 大学图书馆 19/2 读者服务 19/1 主题词 12/3 信息资源开发 16/2 著录 18/3 统计分析 13/4 利用 11/4 表6中列出了从1996年到2005年的增长突快的关键词，斜杠前面的为当年出现的次数，斜杠后面的为上一年出现的次数，本表列出的全是上一年不足5次，而当年出现的频次超过10次的关键词。如2005年的本体，2004年的隐性知识与网格技术，2003年的信息共享与电子政务，2002年的入世，2001年的西部地区和西部大开发，2000年的电子商务，1999年的21世纪，1998年的知识经济，1997年的精神文明建设等都反映了当年的时代特征和研究热点。当然针对每个关键词分年统计得到关键词的生命周期线，更能说明问题。 7 结束语关键词是作者自行抽取或者数据库加工商补充的。不同的人抽取关键词的原则有很大的不同。所以关键词的词频分析能说明一点问题，但离文章内容分析差的很远，甚至还谈不上内容分析。但对关键词、标题和文摘的分析是内容分析的基础。真正的内容分析一定是针对文章的正文字段，在已有关键词、标题和摘要分析的研究基础上，利用这些概率词典和句法结构，正文分析的研究可以适当进行小规模实验。最能反映文章内容的当属文章正文，可是正文结构复杂、内容繁多、数据获取较困难，因此目前进行大规模正文分析还是很有难度的。随着越来越多的文章采用pdf转换而不是扫描得来的数据，元数据的不断扩充，RDF及XML的广泛应用，本体库的逐步构建，加上自然语言处理的研究新热与人工智能的飞速发展，进行大规模正文分析的日子也是越来越近。在图书情报界，构建其它领域本体的比较多，如花卉、民乐、军事、医学等，但还没有发现构建图书情报本领域的本体，本体在图书情报界如此之热，我们却不研究自己的本体。图书情报学和语言学、数学一样作为一个独立的学科领域，既有自己的学科属性，同时也为其它领域提供支撑。元数据研究了这么多年，主要还是针对文献的外部特征，没有深入到正文字段的内容描述。如文章内的论点、论据、论证、定义、诠释、分类、关键技术、难点、重点、发展历史、国外进展、应用前景、实验数据、实验过程、实验结果、测试、评价、缺点、尚未解决的问题等描述文献内容的元数据却少人问津。只要图书情报领域的专家把文献内容元数据构建起来，语言学家把描述这些元数据的语言学规律总结出来，进行真正的内容分析不是没有可能。一旦能够对正文内容进行分析，那计算机可做的事情就多得很了，搜索、文摘、分类、知识抽取(温有奎教授使用的知识元挖掘)等一系列的课题便会迎刃而解。参考文献〔 1 〕苏新宁．图书馆、情报与文献学学术影响力研究报告 (2000-2004) ――基于 CSSCI 的分析〔 J 〕情报学报， 2006 ，（ 2 ）： 131~153. 〔 2 〕马费成，张勤．国内外基于知识管理研究热点基于词频的统计分析〔 J 〕．情报学报， 2006 ，（ 2 ）： 163~171 . 〔 3 〕李长玲，化柏林．我国网络计量学研究的文献计量分析〔 J 〕．图书情报工作， 2006 ，（ 9 ）： 46~50. 〔 4 〕化柏林，张新民．情报学学科范畴研究的方法论〔 J 〕．情报学报， 2007 ，（ x ）〔 5 〕朱庆华，陈铭．信息分析基础、方法及应用〔 M 〕．北京：科学出版社， 2004 ： 150 . 〔 6 〕李保利，陈玉忠，俞士汶．信息抽取研究综述〔 J 〕．计算机工程与应用， 2003 ，（ 10 ）： 1~5,66. 〔 7 〕李文兰，杨祖国．中国情报学期刊论文关键词词频分析〔 J 〕．情报科学， 2005 ，（ 1 ）： 68~70 . 作者简介：化柏林(1977-)，男，山东临沂人，助理研究员，硕士，从事自然语言处理研究。

个人分类: 情报探讨|4143 次阅读|0 个评论

图书情报学核心期刊论文关键词计量分析研究(上)

huabolin 2008-10-24 11:07

图书情报学核心期刊论文关键词计量分析研究 ( 上 ) 化柏林中国科学技术信息研究所，北京 100038 （发表于《情报科学》2007年第5期）应用型计量分析分为四类，其中主题型计量分析与评价型计量分析占主流，而预测型计量分析与资源获取型计量分析却很少。本实验以获取可计算资源为目的，从中文科技期刊数据库(重庆维普)选取了1989年到2005年的17种图书情报学核心期刊(2004版)的所有论文，利用VBA对文献的关键词进行统计分析，主要从数量分布、词长规律、增长趋势以及关键词与文章的数量关系进行了分析，并按功能对关键词进行了分类。 ******************************************* 表1高频关键词前100位关键词频次关键词频次关键词频次关键词频次关键词频次图书馆 5855 读者服务 718 研究 367 信息组织 275 教育 227 中国 3550 发展 702 信息管理 359 文献检索 274 现状 225 信息服务 2103 知识管理 655 期刊 357 计算机 274 继续教育 225 高校图书馆 1998 资源共享 652 电子商务 355 信息 267 信息服务业 224 数字图书馆 1889 图书馆自动化 595 21世纪 351 特点 263 大学生 221 图书馆管理 1237 信息产业 593 竞争情报 349 馆员素质 260 网络 220 高校 1228 信息检索 580 期刊工作 348 信息需求 257 信息市场 216 图书馆学 1157 美国 575 引文分析 345 文献检索课 254 信息资源管理 215 图书馆工作 1135 知识经济 564 信息资源建设 340 信息化 253 信息系统 213 图书馆事业 1079 网络信息资源 540 中图法 338 管理 253 网络建设 213 网络环境 1068 藏书建设 535 开发利用 332 图书分类法 251 图书采购 211 公共图书馆 991 信息技术 480 市场经济 329 图书编目 246 数字化 209 数据库 961 文献计量学 477 数据库建设 326 计算机网络 245 主题标引 208 院校图书馆 955 搜索引擎 476 文献资源 324 知识产权 243 互联网 201 情报学 940 情报工作 462 元数据 316 电子出版物 238 馆藏建设 200 情报检索 810 因特网 412 人才培养 310 计算机应用 237 标准化 198 读者工作 793 Internet 405 参考咨询 296 情报研究 232 XML 198 图书馆员 785 发展趋势 397 文献资源建设 296 图书馆建设 232 比较研究 194 企业 739 网络化 386 理论研究 282 核心期刊 230 第三版 192 信息资源 732 情报服务 382 期刊管理 279 机读目录 230 电子阅览室 191 ******************************************** 第一类关键词：限制性关键词限制性关键词主要限定研究的范畴，以时间、地区等限制性名词居多，如中国、高校、企业、国外、21世纪、入世等。 ******************************************** 第二类关键词：主题性关键词主题性关键词主要反映文章主题内容，主题性关键词从类的概念上又分为上位类关键词、同位类关键词和下位类关键词。同位类关键词相当于主题词，上位类关键词是反映文章的类属，而下位类关键词反映主题的细分。如李保利等的一篇《信息抽取研究综述》文章，文章的主题是信息抽取，研究领域属于自然语言处理，而命名实体识别是信息抽取的一个研究重点。所以这三个词都出现在作者提供的关键词里。 ******************************************** 第三类关键词：槽关键词槽关键词，也称属性关键词，反映主题的研究侧面，如设计实现、比较研究、现状、发展趋势等。文献认为这些词是非实质性词，它们的确不是主题词，但可以是关键词。同一个主题不同的研究侧面会使文章内容有很大的不同，如同样研究搜索引擎，应用技巧型文章、技术实现型文章与发展趋势型文章会有相当大的差别，因此应该提供一个关键词来刻画文章的研究重点，以示区别，这为通过关键词进行精准检索带来了非常大的方便。 ******************************************* 图书情报学核心期刊论文关键词计量分析研究(上)

个人分类: 情报探讨|3130 次阅读|0 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: 计量分析

相关帖子

相关日志

关闭 安全验证

标签: 计量分析

相关帖子

相关日志

关闭安全验证