科学网

 找回密码
  注册

tag 标签: 信息检索

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

计算机音乐建模与检索(CMMR 2010)国际会议预报
wanyuehua 2009-12-7 06:10
7th International Symposium on Computer Music Modeling and Retrieval (CMMR 2010) 会议网址: http://www.icad.org/node/3106 论文提交截止日期:2010年1月15日,录用通知:2010年3月1日 会议地点:西班牙马拉加,2010年6月21日2010年6月24日 该会议基本是每年召开一次,CMMR 2010已是7届,历届会议论文均刊登在Springer出版的丛书丛刊《Lecture Notes in Computer Science》上,2010年的7届会议论文仍旧刊登在《Lecture Notes in Computer Science》,该会议论文均被EI、ISTP收录。 2008年5届CMMR会议刊登在Lecture Notes in Computer Science,2009年Volume 4969被EI、ISTP收录23篇,其中芬兰5篇,丹麦、德国各3篇,法国2篇,比利时、巴西、意大利、挪威、西班牙、突尼斯等各1篇。 会议主题: Auditory perception and cognition * Virtual reality, augmented reality and human-computer interaction * Digital music libraries * New methods for music representation and visualization * Retrieval and recommendation tools * Games and interactive learning * Music production and composition tools * Structuring of audio data * Cooperative music networks * Analysis, recognition, comparison, classification, and modeling of sound and music * Music and sound data mining * Sound synthesis * Optical music recognition * Semantic music technologies * Sound source separation * Music structure analysis * Music transcription * Artificial intelligence and cognitive science for sound and music
个人分类: 国际会议预报|4808 次阅读|0 个评论
专利信息的检索与应用
icstu1 2009-11-23 14:36
专利信息的检索与应用
个人分类: F 描述场景与回溯某个实例|945 次阅读|0 个评论
情报语言学专家对术语学的论述
timy 2009-10-21 18:21
转摘于: 张琪玉, 情报语言学的若干研究心得和收获张琪玉学术思想自述 ,《图书情报工作》2009年10月【专家视点】 4. 术语学 我认为,术语学对情报语言学极其重要。术语是指称概念的规范化符号,情报检索语言的语词则是指称文献主题概念的规范化符号(标识),术语与情报检索语言的语词两者存在着本质的一致性。从这一角度看,术语学与情报语言学的研究对象可以说是同一事物,情报语言学所研究的是如何编制用于情报检索领域的术语词典──分类表、词表、代码表。   情报检索语言的编制可以说是 术语整理 (规范化、统一化、标准化)工作成果的诸多应用领域之一。术语整理工作的原则,要求术语具有:单义性、标准化术语的字面意义同它所表达的概念的一致性、系统性(术语应尽可能反映概念之间实际存在的、在系统化过程中确定下来的关系)、稳定性和普遍性、简洁性、语言的正确性、借用外来语的不可取性等,这些要求与情报检索语言的选词、规范化处理和显示概念关系等的要求都是一致的。所以,术语整理工作成果( 术语标准 、 推荐术语集 、 术语词典 等,特别是有 术语定义 和 分类体系 的术语文献)是情报检索语言选词的主要来源和进行规范化处理及 建立概念间关系 的重要依据。情报检索语言编制中的失误,有很多是忽视对术语整理工作成果的利用所造成的。   所以,术语学与情报语言学有着极为密切的关系,情报语言学研究者对术语学的研究必定会获益匪浅。 附: 该文的全文链接 : http://www.lis.ac.cn/CN/article/downloadArticleFile.do?attachType=PDFid=10356 张琪玉先生介绍 :   张琪玉,男,1930年6月7日生,1954年7月毕业于北京大学图书馆学系。曾任武汉大学图书情报学教授、图书馆学情报学研究所所长、空军政治学院图书档案系(现南京政治学院上海分院军事信息管理系)主任、教授,2001年3月退休。从20世纪70年代末起开拓情报语言学新领域。学术观点对我国情报检索语言领域的理论与实践起到了积极的导向和推动作用。出版专著20部,主编参编专著16部,发表论文、译文约400篇,《张琪玉文库》光盘1张。
个人分类: 信息检索|5260 次阅读|1 个评论
信息检索领域的又一个重要奖励:Karen Sparck Jones奖
timy 2009-10-15 10:11
信息检索领域最著名的奖是Gerald Salton奖,由信息检索领域顶级会议SIGIR发布,获得Salton奖的,毫无疑问是IR里公认的大牛,比如仙逝的Salton与Karen、Rijsbergen、Robertson、Dumais、Croft等。 欧盟向来有与美国争夺科技制高点的传统,老美搞SIGIR,EU就搞ECIR(European Conference in Information Retrieval),SIGIR设立SALTON奖,ECIR就出来了Karen Sparck Jones奖。 无论从纪念Karen教授的角度,还是从推动IR研究与应用的角度来说,这都是大好事。 关于Karen奖的情况可以参见下面附件。 -------------------------------------------------------------------------- 附: Karen Sparck Jones Award情况 BCS / BCS IRSG Karen Sparck Jones Award An Award to Commemorate Karen Sparck Jones *** Information Retrieval and Natural Language Processing **** *** Deadline for nominations 30 October, 2009 **** The British Computer Society Information Retrieval Specialist Group (BCS IRSG) in conjunction with the BCS has created an award to commemorate the achievements of Karen Sparck Jones. Karen was an Emeritus Professor of Computing and Information at the University of Cambridge and one of the most remarkable women in computer science. Her contributions to the fields of Information Retrieval (IR) and Natural Language Processing (NLP), especially with regards to experimentation, have been outstanding and highly influential. Karen's achievements resulted in her receiving a number of prestigious accolades such as the BCS Lovelace medal, for her advancement in Information Systems, and the ACM Salton Award for her significant, sustained and continuing contributions to research in information retrieval. In order to honour Karen's achievements, the BCS/BCS-IRSG has established an annual award to encourage and promote talented researchers who have endeavoured to advance our understanding of Information Retrieval and Natural Language Processing with significant experimental contributions. To celebrate the commemorative event, the recipient of the award would be invited to present a keynote lecture at the BCS-IRSG's annual conference the European Conference in Information Retrieval (ECIR). This forum provides an excellent venue to present and announce the award as the conference attracts many new and younger researchers. The recipient would also be presented with a prize consisting of a certificate, a trophy and a cash prize of 1000 plus expenses to travel to ECIR. BCS/BCS-IRSG Karen Sparck Jones Award: Eligibility: Open to all IR/NLP researchers, who have no more than 10 years post doctoral or equivalent experience. Criteria: To have endeavoured to advance our understanding of IR and/or NLP through experimentation. Nominations: The following should be provided - name, position, affiliation, years since completing PhD, a short case for the award (composed of a short description of why the individual should receive the award), a short description of what contributions the individual has made, a list of the individuals top five publications reflecting the relevant contributions, and two referees. The nomination text should not exceed 2500 words. If you are intending to nominate someone or yourself, it would be helpful, at this stage nearing the deadline, if you could let us know in as soon aspossible in advance (contact as per further below ayse.goker.1@soi.city.ac.uk). Award Panel: The Panel Chair, appointed by the BCS IRSG Committee, will invite panel members from amongst representatives of the BCS main council, the BCSIRSG Committee, sponsoring organisation(s), as well as at least two experts appointed by the BCS-IRSG committee and the Awards Coordinator of the BCSIRSG. Prize: The recipient of the award would receive a certificate, a trophy, a cash prize of 1000 plus expenses to travel to ECIR to present the keynote lecture. Presentation: The recipient of the award is expected to give a keynote lecture at ECIR when he/she would also be presented with their trophy, and cash prize. Timeline: 8 April, 2009 - Call for nominations. 30 October, 2009 - Deadline for nominations. 15 December, 2009 - Notification of the prize winner. 28-31 March, 2010- Winner presents keynote at ECIR. Sponsors: Currently, the award is being sponsored by the BCS IRSG and Microsoft Research Cambridge. Contact: Ayse Goker, ayse.goker.1@soi.city.ac.uk http://irsg.bcs.org/ksjaward.php http://irsg.bcs.org/ksjaward/KSJ_Award_Flyer_final.pd
个人分类: 研究方法|5994 次阅读|0 个评论
中文Web信息检索评测CWIRF
rbwxy197301 2009-10-6 10:09
中文Web信息检索评测CWIRF 资料来源: http://www.cwirf.org/Evaluation/CWT.html 2009年3月-2009年5月,SEWM2009中文Web信息检索评测 评测通知, 评测结果 海量查询 评测指南 文档集:CWT200g网页集合 查询集: 海量查询 相关结果集 2007年10月-2008年4月,SEWM2008中文Web信息检索评测 评测通知 主题型网页发现任务和网页内容信息块发现 评测指南, 附加说明, 评测结果 文档集:CWT70th网页集合, 说明 训练集:网页内容信息块训练集 相关结果集:主题网页,网页内容信息块 非网页数字资源分类 评测指南 文档集:CDAL16th中待评测数据集, 说明 训练集:CDAL16th中数字资源训练集 垃圾邮件过滤 请访问, http://www2.scut.edu.cn/antispam/ 2006年10月-2007年3月,SEWM2007中文Web信息检索评测 评测通知, 评测指南 附加要求 评测结果及说明 文档集:CWT200g网页集合 查询集,包括: 主题提取, 和导航搜索 相关结果集包括:主题提取答案(docid形式) 以及 主题提取答案(url形式)(说明:总计70个任务,保留了56个主题并提供答案。) 导航搜索答案 导航搜索答案(url形式),采用pooling方法构造完成 other information. 会议报告 2006年3月-7月,SEWM2006中文Web检索评测 评测通知, 评测指南, CWT200g检索工具和浏览工具说明 评测结果及说明 文档集:CWT200g网页集合 查询集,包括: 主题提取, 和导航搜索 相关结果集包括:TD在20g上的相关结果集 以及 TD在200g上的相关结果集(说明:总计70个任务,保留了65个主题并提供答案。) 导航搜索在20g上的答案(说明:在20g上只有34个主题并提供答案。) 导航搜索在200g上的答案,采用pooling方法构造完成 会议报告 2005年4月-9月,SEWM2005中文Web检索评测 评测通知, 评测指南, 附加要求, 提交结果检查程序, 评测结果 文档集:CWT100g网页集合, CWT100g文档编号 查询集,包括: 主题提取, 和导航搜索 (导航搜索包括主页和 指定页面 查询,混合在一起是为了增加难度). 构造方法是首先从2002年4月到2004年6月天网日志中采样获得待选集合,然后人工挑选编辑完成. 相关结果集,包括: 以docid形式给出的主题提取答案, 以url形式给出的主题提取答案 (说明:总计75个主题任务,最后保留了60个主题并提供答案。原因是有2个主题没有找到相关网页,有13个主题的答案少于3个) 导航搜索(包括主页和指定页面查询)答案. (说明:没有提供网页内容一样,URL不同的答案), other information. 采用Pooling方法构造完成。 2004年6月-11月,SEWM2004中文Web检索评测 评测指南, 评测结果. 文档集:CWT100g网页集合. 查询集,包括: 主题提取和 导航搜索(包括主页和指定页面查询). 相关结果集,包括: 主题提取答案 (说明:总计70个主题任务,最后保留了50个问题并提供答案。原因是有些问题的答案过少,没有通过评测人员第二轮的检查被去掉,或者个别评测人员没有按时提交答案)和 导航搜索(包括主页和指定页面查询)答案. (说明:没有提供网页内容一样,URL不同的答案). 采用Pooling Plus方法构造完成, 即:将搜索引擎转换为虚拟参赛队,参与结果集合成。这样,即使参加队数量不多,也能合成质量较高的结果集,达到检验参与系统检索质量的目的。
个人分类: 信息检索|4874 次阅读|0 个评论
我的“信息检索与分析讲课资料”全在博客里
xupeiyang 2009-9-23 10:41
不少朋友想了解或需要我的信息检索和信息分析方面的讲课资料,我都放在博客里了,欢迎你获取资料,与你共享信息。 需要协和 许培扬 医学文献网址PPT 更多相关内容请访问医药家园论坛 2007.3.19第九期《临床科研课题设计与实施》协和医大信息所 许培扬 的有关医学文献网址PPT挺好,哪位网友奉献出来,谢谢 不一定上传或者外传了吧,再等等看?http://www.wsj.chengdu.go.cn:88/webnew/bgxz... web.degree-distance.net/dxyz-b-6-t-8535828 42K 2009-1-8 - 百度快照 互联网上的医学信息资源 互联网(Internet)是当今世界上最大的信息网络.按照国际公认的提法,互联网是一个没有***,没有法律,没有国界,也没有总统的电脑空间(Cyberspace).由美国国防部高级研究计划管理局建立的ARPANET发展而来. 自1982年建立以来,目前覆盖包括我国在内的150多个国家,网上有150多万个网址,3.5亿个网页,上网人数超过二亿.网上有600个以上的大型图书馆,400个联网的学术文献库,6000多种网上期刊杂志,900多种新闻媒体的网络版,总计约100多万个信息资源.其中30%以上为生物学和医学类的信息,仅医学类网站就超过4000个. ☆数量巨大,分布广泛,呈很高的离散 程度; ☆组织形式五彩缤纷,囊括了人类社会 所能接触到所有信息资源(电子邮件, 实时交谈,公告,文献期刊,多媒体 等; ☆利用方便,更新速度日新月异,非其 他信息资源所能相比; 网络医学信息资源的特点 ☆检索方式多种多样,同一种信息资源可 用多种方式访问,界面更加用户友好; ☆质量参差不齐,内容纷繁芜杂,信息内 容不完整,不明确,名不符实; ☆检索无统一格式,规范化程度较低,各种 搜索引擎的检索策略各不相同, 查全查 准率不高, 需与其他品牌数据库结合使 用. _ 互联网上常用医学资源简介 网上医学信息资源一般分为四大类: 检索工具类:主要包括搜索引擎,虚拟图书馆和导航系统等; 文献类:主要包括数据库和网上(电子)期刊; 数据类:如GenBnak 综合类:包括重要的机构网站,商务网站和图书网站等. 检索工具类网站 常用医学搜索引擎和导航系统: 最常用的有Yahoo, Go(Infoseek), Medical Matrix, Health AtoZ, Achoo, Excite, 天网(WebGather)和中国生物医学信息网等. Yahoo (http://www.yahoo.cn/) 据统计,这是互联网上访问量最大的网站(7千万人次/月),目前,各类网站总数达22,366个.由美国斯坦福大学研制的世界上最著名的信息资源查询系统. 共有20多万个条目,卫生组有48组栏目.其最大特色是提供优秀的主题浏览工具,对网点信息按主题建立分类索引,其分类科学,准确,类目详尽,提供类目交叉显示,网站提要简练,严格. Go(Infoseek) (http://www.go.com) 是1995年由Infoseek公司推出, 可对2500万个www,FTP,Gopher和NewsGroups网点进行全文索引的搜索引擎,是网上第一家收费的查询系统.1998年被迪斯尼公司收购,并入Walt Disney Internet Group's (WDIG)信息网. 天网(WebGather) (http://pccms.pku.edu.cn:8000),由北京大学研制开发,主要提供检索中国教育和科研计算机网络上的 Web资源. 目前搜集了100多万个WWW页面和14万NewsGroup文章,其特点为:信息更新较快,功能规范;反馈内容完整,支持电子邮件查询,无分类查询. Medical Matrix (医源) (http://www.medmatrix.org) 由美国医学信息学会主办,是 目前最重要的医学专业搜索引擎. 目前共收录了以美国为主的临床医学站点3800多个.是一个可免费进入的临床医学数据库,提供了关键词搜索和分类目录搜索,最适合临床医师使用.内容全面专业,是首选的国外医学专业搜索引擎. Cliniweb International (国际临床网) (http://www.ohsu.edu/cliniweb/): 一个基于分类目录的临床医学搜索引擎,由美国Oregon医学院组建.其特点是: 采用统一医学语言系统(Unified medical language system)标引系统,可使用户输入的不规范词自动转换成Mesh词进行检索, 避免了用户查找规范词的麻烦和漏,误检的可能. 连接了10,000多个临床资源节点,可通过逐级浏览(browsing)和查找(searching)两种方式进行检索.特别适用于预防保健专业的医学生和开业医生,不适于科研人员. Achoo ( http://www.achoo.com/ ) Achoo是加拿大安大略MNI系统公司1996年创建并维护的医学搜索引擎节点,其目的是向用户提供全面可靠的卫生保健信息,涉及临床,替代医学和医药经营等方面. 是Internet上用户较多的医学专业搜索引擎.在Lycos的Top5%排行榜中,Achoo不但列医学搜索引擎的首位,而且是整个医药卫生健康类节点的冠军.Achoo收录了数以千计的医学资源,还辟专栏介绍每周新入节点和反映医学最新进展,最新发现的页面. Health A to Z (http://www.healthatoz.com/)_ 1994年由美国Medical Network公司开发,是一个功能强大原因特网上免费全文医学信息资源搜寻器,可对医学信息进行准确,有效的搜索,为医学工作者和健康消费者提供搜索医学信息的网站,它提供了50000多个Internet上的健康和医学相关网址,可根据主题词进行检索,或疾病名的首个字母进行检索. Medscape(医景)_ (http://www.medscape.com/_) 美国Medscape公司1994年研制,1995年6月投入使用,由功能强大的通用搜索引擎Altaista支持,可检索图像,声频,视频资料,至今共收藏了近20个临床学科25000多篇全文文献,拥有会员50多万人,临床医生12万人.是Web上最大的免费提供临床医学全文文献和继续医学教育资源(CME)的网点. 可选择Fulltext,Medline,DrugInfo,AIDSLine,Toxline,Whole,Web,News,Medical Images,Dictionary,Bookstore,等10多种数据库进行检索,同时还可浏览每日医学新闻,免费获取CME各种资源,免费获取Medpulse,同时网上查找医学词典和回答用户咨询,提供根据疾病名称,所属学科和内容性质(会议报告,杂志文章的全文或摘要等)分类检索(The Medscape Index)._ MedFinder (http://www.netmedicine.com/ medfinder.htm_) 1996年Triple Star System公司研制,是一个由专家手工编制的免费全文医学专业搜索引擎,提供了数千个医学网址,可按主题词进行检索,短语直接输入,词间加空格.其特点是影像学方面的内容特别丰富,该网站提供了大量的病理切片,ECG,CT,MRI,核医学,超声医学方面的内容,共形式包括各种图片,照片,视频和动画. Medweb (http://www.medweb.emory.edu/medweb_) 美国Emory大学卫生学中心图书馆1994年推出,分快速检索(Quick search)和高级检索(Adanced search),单个词或词组用快速检索,多个词的组配用高级检索,界面友好,简单易学易用.还提供了按关键词检索(Browse by keyword)的功能,是查找网络医学信息尤其是预防医学,物理疗法和运动医学信息的一种常用检索工具. Medseekirectory to physicians (http://www.medseek.com/specsear.stm)_ 美国Medseek LLC于1996年推出,主页提供因特网/内部网服务,医生指南,医院指南,医学服务,出版服务,新闻,会历等栏目,用于检索全美各州及各个城市医生和医院信息的网络信息资源搜索器,收集了250,000多名医生的相关信息,同时还收录了有关各州所属医院信息,所提供检索的临床医生数据库和医院指南均由美国数据库公司提供,旨在为医生和病人提供最精确的信息.是了解美国各个州的医院信息及医生信息的重要途径,是网上求医找药的好去处._ Medhunt (http://www.hon.ch/MedHhunt_) 这是瑞士日内瓦的非盈利性组织健康网络基金1996年建立的一个免费全文医学搜索引擎,专为医学工作者使用.在网上址上提供了完整的医学主题词表(MeSH)供使用,同时提供国际上即将举行的医学会议的详细信息.该搜索引擎提供了两个独立的数据库Honoured databast和Auto-Indeced datdbase._ Put Preention Into Practice Preentie Serices http://www.ahcpr.go/clinic/ppipix.htm 美国健康和人类服务部主办,为医生和患者提供服务,用于改善预防性临床服务,内容包括PIP介绍,相关资源链接,预防性护理向导等. 中国医科大学医学导航系统 www.cmu.edu.cn/ 中国医科大学信息中心1999年创立,目前连接了却6295个中外医学专业网址,2300多个医学期刊杂志网址. 中南大学湘雅医学院导航系统 http://www.xymu.net/lib/zz/medguide/ index.htm 文献类医学网站 主要包括各类医学专业数据库,专利数据库和网上期刊等. Medline (http://www.ncbi.nlm. nih.go/PubMed/) 由美国国立医学图书馆,国际MEDLARS成员(中国为第16个成员国)及合作的专业组织共同研制开发,涉及医学,护理学,牙科学,兽医学,卫生保健和基础医学等领域,收录了自1960年中期以来七十一个国家出版的约4000余种生物医学期刊的1200多万条引文和文摘,是目前国际上公认的检索生物医学文献的权威性数据库,也是我国卫生部认定的科技查新必须检索的国外医学数据库. 1997年六月在因特网上提供了该库的免费检索服务. 我们可以利用PubMed和Internet GratefulMed查询此库,与该库的光盘版相比,不仅其更新时间快,而且可以检索PreMedline收录的文献. 万方数据资源系统 (http://www.scitechinfo.com.cn/)由中国科技信息研究所的一家公司研制,主要有三大部分,即科技信息子系统,商务信息子系统,数字化期刊系统.其中科技信息子系统和数字化期刊系统是我们检索国内医学科技文献的重要工具. 数字化期刊子系统(http://www.periodicals.com.cn/) 万方数字化期刊全文内容采用HTML和PDF两种国际通用格式上网,方便读者随时阅读和引用.所有期刊按理,工,农,医,人文等5大类划分,共集纳了70多个类目的2000多种期刊全文内容上网(其中绝大部份是进入中国科技论文统计源的核心期刊),形成了网上期刊的门户特征.目前可通过手机号码上网查询资料. 中文生物医学期刊文献数据库 (简称CMCC) (WWW.MLPLA.ORG.CN)由解放军医学图书馆开发的中文生物医学文献目录型数据库,,收录了自1994年以来1200余种中文生物医学期刊, 约180万条文献记录,,并以每年26余万条速度递增,含盖中国内地全部重要刊和核心刊. 收录范围涵盖基础医学,临床医学,预防医学,医学生物学,中医药学,药学,医院管理,医学信息学等卫生相关信息.收刊全,更新快是该数据库的主要特点.CMCC自1994年创建以来在中国内地和港澳拥有广泛的用户,是国家卫生部门认可的重要检索工具之一,同时也是信息资源共享,检索查新的必备工具. 中国医院数字化图书馆 (HDL)(www.chkd.cnki.net) 由清华同方光盘有限公司和中华医学会研制,CHKD期刊知识库遴选收录我国公开出版发行的医学专业期刊类,生物科学类医院管理类,图书情报类,计算机应用类和外文学习类期刊.收录期刊整刊1227种,部分刊2000多种.1994年至今,累计文献量200多万篇,每年新增50多万.网上数据每日更新.可免费检索期刊题录. _ 《中文科技期刊数据库》 源于重庆维普资讯有限公司1989年创建的《中文科技期刊篇名数据库》,包含了1989年至今的8000余种期刊刊载的830余万篇文献,并以每年150万篇的速度递 增.涵盖自然科学,工程技术,农业,医药卫生,经济,教育和图书情报等学科的8000余种中文期刊数据资源.全面解决了文摘版收录量巨大但索取原文繁琐的问题. 美国专利文献数据库(http://www.uspto.go/patft/ index.html) 由美国专利与商标局在Internet上免费提供的专利信息检索重要工具,收录了1976年以来的美国专利文献200多万篇,其文献的著录项均可作为检索字段,检索非常方便快速.此外,较著名的还有世界专利索引(WPI)(WWW.beici.go.cn/patent). 中国专利信息网 (www.patent.com.cn) 包括发明和实用新型两个数据库,由国家知识产权局(原专利局)出版社开发,发明数据包括了从1985年至今授理的全部共406234条发明专利数据信息.包含专利公开(公告)日,公开(公告)号,主分类号,分类号,申请(专利)号,申请日,优先权等数据项.实用新型数据库包括了1985年至今授理的全部共543263条实用新型专利信息. 补充及替代医学(complementary and alternatie medicine CAM) 数据库: _ ( http://www.pitt.edu/~cbw/internet.html) 由美国Pittsburgh大学医学图书馆的一名馆员Charles B. Wessel创立,,在数据库及网上资源部分与全球多个CAM信息信息网站(包括中医)相联. 此外,较知名的还有: 美国国立卫生院(http://www.nih.go/)补充及替代医学研究所和Yahoo的Health栏目下也有一个替代医学信息资源库. 中国中医药信息网(http://www.cintcm.ac.cn), 由中国中医药研究院信息中心研制,是国内外存储量最大和内容全面的中医药数据库,收录了自建国以来国内公开出版的800多种医学期刊中有关中医和替代医学的共42万条信息.台湾也有一个中医药数据库收录了自70年代以来台湾发表的中医药信息. _ 网上常用医学期刊资源 Internet网上期刊资源极为丰富,种类超过万种,其中有关医学的超过5000种.此外还有以WWW方式制作的电子版刊物. 国际上最著名的网上免费医学期刊网站是Free Medical Journals (http://www.FreeMedicalJournals.com),收录了1300余种生物医学期刊,按分类和刊名(按英文字母顺序排列)检索. Medbioworld (www.sciencekomm.at) 世界上最大的生命科学期刊资源点.包括80多个医学领域5404种医学期刊,1556个医学数据库,4075个医学专科学会网站,此外尚有大量医学新闻和医学会议消息. High Wire Press (http://intl.highwire.org) 世界上最大的联机提供免费学术论文全文的出版商之一,其中4500种期刊可免费检索目次和摘要,有323种可以得到全文,包括生物,医学等领域的核心期刊. 数据类及综合类医学信息资源 1,基因库(Genbank) (www.ncbi.nlm.nih.go) 2,中华人民共和国卫生部 (www.moh.go.cn) 3,世界卫生组织(http://www.who.int/en/) 3,中国生物器材网 (www.bio-equip.com) 4,生命科学图书网 (www.lifescience.com.cn) 美国生物技术信息中心(NCBI)) http: //www.ncbi.nlm.nih.go NCBI 1982年创始了GenBank数据库,1991年开发出Entrez Sequences数据库,可获取基因序列,蛋白质序列以及蛋白质三维结构等生物学研究信息. 世界卫生组织网站简介 WHO在预防医学,世界卫生事业,重大疾病防治,各种标准,全球卫生统计数据信息等方面特色突出,无一能比.主要包括:新闻与卫生政策,卫生主题(Health Topics )分别介绍不同疾病的发病,预防,流行情况和最新研究进展等,还有卫生统计信息等. 互联网其他医学信息资源 电子邮件:科研人员之间交流学术思想的Email ; 电子论坛和网络消息组:如newsgroup等所有生物医学有关的讨论组信息; 文件传输协议(FTP):与医学有关的软件或重要文档; 远程登录(Telnet ):包含许多大型文献或数值数据库; Gopher: 一种菜单驱动的信息查询工具. 分类途径:以文献内容在分类体系中所属类别为线索来查找文献的方法,较好地体现学科的系统性,简明易记,层次分明,便于查全某一学科或专业方面的文献.适合于普通专业技术人员网上资源多有此类分类,多采用中国图书资料分类法.R类为医学. 医学文献检索方法与途径 主题途径:通过文献内容学科性质的主题来进行文献检索.主题是从文献中抽取出来,并能代表文献内容实质的词汇(主题词,关键词等)作为检索标识.主题词是一种经过规范化处理的名词术语. 目前医学界多采用美国国立医学图书馆的MeSH词表(约有1.5万个主题词).该法适于检索比较具体专深的文献,能满足特性检索,查准率较高.专业情报所和图书馆文献检索多用此法. 其他途径:书刊名,著者名,序号(专利和标准文献等),化学分子式和基因标识符号等均可作为检索词使用. 常用检索方式: 基本检索:关键词检索(可使用单词,词组或短语) 高级检索:主题词,布尔逻辑式,字段截词,通配符,大小写敏感检索等 布尔逻辑算符:逻辑与 and ; 逻辑和 or(+);逻辑非 not (-) 通配符: 替代任一半角字符或任一中文字符 不同的资源所用的检索符号略有不同,且各有千秋,请大家在使用时一定要阅读用户指南,FAQ等帮助文件. __网上信息资源检索方法 基本检索 _ 检索入口可输入任意的关键词,主题词,著者姓名,期刊名,布尔表达式及字段限定等. 作者名输入格式为:姓 加上 名的缩小字母(Smith ja);刊名可用全称或MeSH期刊名缩写,以及ISSN号码. 截词检索功能:在一个单词后跟上星号,可以检索所有带有这个词头的单词;词组检索时要将该词组用双引号()括起来;检索词和完成菜单选择以后,按回车键或点击search,检索结果自动显示. _ 检索实例 1. PubMed: SARS control 2. 美国专利文献库:Eyebath (洗眼杯) 3. 中国医院知识库:胃癌预防 4. 中国科技期刊数据库:冠心病 治疗 了解国际国内医学科研水平成果和动向 各学科权威的协会,学会,政府机构网页的News,Conference和Meetings都是跟踪当代医学发展前沿的敏锐窗口;其次要重视学术会议消息,如医师指南(Doctor's Guide) . (www.docguide.com)中的会议资源中心栏目中就有几十个国家的几千条医学会议信息 此外,德国的Fairbase Database Ltd的MediConf (http://www.mediconf.com)也收录了全世界160个国家的未来12个月的10000条医学会议消息,需要付费,约1990美元/年. 如何申请医学科研基金和求职 美国国立卫生研究院(NIH)的网页上的Grant/Contract项目下,有Request for Applictation/Proposals and Program Announcements, Collaboratie opportunities, training and Career Deelopment Program 均为科研基金,合作研究,接受培训的申请人提供各种信息和条件等. 国内的各级科技管理部门的政府网站上也有公开招标的项目指南等. 如何正确看待网上获得的医学信息 严格分析网络医学信息,剔除学术质量不可靠的成分; 一般说来,政府机构,权威学术机构,权威出版社和著名杂志上的网上信息可信度和科学性较强; 搜索引擎由于技术的原因,提供的信息资源不够系统和完整,数据的存取方式流于简单化,检索词的规范化程度低, 影响了检索质量,只能作为正规检索的一种补充,更不能取代正规的专业信息部门的查新检索; 网上医学资源更新快于印刷版和光盘版,但某些内容的稳定性较差,要持分析和审慎的态度. 结束语 学习与掌握医学文献特别是网上信息检索的知识,是人类迈入知识经济新时代中生存和发展的需要,也是检验我们是否是一名合格的现代知识分子的标志之一,我们应通过不断的努力和实践,提高自己文献检索的技能. 医学文献检索课程已经正式列入国家教学大纲,本科生约需50个学时,本课程介绍的只是一个基本的知识和概念,要系统掌握这一技能,尚需进一步学习和实践. 主要参考文献: 1.王铁成,等. Internet生物医学应用. 人民卫生出版社 2000年版 2. 夏云,等. Internet实用技术与生物医学应用 军事医学科学出版社 1997年版 致 谢 本讲座在制作过程中承蒙成都市医学信息所范戎副研究馆员和罗晓堪副研究员的指导和帮助,在此表示衷心的感谢! 谢谢大家! 2005年9月22日 http://lib.lzmc.edu.cn/lib20061012bk/wxjs/WEBjiansuogongju.ppt Web检索工具 文献学教研室 2006.10 WWW Web检索工具 Web检索工具是指提供万维网信息查询的计算机系统. 类型包括: 搜索引擎 目录型检索工具 多元搜索引擎 搜索引擎 (search engine) 自动搜索采集网页信息,自动标引,数据量大,关键词检索功能强,查全率高,查准率低. 典型:Google 目录型检索工具 (Web directory,catalog) 以分类目录检索为主,接受网站推荐,人工参与网页信息的筛选标引,查全率低,查准率高. 代表:Yahoo!,搜狐 特别提示: 多数检索工具同时具有关键词检索和目录浏览功能. 多元搜索引擎 (metasearch engine) 通过统一的用户界面,可同时查询多个独立的Web检索工具,然后对这些结果进行加权等处理后返回给用户. 例如: All-in-One,Meta crawler,Web Search 天网搜霸:强大的搜索引擎集成工具. 飓风搜索通:整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐,股票,新闻等类别的全方位互联网信息检索工具. Web检索工具的工作原理 对采集到的网页信息数据, Robot等会自动抽取表达网页主题意义的词作为关键词来构建数据库索引.有的网络检索工具同时采用人工标引. 利用网络自动搜索软件Robot或Spider,以一个URL清单为向导,定期对Internet上的网页进行扫描搜索,记录下网页的有关事项. 信息采集 数据标引 数据组织 检索功能 Web检索工具的工作原理 标引后的网页数据形成检索工具数据库中的一条条记录,每条记录对应于一个网站或一个网页.记录内容包括网页标题,摘要或关键词,网址,网站网页与输入关键词的相关程度等 . 布尔算符检索(AND + ,OR,NOT -),截词检索,词组检索 ,自然语言检索,概念检索,分类浏览,检索限定,语种翻译,自动排序等. 数据标引 数据组织 检索功能 信息采集 综合型Web检索工具 Yahoo! Google Lycos Excite Altaista Infoseek HotBot http://www.yahoo.com http://www.google.com Http://www.lycos.com http://www.excite.com http://www.altaista.com http://www.go.com http://www.hotbot.com http://www.yahoo.com Yahoo!的两位创始人大卫费罗(Daid Filo) 和杨致远(Jerry Yang),美国斯坦福大学电机工程系的博士生,于1994年4月建立. Yahoo!(雅虎)是最早最著名的目录型检索工具,在全球共有24个网站,12种语言版本. (参见雅虎中国) http://cn.yahoo.com http://www.google.com Google 的释义 Google 是由英文单词googol变化而来.googol是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字.Google 使用这个词代表公司想征服网上无穷无尽资料的雄心. 两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立了 Google. 关于Google Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法.通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒.现在,Google 每天需要提供 2 亿次查询服务. Google特点 提供搜索引擎功能,速度极快. 检索网页数量达24亿,搜索引擎中排名第一. 支持多达132种语言;包括简体和繁体中文; 具有手气不错,网页快照,图片搜索,新闻组搜索等功能; 界面非常简洁. 运算符:空格表示逻辑与;减号表示逻辑非;OR表示逻辑或;对短语或句子搜索时必须加英文引号. 中文Web检索工具 百度(http://www.baidu.com) 搜狐(http://www.sohu.com) 新浪(http://www.sina.com.cn) 网易(http://www.163.com) 百度由李彦宏先生及徐勇博士于1999年底成立于美国硅谷,2000年回国发展. 百度是是世界上最大的中文搜索引擎,支持搜索1亿3千万中文网页,中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持. Http://www.baidu.com Http://www.sohu.com 国内著名搜索引擎之一,公司成立于1996年,提供关键词查询,分类查询(目录导航),高级搜索三种. 目前全球最大规模的中文网站.共有18个大类目录,1万多个细目.提供一般检索,进阶检索,高级搜索,图片搜索等检索功能. Http://www.sina.com 是国内较早成立的大型门户网站,提供多语言检索,同时拥有全国最大的开放式管理目录. 具有分类检索(目录导航),关键词检索功能. Http://www.163.com 使用搜索引擎注意事项 1.分类体系的差异 2.关键词标引 3.高级搜索中运算符的使用 4.不同的查询服务 类目设置和划分不一:如教育大类,新浪分出44个下位类;搜狐有34个;网易只有24个. 类名表述的不同:如新浪用计算机;网易用电脑. 空格(AND),(AND), (NOT),|(OR),( ) 表示一个整体单元. 网站,网页,新闻,软件等 特殊的:图片,多媒体 医学搜索引擎 Medscape(医景): http://www.medscape.com Medical Matrix (医源): http://www.medmatrix.org/Index.asp Medical world search(医学世界检索): http://www.mwsearch.com/ CliniWeb International(国际临床网): http://www.ohsu.edu/cliniweb/ HealthFinder :http://www.healthfinder.go/search Medwebplus:http://www.medwebplus.com Health A to Z:http://www.healthatoz.com/ Medscape http://www.medscape.com 简介:共收藏了近20个临床学科2.5万篇文献,是Web 上最大的免费提供临床医学全文文献和继续医学教育资源的网点. 特点:可检索图像,声频,视频资料.提供Fulltext,Medline,DrugInfo AIDSLine,Toxline,Whole,Web,News,Medical Images,Dictionary,Bookstore等10多种数据库进行检索,同时还可浏览每日医学新闻,免费获取CME各种资源,免费获取Medpulse,同时网上查找医学词典和回答用户咨询,提供根据疾病名称,所属学科和内容性质(会议报告,杂志文章的全文或摘要等)的英文按26个字母顺序进行分类检索(The MedscapeIndex)._ Medical Matrix http://www.medmatrix.org/index.asp 简介:由美国医学信息学会主办,1994年创建,是目前最重要的医学专业搜索引擎.它是一种由概念驱动和免费全文智能检索工具,包括4600多个医学网址. 可免费进入但第一次要注册. 特色:提供了关键词搜索和分类目录搜索,最适合临床医师使用.分类目录搜索是它的主要特色,按各种医学信息分为专业,疾病种类,临床实践,文献,教育等8大类.每一大类下再根据内容的性质分为新闻,全文和多媒体,摘要等亚类. _ CliniWeb International http://www.ohsu.edu/cliniweb 简介:这是由美国The Polytechnic Research Institute 1997年建立的一个医学专业搜索引擎,收集了数以千计的医学网点近10万个Web页面. 特点:它采用了NLM研制的一体化医学语言系统,可以使用540000多具医学主题词,包括各种同义词进行检索,在检索时可根据词表扩大或缩小检索范围,搜索的准确性很高.同时还提供扩展检索,精细检索功能,大小写无差别,免费全文检索,结果进行相关排序. 通过PubMed免费检索Meline,提供HotBot,infoseek,Altaista\Webcrawler的检索. 对注册的用户能自动记住最近的十次检索和最近通过Medical world Search进入的十个网页,以供随时调用. 小结: 1.了解Web检索工具类型 2.了解工作原理 3.熟悉常用中文Web检索工具 4.了解外文Web检索工具 网络信息资源的获取 Web检索工具(搜索引擎) 专业网站 虚拟图书馆及学科专业导航库 电子期刊,电子图书 网络数据库(文摘数据库,全文数据库) 下节预报 http://202.202.129.11/ziliao/网上免费生物医学资源介绍0610.ppt 信息技术部 欧荣 免费全文期刊网站介绍 期刊发行现状 外文期刊价格昂贵,逐年上涨 开放式存取, 读者免费获取 免费资源特点 大部分网上免费学术期刊的质量较高,但是各提供商所供免费期刊的质量差别比较大. 免费资源特点 来源有限 过刊较多(发表3月或2年之后) 各网站收录重复较多 一起淘宝去! PubMed Central Highwire Press Freemedicaljournals Freebooks4doctors(图书) BioMed central DOAL Bioisa 含宝量高的站点 图书馆网站 http://202.202.129.11 图书馆网站 PubMed Central PMC 网上免费生物医学资源 http://www.pubmedcentral.nih.go/ 关于PMC PubMed Central是免费生命科学电子期刊全文数据库.由美国国家生物技术信息中心(NCBI)建立. PMC采取自愿加入的原则,一旦加入,必须承诺期刊出版后一定时期内(最好六个月,不超过1年)将其全文提交给PMC,由PMC提供免费全文检索和访问.目前加入PMC的期刊130种,10万多篇全文. PMC访问方式 http://www.pubmedcentral.nih.go/ PMC访问方式 PMC访问方式 关于PMC 期刊起止卷期 免费开放时间 PMC的界面组成 检索框 按期刊名字母顺序浏览期刊,期刊列表 高级检索入口 PMC的检索途径 关键词 作者名 期刊名 期刊名浏览 PMC检索结果的输出 PubLink:连接到期刊网站 PDF:下载PDF全文 HTML PDF:全文 PMC与PubMed PMC与PubMed的关系:两者都是NCBI建立的数据库. PubMed是一个基于互联网的文献检索系统,它收录了几千种生命科学期刊的目次和文摘,该数据库提供了与PMC全文的链接以及与数千种期刊网站的链接. HighWire Press 网上免费生物医学资源 http://highwire.stanford.edu/ HighWire Press是提供免费全文的,全球最大的学术文献出版商之一,于1995年由美国斯坦福大学图书馆创立. 目前已收录电子期刊882多种,文章总数已达282多万篇,其中超过103万篇文章可免费获得全文,这些数据仍在不断增加. 收录的期刊覆盖以下学科:生命科学,医学,物理学,社会科学. 了解Highwire Press Free site: 全免费/31种 Free issues: 免费过刊/203种 Free trail:/11种 试用免费 HighWire Press的界面组成 检索区 期刊浏览 注册登录 HighWire Press的检索途径 关键词 作者名 文章名 期刊名 期刊浏览 HighWire Press的检索途径 同时检索PubMed HighWire Press检索结果的输出 免费全文 付费全文 BioMed central BMC 网上免费生物医学资源 http://www.biomedcentral.com/ BioMed central(英国伦敦生物医学中心)以出版网络版期刊为主.共出版生物医学期刊百余种,学科范围涵盖了生物学和医学的所有主要领域. BioMed Central基于开放地获取研究成果可以使科学进程更加快捷有效的理念,所有发表在 BioMed Central 刊物上的研究文章均可随时在网上免费任意查阅. 了解BMC all content open access: 可以阅读全部全文 Subscription required:需订购 free trial aailable:免费试用 BMC的界面组成 检索入口 选择检索PMC / PubMed 期刊浏览 主题浏览 BMC新闻及动态 专辑浏览 用户无需注册便可浏览,下载网站上的文献.但是如果需要检索文献,则必须注册(注册是免费的). 了解BMC BMC检索结果的输出 文章类型 Pubmed中的记录 相关文章 获取方式 BMC工具栏 和google工具栏相似,适用于科研人员,可检索BMC,PubMed,PubMed Central,Faculty of 1000,google的资料. Freemedicaljournals 网上免费生物医学资源 http://www.freemedicaljournals.com/ Freemedicaljournals是因特网上免费提供生物医学全文最多的期刊集合网站. 该网站共收录1460余种生物医学全文期刊. 可提供期刊主页的链接,按年卷期浏览全文,不具备检索功能. 了解Freemedicaljournals Freemedicaljournals的界面组成 HI内科学 免费电子图书 按专业浏览 分语种按字顺浏览 高影响因子期刊 检索方式 按期刊名或专业逐次浏览 网上免费生物医学资源 http://www.freebooks4doctors.com/ FreeBooks4Doctors简介 目前该网站有650本生物医学专业领域电子图书; 可按专业或图书语种等顺序对图书进行浏览,下载; 网站提供信息定制等服务. DOAJ 网上免费生物医学资源 http://www.doaj.org/home 开放存取期刊(OAJ:Open Access Journal)是互联网上可供任何人自由访问使用(可下载全文)的电子期刊. DOAJ(Directory of OAJ)是由瑞典的隆德大学图书馆Lund Uniersity Libraries为上述资源做的一个目录系统. 释义DOAJ 至今收录的开放存取期刊达2430种,文章近119328多篇,收录包括:生物及生命科学,化学,健康科学等15种学科主题的期刊. 了解DOAJ DOAJ的界面组成 检索框 工具栏 按刊名浏览期刊 按主题浏览期刊 DOAJ的检索途径 查找期刊 DOAJ的检索途径 查找文章 DOAJ的检索途径 关键词 作者名 期刊名浏览 PLoS 网上免费生物医学资源 Public Library of Science http://www.plos.org/ 美国科学公共图书馆(PLOS)是一家由众多诺贝尔奖得主和慈善机构支持的非赢利性学术组织,旨在推广世界各地的科学和医学领域的最新研究成果,使其成为一种公众资源,科学家,医生,病人和学生可以通过这样一个不受限制的平台来了解最新的科研动态. PLoS出版了8种生命科学与医学领域的期刊,可以免费获取全文. 了解PLoS PLoS的刊物 PLoS Biology PLoS Medicine PLoS Computational Biology PLoS Genetics PLoS ONE PLoS Pathogens PLoS Clinical Trials PLoS Neglected Tropical Diseases Bioisa 网上免费生物医学资源 生物医学信息目录 http://www.bioisa.net/journal/journal_list.php3 c=16 生物医学信息目录Bioisa是为帮助研究人员分享生物医学信息而建立的.网站所收集的网上资源都被很好的重新编排整理过,可使用户很容易检索到所需的信息. 了解Bioisa Bioisa收集了1616种在线生物医学期刊的信息.细分为23类,并注明这23类里有核心期刊数量与期刊总数.其中有194种免费期刊,每本期刊后均注明从哪年始有免费全文. 了解Bioisa 进入Bioisa的免费期刊 各免费网站对比 范围广,期刊种数多 1890 学术领域 DOAJ 原创,质量高 8 生命科学,医学 PLoS 原创多,集成PubMed 250 自科,社科 HighWire 期刊分类整理 194 生物医学 Bioisa 期刊种数多,检索简单 1450 生物医学 Freemedical journarls 期刊种数多,检索功能强大 含PMC BMC 生命,医学 PubMed 特色 期刊种数 学科范围 名称 http://202.202.129.11 联系电话:68485016 68485153 联系电邮:cqumslib@sina.com 谢谢! 各位老师好,同学们好,今天我给大家介绍网上免费生物医学资源.网上免费资源很多,今天我介绍几个著名,大型的免费资源站点. 开放存取(Open_Access)是一种学术信息共享的自由理念和出版机制,在这种出版模式下,学术成果可以无障碍地进行传播,任何研究人员可以在任何地点和任何时间不受经济状况的影响平等免费地获取和使用学术成果.而将开放存取定位于学术出版模式是为了区别于赢利性的商业出版机制. 首先介绍pubmed 这就是pubmed的界面,以下出现的是它的网址. 与PUBMED只有引文与文摘的检索系统不同,PubMed Central是一个电子期刊全文数据库,获取全文是没有限制的,而且PubMed Central所收的文献在PubMed 有相应的检索口. PMC是2000年1月由美国国家生物技术信息中心(NCBI)建立的生命科学期刊文献数字化档案库,它保存生命科学期刊中的原始研究论文全文,免费提供使用.PMC的所有论文在PubMed中都有相应的记录.PMC采取自愿加入的原则,一旦加入,必须承诺期刊出版后一定时期内(最好六个月,不超过1年)将其全文提交给PMC,由PMC提供免费全文检索和访问.目前加入PMC的期刊108种,另有8种期刊即将加入,目前这些期刊免费全文访问的时间延迟是出版后0-2个月,并且由PMC直接提供全文. 与PUBMED只有引文与文摘的检索系统不同,PubMed Central是一个电子期刊全文数据库,获取全文是没有限制的,而且PubMed Central所收的文献在PubMed 有相应的检索口. PMC是2000年1月由美国国家生物技术信息中心(NCBI)建立的生命科学期刊文献数字化档案库,它保存生命科学期刊中的原始研究论文全文,免费提供使用.PMC的所有论文在PubMed中都有相应的记录.PMC采取自愿加入的原则,一旦加入,必须承诺期刊出版后一定时期内(最好六个月,不超过1年)将其全文提交给PMC,由PMC提供免费全文检索和访问.目前加入PMC的期刊108种,另有8种期刊即将加入,目前这些期刊免费全文访问的时间延迟是出版后0-2个月,并且由PMC直接提供全文. 与PUBMED只有引文与文摘的检索系统不同,PubMed Central是一个电子期刊全文数据库,获取全文是没有限制的,而且PubMed Central所收的文献在PubMed 有相应的检索口. PMC是2000年1月由美国国家生物技术信息中心(NCBI)建立的生命科学期刊文献数字化档案库,它保存生命科学期刊中的原始研究论文全文,免费提供使用.PMC的所有论文在PubMed中都有相应的记录.PMC采取自愿加入的原则,一旦加入,必须承诺期刊出版后一定时期内(最好六个月,不超过1年)将其全文提交给PMC,由PMC提供免费全文检索和访问.目前加入PMC的期刊108种,另有8种期刊即将加入,目前这些期刊免费全文访问的时间延迟是出版后0-2个月,并且由PMC直接提供全文. 与PUBMED只有引文与文摘的检索系统不同,PubMed Central是一个电子期刊全文数据库,获取全文是没有限制的,而且PubMed Central所收的文献在PubMed 有相应的检索口. PMC是2000年1月由美国国家生物技术信息中心(NCBI)建立的生命科学期刊文献数字化档案库,它保存生命科学期刊中的原始研究论文全文,免费提供使用.PMC的所有论文在PubMed中都有相应的记录.PMC采取自愿加入的原则,一旦加入,必须承诺期刊出版后一定时期内(最好六个月,不超过1年)将其全文提交给PMC,由PMC提供免费全文检索和访问.目前加入PMC的期刊108种,另有8种期刊即将加入,目前这些期刊免费全文访问的时间延迟是出版后0-2个月,并且由PMC直接提供全文. 与PUBMED只有引文与文摘的检索系统不同,PubMed Central是一个电子期刊全文数据库,获取全文是没有限制的,而且PubMed Central所收的文献在PubMed 有相应的检索口. PMC是2000年1月由美国国家生物技术信息中心(NCBI)建立的生命科学期刊文献数字化档案库,它保存生命科学期刊中的原始研究论文全文,免费提供使用.PMC的所有论文在PubMed中都有相应的记录.PMC采取自愿加入的原则,一旦加入,必须承诺期刊出版后一定时期内(最好六个月,不超过1年)将其全文提交给PMC,由PMC提供免费全文检索和访问.目前加入PMC的期刊108种,另有8种期刊即将加入,目前这些期刊免费全文访问的时间延迟是出版后0-2个月,并且由PMC直接提供全文. 期刊浏览,MESH主题词查询,期刊查询等 期刊浏览,MESH主题词查询,期刊查询等 期刊浏览,MESH主题词查询,期刊查询等 PubMed Central(PMC)是2000年1月由美国国家医学图书馆(NLM)的国家生物技术信息中心(NCBI)建立的生命科学期刊全文数据库,它旨在保存生命科学期刊中的原始研究论文的全文,并在全球范围内免费提供使用. HighWire Press是全球最大的提供免费全文的学术文献出版商,于1995年由美国斯坦福 大学图书馆创立. HighWire Press is the largest archie of free full-text science. We assist in the online publication of 1,026,958 free full-text articles and 2,828,144 total articles. 提供My Faorite Journals窗口 读者据此项可以从系统中选择自己感兴趣的杂志选择这些杂志后系统会自动作成列表,以便今后可以随时查找这些杂志中的文献.例如:您选择了Age and Anging,您能很方便地查找该刊物过去的(各种杂志,提供的以往文献时间不同,有的最早是1948年,该杂志是1972年),现刊文献(Current Issue),即将出版的文献(文摘)forthcoming articiles. 提供Email Alerts窗口 供读者跟踪感兴趣的刊物的出版情况以及读者所关注的某个主题,作者,文献被引用的情况. 期刊浏览,MESH主题词查询,期刊查询等 期刊浏览,MESH主题词查询,期刊查询等 开放存取(Open_Access)是一种学术信息共享的自由理念和出版机制,在这种出版模式下,学术成果可以无障碍地进行传播,任何研究人员可以在任何地点和任何时间不受经济状况的影响平等免费地获取和使用学术成果.而将开放存取定位于学术出版模式是为了区别于赢利性的商业出版机制. 与非学术领域的作者不同,科研人员发表成果(尤其是以论文形式发表)的目的主要不是为了获利,而是希望在尽可能大的范围内使自己的研究成果得到传播;同时,科研人员为了开始或继续自己的研究,也希望能够方便地获取其他同行的研究成果.这种非赢利的信息传播动机和利用需求促使开放存取成为了学术出版的可能模式.目前,开放存取出版模式主要运用于网络学术期刊,这与开放存取出版的技术条件直接相关. 生物医学期刊出版中心(BioMed_Central)是一个独立的出版者,主要提供网上免费存取经过同行评议的生物医学领域的研究论文.BioMed_Central在其开放存取规章中规定:1)开放存取研究论文采用统一的格式(如XML)存贮在公共知识仓库(如PubMed_Central和INIST等),发表即上网后,其他人对其存取不受任何限制.2)作者或版权所有者应允许并保证第三方享有预先和永久使用部分或全部论文的权利,在遵守基本学术道德(如注明引文出处)的前提下,第三方拥有采取任何方式使用,复制或传播论文的权利.BioMed_Central承诺将始终如一地坚持开放存取的政策,无论在什么情况下,既便今后发生所有权变更,这一政策都将保持下去.目前BioMed_Central已经成为开放存取出版中的重要力量,在其网站上提供了143种网络期刊链接,其中113种是完全基于免费存取的. BioMed Central 刊物发表的所有研究文章都即时存档并进入 PubMed Central 的文献索引. 基因组生物信息学和网关 , 癌症门户 , 中国门户 , 网关芯片 , 神经科学,神经科及精神科门户 , 呼吸系统门户 , RNA干扰门户 , 系统生物学网关 BioMed Central 刊物发表的所有研究文章都即时存档并进入 PubMed Central 的文献索引.这就是说所有文章都可以非常方便地查阅. 加泰罗尼亚语,荷兰语,法语,德语,希腊语,意大利语,挪威语,土耳其语等等.西班牙语和葡萄牙语单列出来了.网站的中间是主要内容,我们感兴趣的东东都在这里. 由上而下依次是:免费医学杂志站点,出版后1-6个月免费的站点,出版后1年免费的站点,出版后2年免费的站点.网站的右面是新加的和取消的免费医学杂志站点. 由Lund Uniersity建立,它提供有质量控制的可免费获取的网上电子期刊资源,它的目标是建成一个无学科,无语言限制的综合性的科学期刊系统,方便科研人员使用,并可提升期刊的显示度. 该目录收录的均为学术性,研究性期刊,具有免费,全文,高质量的特点.其质量源于所收录的期刊实行同行评审,或者有编辑作质量控制,故而对学术研究有很高的参考价值. 该杂志是由位于旧金山的非盈利性组织公共科学图书馆 ,PLoS有着更高的目标,正如PLoS在今夏的美国电视广告中所称,他们将与《科学》,《自然》,《细胞》等国际上顶级水平的科学期刊进行竞争.他们计划逐步推出各个领域的科学期刊(诸如物理学,化学),并将进行学科领域的细分(诸如肿瘤学,遗传学).除了免费之外,PLoS的另一大优势是对普通读者的充分照顾:每篇论文都会附带有一篇供非专业人士阅读的大纲,某些论文还会附带关于该领域的入门性质的简介;如此一来,即使是新近的研究,普通大众也能明其要旨.
个人分类: 学习方法|4497 次阅读|0 个评论
科研论文写作、信息检索分析培训班信息(2009年 10 -- 11月)
xupeiyang 2009-9-23 08:52
《呼吸病学临床科研方法与实施》 研讨会 临床医学的发展离不开高质量的临床科研作为基础,而我国的传统医学教育缺乏针对这方面的系统教育。随着SARS、H1N1等新型传染性疾病的出现及医学模式的改变,呼吸病学的科学研究日益显示出重要意义。 为了满足呼吸病学临床医生开展科研活动的需求,针对临床医生在基金申请、科研思路、科研立项、科研课题设计、信息查询、科研方法、临床群体学研究、医学统计、常用软件、评价指标、论文撰写、期刊评估等各个环节容易出现的问题,旨于帮助广大从事呼吸病学的临床医生更好地建立科研意识,提高立项、设计等科研能力,中华医学会继续教育视听杂志将开展《呼吸病学临床科研方法与实施》研讨会。 会议基本信息 会议主席:林江涛 学术委员:何权瀛 贺 蓓 林江涛 沈华浩 许培扬 照日格图 赵一鸣 主办单位:中华医学会继续教育视听杂志 承办单位:北京枢尔咨询有限公司 学分证书:中华医学会继续教育部授予I类继续教育学分 会议时间: 北京 10月31日-11月1日 广州 11月(具体日期待定)上海 12月(具体日期待定) 会议费用:800元/人(含注册费、会议费、资料费、学分证书费、培训期间午餐等,不含交通食宿) 课题内容 1. 如何申请国家自然基金 2. 呼吸病临床科研的选题思路、策略和原则 3. 临床科研设计与实施基本方法 4. 临床科研统计设计 5. COPD、哮喘的基础与临床研究 6. 肺部感染临床科研评析与改进 7. 睡眠呼吸疾病研究 8. 呼吸功能测定及其在临床科研中的应用 9. 医学科技查新系统方法与评价 10. 中英文医学论文撰写 会务组联系方式 联系地址:北京市朝阳区北苑路13号领地Office 1号楼C座1101室 邮政编码:100107 联系电话:010-52086510-8006/8001 传 真:010-52086740 联 系 人:梅 洁 胡月娥 电子邮件: fzzdhy@163.com 中疾控信发〔 2009 〕 457 号 中国疾病预防控制中心关于 举办疾控专业人员信息素养教育培训班的通知 各省(自治区、直辖市)、计划单列市疾病预防控制中心,新疆建设兵团预防控制中心、中心直属各单位: 为增强疾控系统从业人员的信息意识,提高疾控信息检索、评价和有效分析利用能力,培养信息素养,促进疾控事业的发展,根据中国疾病预防控制中心公共卫生监测与信息服务中心 2009 年工作计划,我中心定于 2009 年 10 月 20 日 ~ 10 月 22 日 在杭州市举办疾控专业人员信息素养教育培训班,现就有关具体事宜通知如下: 一、内容 (一)国内外信息素养概念及研究; (二)系统评价方法及 Meta 分析软件的使用; (三)资源采集、分析、利用与资源建设、整合的技术进展; (四) 网络医学免费资源和中国公共卫生科学数据资源的介绍; (五)期刊影响因子研究和网站用户体验研究 。 二、参加人员 要求参加培训的人员为主管信息工作的负责人及科研管理的负责人。 各省(自治区、直辖市)、新疆建设兵团疾病预防控制中心 每单位参会人员名额最多为 2 名。中国疾病预防控制中心直属单位每单位参会人员名额为 1 名。由于会议经费限制,请各单位严格控制参会人数。 三、时间、地点 2009 年 10 月 19 日 报到, 10 月 23 日 离会。 报到地点: 杭州玉皇山庄。地址:杭州玉皇山路 74 号,丝绸博物馆公交车站附近。电话总机: 0571-87182688 四、其他事宜 (一)请各单位通知有关人员准时参加,参加培训的人员交通费自理,食宿费用由我中心负责。 (二)请务必将参加人员回执(一式两份)于 2009 年 10 月 14 日前 传真或 EMAIL 给中国 CDC 联系人和浙江省 CDC 联系人。 (三)本次培训班不安排接站,请代表自行前往。 五、联系方式 (一)中国 CDC 信息中心 联 系 人:陈强 联系电话: 010-58900426 13681504458 传 真: 010-58900445 E-mail: chenqiang@chinacdc.cn (二)浙江省 CDC 联系 人:金彬彬 联系电话: 0571-87115125 13819110593 传 真: 0571-87115121 E-mail : bbjin@cdc.zj.cn 附件: 1. 培训班回执 2. 交通指南 二 〇〇 九年九月二十四日 中国疾病预防控制 中心办公室 2009 年9 月24 日 印发 校对人: 陈强 临床科研论文写作培训班 时间:2009年11月1日 地点:海口 时间 题目 讲者 8:30-8:45 开幕致词 XOLW/ JMAO 8:45 10:00 科研查新与文献检索 许培扬 中国医学科学院北京协和医学院 10:00-10:20 茶 歇 10:20 11:35 临床科研设计与文章发表 李光伟 北京中日友好医院 1 1:35-13:00 午 餐 13:00-14:15 临床科研中的统计应用 李光伟 北京中日友好医院 1 4:15-15:30 中华医学杂志投稿要求及文章撰写问题评析 李群 中华医学会中华医学杂志 1 5:30-15:50 茶 歇 15: 50 17:00 临床研究文章发表个案分享 周彦 潘丽丽 诺和诺德(中国)制药有限公司 17:00-17:20 结束语 XOLW/ JMAO 第六期全军医药卫生科技查新培训班 时间 内    容 主持人 10 月 14 日 8:30 ~ 10:00 1 .福州总医院院长致词 2 .军事医学科学院一所刘胡波所长讲话 3 .颁发查新站铜牌和专用章 4 .总后卫生部科训局领导作指示 5 .与会代表合影 吴 东 10:00 ~ 12:00 6 .医药卫生科技查新概论(许培扬) 7 .常用数据库及检索方法(杜永莉) 张桂云 14:30 ~ 17:30 1 .基础类课题查新实例分析(王磊) 2 .临床类课题查新实例分析(张桂云) 3 .查新报告审核与服务沟通( 吴曙霞 ) 曹洪欣 10 月 15 日 8:30 ~ 11:30 1 .查新管理信息系统软件培训(柏立嘉) 2 .上机实习 李 刚 14:30 ~ 17:00 1 .查新考核与业务交流 2 .结业(领导总结、颁发证书) 羡秋盛 地点: 福州 联系电话: 朱东屏 13959109163
个人分类: 学习方法|3754 次阅读|0 个评论
2009年第二期全国网络信息组织与检索高级研修班
liuysd 2009-8-10 14:17
时间:2009年9月23日至9月28日(6天) 地点:湖北-宜昌 网络信息技术是保证网络信息有效传播的基础,是一个完整的体系,渗透到了传播的每一个层面。所以,网络信息组织与管理技术虽然较之因特网自身的发展而言,具有明显的滞后性,但对于网络信息的无序与泛滥而言,网络信息组织技术仍然是最有效的方法与手段。 我们认为,网络信息传播与组织归结到技术层面,终究要以信息组织为核心,要实现网络信息的有效利用,就必须对网络信息进行有序化组织与控制,这是网络信息有效利用与传播的必要基础和重要环节。 搜索引擎通过对网络信息进行理解、提取、组织和处理,并为用户提供检索服务,不但成为了网络信息检索的首选工具,同时,也自然而然地成为了网络信息组织与利用的重要模式。因而,研究搜索引擎的信息组织对于网络信息资源的有效开发、利用与控制具有重要意义。 为了帮助广大专业人员尽快提高网络信息组织与分析能力,提高各行各业对于网络信息的利用能力,中国科学技术信息研究所于2009年9月23日至28日在湖北-宜昌举办2009年第二期全国网络信息组织与检索高级研修班。 经培训考核合格者,由中国科学技术信息研究所颁发全国网络信息组织与检索高级研修班结业证书。 现将有关事宜说明如下: 一、办班特色 检索原理从根讲起,技术实例躬身示范,前沿进展踊跃探讨。 掌握搜索引擎使用技巧;快速获取网络信息资源;优化本单位网站并提高在搜索引擎中的排名;分析挖掘网络信息;捕获搜索引擎研究热点及趋势;轻松搭建起自己的搜索引擎(提供一套可以搭建一个中型搜索引擎的源代码)。 二、培训对象 各级政府、企业、事业单位、科研院所、大专院校、咨询公司、金融证券等机构及相关部门专业从事技术开发、信息管理、信息分析、信息服务、情报研究、战略企划、产品开发、成果推广的管理与专业人员。 三、课程内容 1.搜索引擎使用技巧 综合运用逻辑表达式的组合检索、特征限定、范围限定等方法,大幅提高检索结果的精准率。 2.动态网页的内容获取方法 网站内容下载工具的使用技巧与方法;构造URL批量下载网站数据库内容;自制浏览器获取非OpenURL的网页内容。 3.网络信息挖掘 Web结构挖掘、Web内容挖掘、Web使用记录挖掘等。结合实例介绍搜索引擎日志挖掘、BBS用户行为分析、Blog用户的社会网络特征等。 4.基于开源代码的搜索引擎构建 掌握搭建搜索引擎平台所需的核心知识并且轻松搭建起自己的搜索引擎平台,从而解决费用昂贵和容易泄露机密的问题。 为达到更好的培训效果,有条件的代表请自带笔记本电脑(最好具备无线网卡)。 四、师资队伍 邀请高校及科研院所相关领域知名专家,大型软件开发公司技术总监,著名企业高级软件工程师,实力派信息分析师,资深培训师轮流授课。 五、颁发证书 培训考核合格者,由中国科学技术信息研究所颁发培训结业证书。 六、培训安排 1. 9月23日全天报到,9月24日至28日授课及业务交流。 2. 报到及培训地点:三峡宜昌龙泉山庄大酒店(湖北省交通职工教育培训中心,湖北宜昌市夷陵区夷兴大道71号) 3. 费用:2800元/人(含资料、结业证和业务交流等费用) 培训费,请于2009年9月15日前汇至以下帐户:并注明网络信息组织研修班。 户 名:中国科学技术信息研究所 开户行:中国工商银行北京玉渊潭支行 帐 号:0200232109200900593 4. 食宿统一安排,费用自理。 住 宿:三峡宜昌龙泉山庄大酒店(标准间260元,每人每天130元) 七、参加培训人员请务必于2009年9月15日前将报名表返回会务组。邮件、 从网上或传真返回均可。 八、联系办法 通讯地址:北京复兴路15号中国科学技术信息研究所(100038) 招生网址: http://www.istic.ac.cn 邮箱地址: zzb@istic.ac.cn 联系人电话:胡老师 010-58882298 传真: 010-58882296 陆老师 010-58882299 吴老师 010-58882297 原文地址: http://168.160.16.178/EducationDetail.aspx?ArticleID=87632
个人分类: 学术报告|3855 次阅读|0 个评论
“搜索行为与用户认知研究”北京研讨会即将举办
timy 2009-6-26 20:58
明天一早准备过去学习一下,研讨会主题是搜索行为与用户认知研究,这方面的研究与经典的人机交互研究有交叉,我个人认为信息检索研究人员(主要包括为信息检索理论、方法、技术等相关的研究),对这个话题有点了解是有益的,呵呵。 做主题演讲的主要包括国内搜索行为与用户认知研究相关的科研团队(主要为情报学研究领域),与相关企业(包括:两个知名搜索引擎公司,即Baidu和Google、一个咨询公司、一个做电子商务的公司)。 期待到时候,各方的交流能碰出有意义的火花,研讨会 具体信息附后。 --------------------------------------------------------------------------------------------- 转载于: http://www.im.pku.edu.cn/shownotice.asp?id=99 搜索行为与用户认知研究北京研讨会即将举办   由北京大学信息管理系暨国家信息资源管理北京研究基地和南京理工大学经济管理学院信息管理系共同发起并主办,国家信息资源管理北京研究基地承办的搜索行为与用户认知研究北京研讨会( Searching Behavior and User Cognitive Research Beijing Workshop )将于 2009 年 6 月 27 日在北京大学召开。   用户行为与认知研究起源于 20 世纪 70 年代,至今已有 30 余年的发展历史。它对用户的信息查寻行为,数据库使用和网络搜索行为等做出了突出的贡献,为了解用户的认知、情感、动机和行为特征,改善信息检索系统的服务质量提供了夯实的实证研究基础。对用户的研究成为情报学和信息管理领域从事信息检索研究的独具特色的组成部分。   近年来,国内陆续涌现出越来越多从事用户行为与认知的研究团队,并在用户的网络搜索行为、用户认知与体验、信息构建和用户服务与体验等方面取得了一系列的成果。本次研讨会的主旨是汇集国内从事本领域相关研究的团队,交流分享研究经验和成果,并为研究团队之间的协作与研究资源共享搭建平台。 会议筹备组 2009 年 6 月 21 日 主办单位:北京大学信息管理系暨国家信息资源管理北京研究基地      南京理工大学经济管理学院信息管理系 承办单位:国家信息资源管理北京研究基地 会议时间: 2009 年 6 月 27 日 会议地点:北京大学艺园三楼会议室(由艺园北侧楼门上三楼) 报到时间: 2009 年 6 月 26 日全天 报到地点:北大资源宾馆(北京大学西南门外,海淀桥北硅谷电脑城对面)
个人分类: 信息检索|4635 次阅读|2 个评论
“情境驱动的交互式信息检索集成研究框架” 奇文欣赏
tengyi1960 2009-6-15 17:35
情境驱动的交互式信息检索集成研究框架 奇文欣赏 由彼得英格沃森著 秦喜艳等译的情境驱动的交互式信息检索集成研究框架一文,发表在《图书情报知识》-2008年6期上(原文见附件)。仅从《图书情报知识》编辑一般不发译文,但这次却放在学科前沿栏目,以及该文译自武汉大学信息管理学院这三个形式特征来看,不难判断此文值得一读。 近来的研究和实践领域出现的一些热点中,图书馆实证研究和交互式信息服务似乎得到了追捧。图书馆实证研究的兴起也许就是对崇洋迷外和假大空式发展到极致后的一种逆向的学术反应回归实事求是的研究本质;而交互式信息服务则是顺应网络发展规律、追求信息增值和共赢的结果。 由于更关注信息对象的情境和研究框架是基于任务行为,是情境驱动的交互式信息检索集成研究框架一文的研究方法定位,所以对于大多数图书馆工作者来讲,比较容易产生思想的共鸣,也可能会有此发现一个研究问题的出发点。 情境驱动的交互式信息检索集成研究框架一文的作者认为:信息检索嵌套在信息查寻行为的情境之内,其本身则处于与工作相关或日常的工作任务情形和领域情境之中。如果将其观点放大而应用于图书馆学研究领域,那么我们就会想起一句行业老话:图书馆学是一门实践性很强的科学。 本文的学院性的研究气息比较浓厚,其模型揭示全面但运行和统计的成本较高,不宜在实际工作中使用。正如将需求特征分组为:行政、科研、学生、其他用户的调查,只有助于形成报告却无助于指导实际工作。 专业图书馆支持用户创新工作的核心环节究竟是什么?如果假定知识创新来源于(会得益于)知识碰撞(社会性的交互过程),那么,本文给出: 人们发现,社会性的交互过程产生于个人、他/她所处的社会情境和从该情境中感知的工作任务之间。 情境驱动的交互式信息检索实践的关键在于对检索用户进行分组,分组的出发点有以图书馆为中心和以用户为中心两种。以用户为中心的特点是以用户的观点和利益为交互行为的主要驱动力,辅助以项目和研究的目的。 知识工作者的三种自我定向指出:尚不清楚的问题是理解个人用什么方式看待和利用知识,但知识在两方面对人是特质的, 以本性定向的人为知识而求知,并不断追求知识;以地位定向的人追求功能性知识;以行动定向的人往往追求交互型社会知识。 实践表明:情境驱动的交互式信息检索实践对于提升以地位定向的人追求功能性知识的用户群体的满意度基本是无效甚至是负面的。 因此,区分好这三类用户群体,并选择与之相适应的情境驱动的交互式信息检索实践方式,是一种可行的工作方案。 情境驱动的交互式
个人分类: 思想盆|3301 次阅读|0 个评论
2009年网络信息组织与检索高级研修班
huabolin 2009-6-3 11:42
时间:2009年6月23日至6月28日(6天) 地点:山东-威海 网络信息技术是保证网络信息有效传播的基础,是一个完整的体系,渗透到了传播的每一个层面。所以,网络信息组织与管理技术虽然较之因特网自身的发展而言,具有明显的滞后性,但对于网络信息的无序与泛滥而言,网络信息组织技术仍然是最有效的方法与手段。 我们认为,网络信息传播与组织归结到技术层面,终究要以信息组织为核心,要实现网络信息的有效利用,就必须对网络信息进行有序化组织与控制,这是网络信息有效利用与传播的必要基础和重要环节。 搜索引擎通过对网络信息进行理解、提取、组织和处理,并为用户提供检索服务,不但成为了网络信息检索的首选工具,同时,也自然而然地成为了网络信息组织与利用的重要模式。因而,研究搜索引擎的信息组织对于网络信息资源的有效开发、利用与控制具有重要意义。 为了帮助广大专业人员尽快提高网络信息组织与分析能力,提高各行各业对于网络信息的利用能力。中国科学技术信息研究所于2009年6月23日至28日在山东-威海举办2009年网络信息组织与检索高级研修班。 经培训考核合格者,由中国科学技术信息研究所颁发网络信息组织与检索高级研修班结业证书。 现将有关事宜说明如下: 一、办班特色 检索原理从根讲起,技术实例躬身示范,前沿进展踊跃探讨。 掌握搜索引擎使用技巧;快速获取网络信息资源;优化本单位网站并提高在搜索引擎中的排名;分析挖掘网络信息;捕获搜索引擎研究热点及趋势;轻松搭建起自己的搜索引擎(提供一套可以搭建一个中型搜索引擎的源代码)。 二、培训对象 各级政府、企业、事业单位、科研院所、大专院校、咨询公司、金融证券等机构及相关部门专业从事技术开发、信息管理、信息分析、信息服务、情报研究、战略企划、产品开发、成果推广的管理与专业人员。 三、课程内容 1.搜索引擎使用技巧 综合运用逻辑表达式的组合检索、特征限定、范围限定等方法,大幅提高检索结果的精准率。 2.搜索引擎优化(SEO) 搜索引擎排名的指标体系,提高搜索引擎排名的技巧,合理设置链接,有效布局关键词,合理运用SEO技术,使你的网站得到更多的关注。 3.动态网页的内容获取方法 网站内容下载工具的使用技巧与方法;构造URL批量下载网站数据库内容;自制浏览器获取非OpenURL的网页内容。 4.搜索引擎发展趋势 搜索引擎爬行范围的扩展(从静态网页到动态网页);网页分析标引的深化(从关键词到句段),检索接口的多样化(从文本到图形、音频、视频等)。 5.网络信息挖掘 Web结构挖掘、Web内容挖掘、Web使用记录挖掘等。结合实例介绍搜索引擎日志挖掘、BBS用户行为分析、Blog用户的社会网络特征等。 6.基于开源代码的搜索引擎构建 掌握搭建搜索引擎平台所需的核心知识并且轻松搭建起自己的搜索引擎平台,从而解决费用昂贵和容易泄露机密的问题。 四、师资队伍 邀请高校及科研院所相关领域知名专家,大型软件开发公司技术总监,著名企业高级软件工程师,实力派信息分析师,资深培训师轮流授课。 五、颁发证书 培训考核合格者,由中国科学技术信息研究所颁发培训结业证书。 六、培训安排 1. 6月23日全天报到,6月24日至28日授课及业务考察。 2. 报到及培训地点:威海电子宾馆(威海市环海路15号) 3. 培训费:2800元/人(含资料、结业证、上机实习和业务考察等费用) 培训费,请于2009年6月18日前汇至以下帐户:并注明网络信息组织与检索。 户 名:中国科学技术信息研究所 开户行:中国工商银行北京玉渊潭支行 帐 号:0200232109200900593 4. 食宿统一安排,费用自理。 住 宿:威海电子宾馆(三星级,标准间240元,每人每天120元) 七、参加培训人员请务必于2009年6月18日前将报名表返回会务组。邮件、 从网上或传真返回均可。 八、联系办法 通讯地址:北京复兴路15号中国科学技术信息研究所(100038) 招生网址: http://www.istic.ac.cn 邮箱地址: kipx@istic.ac.cn 联系人电话:胡老师 010-58882298 传真: 010-58882296 陆老师 010-58882299 吴老师 010-58882297
个人分类: 信息检索|5233 次阅读|0 个评论
基于内容的三维形状检索
热度 1 njumagic 2009-4-28 01:00
1 、 引言 在互联网、计算机辅助设计( CAD )、分子生物学( 3D 蛋白质模型)、计算机图形学、医药以及考古学等不同领域中,大型的三维( 3D )数据库变得越来越普遍。近期在激光扫描技术的进展使我们可以方便地构造一个物体精确的 3D 几何模型。这方面的应用包括对文化遗产的重建,例如斯坦福大学的数字米可朗基罗 和数字罗马 项目。激光扫描也可以生成工业和动画中人体头部、身体等真实对象的 3D 模型。 其他领域也有很多 3D 数据库。例如,国立设计库为在线的 CAD 模型数据库 ,蛋白质数据银行 是在线的 3D 生物高分子结构数据库。 HUGO 则为基于可视化人体项目 的 3D 解剖体和表皮数据库。 近年来,计算机科学在计算机辅助检索和分析多媒体数据方面取得了惊人的进展。例如,假设你需要为演讲准备一张马的图片。在十年前,你要么( 1 )绘制一张图片;( 2 )去图书馆复印一张图片;或( 3 )去农场照一张马的照片。现在你只需简单的从网络成千上万的资源中挑选一张合适的图片。虽然文本、图像和音频的搜索已较为常用,但 3D 数据信息的检索仍在起步阶段。 然而,新的扫描和交互工具降低了构造精致的 3D 模型的开销;图形硬件变得越来越便宜(摩尔法则),扩大了广大用户对 3D 模型的需求;互联网为 3D 模型的传播提供了平台。这三个趋势加速了 3D 模型的繁衍,使其在不久的将来将会变得和当今其他多媒体数据一样普遍。 这些进展正在改变我们对 3D 数据的观念。以前计算机图形学中主要的挑战将由以前的如何建立有趣的 3D 模型发展成如何寻找它们。例如,假设用户想创建一个城市场景的 3D 虚拟世界,他将需要骑车、街灯、路标等 3D 模型。那么,他是自己购买 3D 建模工具构造模型,还是从大型 3D 模型网络数据库中获取模型呢?与当前文本、图像、音频等其他媒体相同,信 3D 模型的检索、匹配、识别和分类的也将迅速的发展。 那么接下来的问题就是人类如何搜索 3D 模型。最简单的方法仍然是基于文件名、标题或上下文的关键字检索。然而这种方法在以下情况的鲁棒性不高:包括对象无标注(例如 B19745.wrl ),对象标注不具体(例如 yellow.wrl 或 sarah.wrl ),关键字无区分性(例如搜索脸部却标注为非多边形人体),用户不知道的关键字(例如错误的拼写或外文标记),以及标注对象时还不确定其关键字。 在这样的情况下,我们认为基于形状的查询将更有效的搜索 3D 对象。例如,形状可以和功能相结合来定义对象的类别(例如圆形咖啡桌),形状也可以用于区分相似的对象(例如办公椅和沙发)。有很多类别可以由形状单独定义(例如卷形物),这时一幅图片抵过千言万语。 本文将研究基于形状的 3D 模型自动检索方法,其挑战有两个方面:首先,我们必须开发 3D 形状的计算表示(形状描述子),并建立相应的索引以加快查询的速度。本文将介绍新颖的采用方向不变的球面谐波描述子的 3D 数据库搜索方法。其次,我们需要支持未训练用户表达基于形状查询的交互界面。本文将 3D 草图、 2D 草图、文本和基于形状相似度的交互式修改组合起来,并将其整合到搜索引擎中,实现 3D 模型的网络检索(见图 1 )。 随着 3D 模型数量和种类的不断增长,浏览这些大型数据库的应用也越来越多。在这些大型的 3D 数据库中进行检索并不容易。虽然模型可能有相关的名字或文字描述,但多数情况下这些信息无法完整精确地描述模型本身。相比标注对象,更好的办法是让模型表达自身,也就是说,采用模型的内容而不是用户标注的主观文本信息。 多数具有真实生命的对象的 3D 模型可以通过颜色、纹理和形状信息进行区分。颜色和纹理在某些模型中可能会失效,例如 3D 蛋白质模型。因此,形状是描述 3D 数据最基本的特征。用户对形状的概念并没有统一的定义。下面给出一些最常用的定义: 韦氏字典形状(名词): 1、 某个或某种特定对象的可见组成特性。 2、 轮廓的空间形态。 3、 标注的或普遍公认的空间形态。 Kendall's 的定义 : 形状是对象的位置、比例、方向被去除后剩下的所有几何信息。 Kendall's 的定义认为对象的形状与其相似性变换无关,例如,汽车的 3D 模型再旋转、缩放或平移情况下应该是保持不变的。对给定的 2 个模型,直观上确定其是否相似的方法是寻找模型直接的对应关系并将模型重合。重合的程度即说明了模型的相似度。这种方法被 Besl 和 McKay 提出,称为形状注册问题。其主要应用是从多视角(例如 3D 点阵)重合模型以进行 3D 重建。但这在大型数据库的 3D 模型检索中的效率并不高。 目前 3D 模型检索的方法以简洁的方式描述模型(特征向量或图等结构化描述),并比较这些简洁的描述子来加快匹配的速度。因为形状是旋转、平移和缩放无关的,描述子也应该是变换无关的,或者数据库中的 3D 模型都预先被变换到规范的坐标系中。这即为姿态规范化问题。 本文对基于内容的 3D 形状检索的进行调研。上文以指出形状是 3D 数据最基本的特征,因此文中会交替使用 3D 形状、 3D 模型和 3D 对象等术语。同样,文献中 3D 模型检索或 3D 模型搜索引擎都代表同样的研究领域。 荷兰乌特列支大学的 Tangelder 和 Veltkamp 在形状表示、相似度 / 不相似度度量、检索性能、部分匹配能力、鲁棒性和姿态规范化需求等方面对形状检索方法进行评价。普度大学机械工程学院的 Lyer 等人 对包括具体 CAD 方法的形状搜索技术进行了概述。新加坡国立大学的 Atmosukarto 和 Naval 给出了当前技术的介绍。此外, Siggraph2004 的 3D 想着检索课程也由 Funkhouser 和 Kazhdan 在普林斯顿大学的计算机科学系开展。 本文的结构如下: 第二章给出 3D 形状表示技术的综述。由于 3D 形状重建(激光扫描、基于立体视觉的重建、运动结构)和建模( CAD 根据)的方法不同,这些数据在数字环境中的组织方法也不同。文中给出静态和动态模型(摆动或变形)的表示方法,但只给出静态模型的相似度和匹配方法。 第三章介绍形状相似度和匹配的概念。 第四章介绍相似度匹配和模型检索中的 3D 形状描述方法。这些方法分为 2 类:直接从 3D 模型抽取(基于模型的)或从其 2D 投影中抽取(基于视图的)。基于模型的方法可以是纯几何的、结构的或两者的结合。几何方法包括全局或局部的形状描述。 第五章介绍 3D 形状搜索引擎的整体结构及各部分子系统。 第六章给出 3D 形状检索系统的评价和性能描述。 2 、数字世界中的 3D 形状表示 许多应用都需要在数字环境中构造真实时间中的对象,这些模型的质量受到硬件和软件能力的限制。近来硬件的发展是用户可以更方便的可视化和操作复杂的模型。当前的扫描技术也可以生产几何精确的对象模型。除了硬件的发展,建模软件(例如 CAD 工具)的功能也越来越健全。 由于创建对象模型有不同的方法,数字环境中数据的技术也有不同。本章将对这些技术做简单的介绍。如前所述,这里只讲述对象形状的表示方法,不包括纹理和颜色。本章的 3D 对象表示方法可用于处理 3D 形状建设系统的输入数据。由于模型生产过程本身的原因,其中一些方法比其他方法更为普遍。 在数字世界中, 3D 模型的首要工作是可视化,有时也需要对模型进行编辑。 3D 模型的存储和显示的效率是主要关心的问题。不同的任务可能需要不同的表示方法。例如,如果需要识别场景中的对象,我们不需要非常细致的对象模型。本文不涉及 3D 模型重建、对象识别和相关的技术。读者可参阅这些技术的相关文献,包括 Campbell 和 Flynn , Jain 和 Dorai , Bennamoun 和 Mamic 以及 Pope 。 形状大致可以分为 2 类:静态形状和动态形状。静态形状为不受形变和转动而改变的刚性形状。例如咖啡杯的模型为静态形状,而人脸则为动态形状,因为其形状随说话、微笑等动作而变化。本文主要考虑静态形状的检索技术,因此只会稍微提及动态形状的表示。 2.1 静态形状 表示对象有 2 种不同的方法:基于模型(对象为中心)和基于试图(观察者为中心)的方法。基于模型的方法直接作用于 3D 数据,而基于试图的方法则存储 3D 模型的若干 2D 投影。 2.1.1 基于模型的表示 3D 对象可在不同抽象层次进行表示。首先是 3D 空间的原始数据点集表示,这种表示缺乏结构性,但足够进行可视化。这相当于 2D 图像中的像素。第二抽象层是形状的轮廓,也就是 3D 形状的表面,这与 2D 曲线相对应。第三抽象层为体表示,这与 2D 形状的面积相对应。 2.1.1.1 基于点的表示 点集 点集的定义为点 P={p1,p2,,pN} 的集合,其中 P R 3 且 pi=(xi,yi,zi) T 。 图 2.1: 两个点集的 2D 抽点打印( Bunny 兔子和 CAD 模型) 范围图像 范围图像与密度图像都从某个视角捕捉形状,但与捕捉颜色信息不同的是,范围图像捕捉距离的深度信息。图 2.2 由 Ohio 州立大学给出了的天使的密度和范围图像。这种表示多用于 3D 模型重建,将不同视角的图像进行合并。这是 3D 形状注册的一个例子。 图 2.2: Ohio 州立大学的天使图像(密度和范围图像) 范围图像中深度值根据不同的图像生成方式而变化。例如,在图 2.2 中,对象离摄像机越远,则相应的像素值越深。反之依然,见图 2.3 。 图 2.3: 范围图像数据库中的多面体对象(密度和范围图像) 2.1.1.2 表面表示 3D 形状可由其外表面表示,这类似 2D 形状的轮廓。本节介绍表示形状表面的数学模型。 多边形 Soups 这种表示多用于 CAD 工具,也称作多边形 Soup 模型。这种模型中所有的多边形不完全相连。 3D 模型检索中多认为这种模型是错误定义的,而网上的很多 3D 模型都是以多边形 Soups 表示的。 图 2.4: 一个多边形 Soup 的 CAD 模型 多边形网格 多边形网格由于其简单性成为表示 3D 模型的常用方法。 3D 模型的多边形网格的定义为一对有序的链表: M= P , V 其中, V={v1,v2,,vN} 为顶点的列表且 vn=(xn,yn,zn) T ; P={p1,p2,,pN} 为平面多边形的列表,且 pr=(v n,1 , v n,2 , , v n,kr ) 。 Kr 为多边形 pr 的顶点数目。如果所有 pr 的 k=3 ,则所有 pr 均为三角形网格。 图 2.5: 人脚骨的多边形网格模型 ( ) 参数形式 一般 3D 表面的参数形式由如下定义: 图 2.6: 以网格形式显示的 NURBS 曲线 ( ) 其中 u 和 v 为参数变量。 3D 表面由两曲线进行笛卡尔积生成。非均匀有理 B 样条( NURBS )是一种参数形式,其定义如下: 其中 N 和 M 为 k 阶和 l 阶的 B 样条基函数, B h i,j 为控制点的齐次坐标。 参数形式通常用于最初的模型表示,之后再由此生成多边形网格的表示 。 子分表面 由提出的子分表面的思想是很简单的:子分定义了一系列逐渐精化的光滑曲线或表面。 下图介绍如何从粗略的表示构建精确的表面。左边网格中的每个三角形都根据子分规则细分成 4 个三角形,得到中间网格。再进行子分操作则得到右边的网格。 图 2.7: 子分表面 ( ) 子分表面是建模和动画中非常有用的表示方法,它可以捕捉不同分辨率层的模型。具体介绍间文献 隐式表面 3D 表面可隐式定义为任意函数 f 的 0 集如下: 下图给出了由公式 生成的模型。 图 2.8: 隐式表面 ( ) 超二次曲面 超二次曲面的定义为由向量包含的闭合曲面,向量的 x,y,z 由角度函数和两个 2D 参数曲线进行球积确定。 超椭圆体为一种超二次曲面,其参数形式如下: 其中 (a1; a2; a3) T 为缩放向量, 1 2 表示平面经纬度上的正方度。 超二次曲面可以通过增加特定的加尖、扭转、弯曲等操作对多种自由形体进行建模。下图给出了由沿 z 轴加尖后绕 z 轴扭转变化后的超二次曲面 。 图 2.9: 变形的超二次曲面 ( ) 2.1.1.3 体表示 体素 体素是体绘制中最小的 3D 单元,相当于 2D 绘制中的像素。 该方法是最简单的空间子分表示方法,但耗费内存。在医学应用中使用较多。 图 2.10: 由体素表示的飞机模型 ( ) 八分树 八分树是基于空间的子分表示方法,立方体空间被递归地分成更小的立方体,进而建立层次的数据结构。下图给出了实体模型的八分树。 图 2.11: 八分树表示 白色节点表示空的子立方体,黑色节点表示完全填充的子立方体,灰色节点表示部分填充的子立方体。这种方法比体素的更节省内存。 空间二分树( BSP ) 空间二分树是八分树的另外一种表示方式。 BSP 树提供了对象或空间中的多个对象的搜索结构和几何表示。 图 2.12: 2D 对象的 BSP 树 ( ) 非叶结点表示被二份的平面。平面可从任何方向进行子分。 图 2.13: 多对象的 2DBSP 树表示 ( ) 构造实体几何 (CSG) 构造实体几何是一种层次化的表示。每个形状由形状单元通过二值操作组合而成。 图 2.14: CSG 通用圆柱体 这种方法也称作扫描表示,由环状轮廓 C(s, ) 沿模型主轴(样条)的空间曲线 A(s) 移动生成。 图 2.15: 通用圆柱体 ( ) 2.1.2 基于视图的表示 基于试图的表示的出发点是相似的 3D 形状从相同的视角看起来也是相似的,因此可采用对象的一系列视角( 2D 投影)来表示形状。 该方法通常用于对象识别,本节将介绍一些主要技术。 轮廓 轮廓包括对象某个视角的边界。为了表示 3D 形状,需要生成并存储轮廓的集合。相对于基于模型的表示,这种方法更加简洁。该方法通常用于对象分类,采用一系列轮廓表示模型并从匹配相应的视图。但不同的 3D 形状可能具有相同的轮廓图像组。 图 2.16: 椅子的轮廓图像 ( ) 视点图 3D 形状从不同视角看起来可能是不同的。例如,立方体的上视图是一个正方形。因此,可将视图空间分成视图类或典型视图。每类的视图具有某种相同的属性,并可由聚类算法生成试图类。 1979 年 Koenderink 和 van Doorn 将视图类表示称为视点图。图中的结点表示根据视点命名的视图类,连接不同结点的边表示视点的改变。结点之间的不同称作视觉事件。但这种表示较复杂,使用受限。 图 2.17: 视点图表示 2.2 动态形状 在建模和视觉应用中常涉及到动态形状。这些形状可以随时间摆动或形变,且有多种表示方法。下面是一些例子 。 Snakes: 主动轮廓模型 对给定点集拟合其形变轮廓 (snakes) 是一个约束的能量最小化问题。主动轮廓模型由 Kass, Witkin 和 Terzopoulos 于 1987 年提出 。其中总能量包括三个组成部分:弯曲或伸展轮廓的内部轮廓能量, . 轮廓和图像密度或梯度间的图像能量,和预定义约束下的外部能量。 形变体模型 Park, Metaxas 和 Axel 根据心脏运动的四面体元素对人类心脏的运动进行建模。 气球模型 这是一种形变的网格表示,其中通过弹簧建模网格的边,使得整个网格可随用户而拉伸或压缩。 Chen 和 Medioni 给出了这种表示的例子。 3 、形状相似度和匹配概念 形状匹配比较两个形状的相似性,是检索、识别和注册等应用中非常重要的概念。通常,这通过计算距离进行不相似度度量,其中距离越小不相似性越小,相似性越大 。 定义 :给定形状集合 S={s 1 ,s 2 ,,s N } ,相似度距离由 d(s i ,s j ):S S R + 0 定义,其中 s i ,s j S ,距离函数 d 具有如下性质: (i) 自相似性 : s i S, d(s i ,s i ) = 0 (ii) 正定性 : s i , s j S, s i s j , d(s i ,s j ) 0 (iii) 对称性 : s i , s j S, d(s i , s j ) = d(s j , s i ) (iv) 三角不等性 : s i , s j ,s k S,d(s i , s k ) d(s i ,s j ) + d(s j ,s k ) (v) 变换无关性 : 对给定变换组 G , s i , s j S,g G,d(s i ,g(s j ))=d(s i ,s j ). 自相似性表示形状与本身完全匹配。正定性表示两个不同的形状无法完全匹配。 定义: 具有自相似性、正定性、对称性和三角不等性的距离函数称作度量。 定义: 具有自相似性、对称性和三角不等性的距离函数称作伪度量。 定义: 具有自相似性、正定性、对称性的距离函数称作半度量。 3.1 形状匹配问题分类 给定两形状 s 1 , s 2 和不相似度度量 d , Veltkamp 对形状匹配做了如下分类: ▲ 计算问题 令 d 为变换无关的不相似度函数,计算 d(s 1 ; s 2 ). ▲ 决策问题 令 d 为变换无关的不相似度函数,给定阈值 t ,判断是否 d(s 1 ; s 2 ) t 。 ▲ 决策问题 给定阈值 t ,判断是否存在变换 g ,其中 d(g(s 1 ); s 2 ) t. ▲ 最优化问题 寻找变换 g ,其中 d(g(s 1 ); s 2 ) 最小。很多形状匹配的应用需要以此为基础。 ● 基于形状的检索 给定形状数据库 S={s1, s2, sN} 和查询形状 q ,检索与 q 相似的形状。有两种方法: 1 )(决策问题)给定阈值 t ,寻找所有 d(q,si)t 的形状。 2 )(计算问题)寻找 d(q,si) 最小的 k 个形状。 ● 形状识别和分类 1 )(决策问题)给定形状 s 和模型 o ,判断是否 d(s,o) 足够小。 2 )(计算问题)给定形状 s , k 类形状以及各类形状表示 r1, r2, ,,,, rk ,找到类 ri ,使得 d(ri,s) 最小。 ● 形状校准和注册 ( 优化问题 ) 给定两形状 s1 和 s2 ,寻找变换 g 使得 d(g(s1),s2) 最小。 如上所述,这个问题通常被 3D 形状检索的文献归为计算问题。给定查询模型,系统返回数据库中最相似的模型。 形状匹配中形状的表示方法,决定了相似度度量的选择。 第四章对 3D 形状检索中的匹配技术做综述。本节给出最常用的相似度度量。 Veltkamp 给出了计算几何模型中的形状匹配以及多边形和曲线匹配的相似度度量方法的综述。 ● L p 范式 (Minkowski 距离 ) 该方法用于匹配数字的向量形式的形状描述子。 定义: 给定 x , y 两点,则 Lp 距离定义为: 对 p1 , Lp 距离为一种度量。 若 p=1 ,称为 L1 范式或曼哈顿距离或城市块距离。 若 p=2 ,称为 L2 范式或欧几里德距离。 Lp 距离不是变换无关的不相似性度量。 图 3.1: 2D 空间满足 ||x||p=1 的点 ● Hausdorff 距离 定义 给定由点集表示的两个形状 X={x1,x2,,xM} 和 Y={y1,y2,,yN} ,则 X 和 Y 之间的 Hausdorff 距离定义为: H(X,Y) = max(h(X,Y),h(Y,X)) 其中 , ||.|| 为欧几里德距离。 图 3.2: Hausdorff 距离的可视化 Hausdorff 距离是一种度量。但它不是变换无关的,且对噪音不够鲁棒。这种方法的优点是可以进行局部匹配。 点集 A 和 B 之间的 Hausdorff 距离定义为: H(A,B) = max(h(A,B),h(B,A)) 其中 且 。 ||a-b|| 表示点 a 和 b 之间的距离度量(例如欧几里德距离)。 h(A;B) 称为 A 到 B 的有向 Hausdorff 距离,等于 A 中点到 B 中点最近距离的最大值。直观上如果 h ( A;B ) = d ,则 A 中的每个点距离 B 中点的距离不超过 d 。 h(B;A) 称为 B 到 A 的有向 Hausdorff 距离,按照同样的方法计算。注意通常 h ( A;B ) h ( B;A ) ,图 5 给出了示例。 Hausdorff 距离为两有向距离中的最大值。 图 5: 有向 Hausdorff 距离距离示意图。 Hausdorff 距离为两有向距离的最大值,即本图中的 h ( A;B ) . 原始 Hausdorff 距离对噪音敏感。如图 5 所示,如果两个接近的点集中有一个较远的噪音点,则 Hausdorff 距离将受噪音影响而无法确定两点集的相似性。在模式识别中,噪音和异常通常会导致这样的问题。 提出了变形的局部 Hausdorff 距离来缓解这一问题,他对 A 中点到 B 中点的距离进行降序排列,并将第 k 个点的距离赋为 h ( A;B ) 。 A 到 B 的局部 Hausdorff 距离可如下定义: 例如,对 k=3 , h 3 (A,B) 将忽略 A 中较远的两点,而选择 A 到 B 第三远的距离。 h k (B;A) 按照同样方法计算。局部 Hausdorff 距离通过舍弃较远的噪声点使得距离度量更加灵活。接下来的文章中我们采用 6% 排序进行有向距离的计算,其中舍弃 6% 远的点。该数值根据我们的系统由经验确定。 尽管在实现中采用局部 Hausdorff 距离代替原始 Hausdorff 距离,方便起见在下文中我们仍使用 Hausdorff 距离指代局部 Hausdorff 距离。由于 Hausdorff 距离的原始形式使用的较少,在文献中这两者的称呼也经常通用。但我们需要区分 Hausdorff 距离与接下来在下节中介绍的变形 Hausdorff 距离。 不管是计算第 k 个还是最大有向距离值, h(A;B) 都需要计算 A 中每个点到 B 中点的最近距离。通过距离变换可加速计算的过程。主要思想在训练阶段预先 一次 计算所有需要的距离值,在识别过程中通过索引快速地获取想要的距离值。在系统中,我们通过距离的阶进行加速变换。具体的变换方法和模版匹配的应用可在 4.5 节,相似度度量之后进行介。, 变形 Hausdorff 距离 提出了变形 Hausdorff 距离 (MHD) ,将有向距离计算中的 max 操作符替换为距离的平均值 : 其中 N a 为 A 中点的数目。变形 Hausdorff 距离则等于两有向平均距离中的最大值 : Although 虽然当 k = 50% 时 与 相似, 但前者为平均有向距离而后者为其中值。 Dubuisson 和 Jain 认为在对象匹配时,平均有向距离比局部有向距离更可靠,因为前者收噪音影响较小。 我们仍然采用距离变换辅助距离计算。变形 Hausdorff 距离比原始 Hausdorff 距离的计算性能更高,因为无需存储最小距离信息。 ● 弹性匹配距离 定义 令 A={a1,a2,,aM} 和 B={b1,b2,,bN} 为有限的有序轮廓点集, f 为 A 与 B 中所有点的相关性并满足 : { ai,aj A,aiaj f(ai)f(aj)} 。伸缩 s 定义为 : 则 A 与 B 之间的非线性弹性匹配距离为 : 其中 d(a i ; b j ) 为 ai 与 bi 正切角的差。 距离可通过动态规划方法计算。弹性匹配距离不满足三角不等性,因此不是度量。 ● 地面移动距离 这也被称作传输距离。 定义 给定加权点对 A={(A1,w(A1)),(A2,w(A2)),,(AM,w(AM))} 以及 B={(B1,w(B1)),(B2,w(B2)),,(BN,w(BN))} ,其中 A i ;B i R 2 。 A 与 B 之间的传输距离为将 A 转换到 B 的所需的最小工作量。 3.2 3D 形状匹配的距离函数 根据定义, 3D 对象的形状独立于任何平移、算法和旋转。因此距离函数也应具有变换无关性。独立于所有可能变换的距离函数可由如下公式给出 : 其中 G 为变换组。 该距离函数对 3D 形状匹配并不十分有效。下面给出两种变换无关的定义 定义 ( 姿态规整化 ) : 给定形状集合 S={s1,s2,,sN} ,度量 d(si,sj) 和变换组 G 。设 n 为多到一的函数,其中 g G , si S,n(g(si))=?i 且 si,sj S,d(si,sj)~d(?i, ?j) ,则 d(si,sj)~d(?i, ?j)=d(g(si),g(sj)) G 为平移、缩放和旋转等变换的任意组合。 G 上定义的函数 n 即称作姿态规整化函数。 定义 ( 不变特征 ) : 给定形状集合 S={s1,s2,,sN} ,度量 d(si,sj) 和变换组 G 。令 f + 为函数,其中 g G, si S,f+(g(si))=f+(si) 且 d(si,sj)~d(f+(si), f+(sj)) ,则 d(si,sj)~d(f+(si), f+(sj))=d(g(f+(si)),g(f+(sj)) 函数 f+ 称作 不变特征抽取函数 。 3D 形状的表示形式无法用于匹配。因此需要简化的描述子(形状描述子)来捕捉这些重要的形状特征。 定义 ( 形状描述子生成 ) : 给定形状集合 S={s1,s2,,sN} , 度量 d(si,sj) 。令 f 为函数 , 其中 si S, d(si,sj)~d(f(si), f(sj)) 。则 f 称作形状描述子生成函数。 若 f 对平移、缩放和旋转无关,则称作无关形状描述子生成函数。 形状描述子可以是数字的或结构化的。 数字形状描述子生成映射 X-Rn ,其中 X 为原始形状表示空间。 定义 ( 基于 3D 形状的检索问题 ) : 给定 3D 形状数据库 S={s 1, s 2 ;, s N} 以及查询形状 q ,寻找与 q 相似的形状。 解决方案 : (决策问题)给定阈值 t ,寻找所有 d(f(q),f(si))t 的形状。 (计算问题)寻找 d(f(q),f(si)) 最小的 k 个形状。其中 d 为距离函数或度量, f 为形状描述子生成函数。 若 f 不满足变换无关性,则需要先进行姿态规整化。 4 、 3D 检索中的形状匹配 近年来 3D 形状检索技术取得了很大的发展,本节对这些方法进行介绍。由于计算机图形学和 CAD 应用中常使用多边形模型,因此采用多边形表示作为 3D 模型的表示方法。 对给定多边形模型,可通过体素化生成体素模型,因此 3D 形状检索多采用多边形模型或体素模型作为输入。给定不同的 3D 模型数据库,需要创建简单的可高效计算的模型表示方法,用于模型的匹配。这在数据库规模庞大的时候更加重要,因为检索的环境是实时的。在 3D 形状检索的文献中,从初始模型中抽取的简化的表示方法称作形状描述子。这些描述子应该具有足够的描述能力来区分相似和不相似的形状,并且尽可能的简约。形状描述子可以是数字的(例如特征向量、直方图等)或结构的(例如图)。 形状匹配的方法有两种。首先是根据 3D 模型生成基于几何或拓扑特性的形状描述子,这称作基于模型的方法。有些基于模型的方法需要先预处理,将模型放置到正交坐标系中。这称作姿态规整化,在形状描述子不满足变换无关性时是必要的。平移无关性可将对象中心移到原点满足,缩放无关性可将所有的模型都缩放到相同的维数。旋转无关性稍微复杂一些,通常需要通过主元素分析 PCA 方法计算主轴,并将模型旋转使其主轴与预定义的正交坐标系重合。但这种方法有一些问题。首先 PCA 不保证主轴的正确排序,可能导致某些模型对其错误。其次,多边形网格中每个多边形的面积可能不同,将影响模型主轴的计算。加权的 PCA 算法已提出,用于解决这些问题 第二种形状匹配的方法是基于视图的方法,其中根据模型的若干 2D 投影生成形状描述子,并进行匹配。基于视图的方法一般采用 2D 形状描述子, Zhang 和 Lu 对其进行了比较详尽的介绍。这种方法需要捕捉足够多的视图来反映 3D 模型的各个方面。 4.1 基于模型的技术 3D 形状检索中基于模型的方法作用于 3D 形状本身,主要有两类方法。有些方法只考虑全局或局部的形状特性,其他方法考虑形状的结构特性,如空洞和组件等。 4.1.1 几何方法 这些方法挖掘形状的量化的特性,包括从形状中抽取出的体积、纵横比、表面积、曲率或其他数字的描述子。这些特性可以是全局的或局部的。全局特性计算速度快但无法进行局部匹配,而局部的方法则刚好相反。 4.1.1.1 全局形状描述子 全局方法把形状看作一个整体,已有很多描述对象全局形状的方法。本节按照主要思想对这些方法进行分类。 特征 给定形状,直观的方法是提取可区分不同形状的特征,例如体积、表面积或由形状表面或体积计算得到的矩。但这些特征描述里不强,因此可用于 3D 形状检索的初步过滤。 Elad 等人 提出了应用于多边形网格的基于矩的方法。他们定义了近似矩,检索如下: 作者首先在模型表面采用 N 的点。对一阶矩中心化可使其满足平移无关性,对采样点计算二阶矩的 3*3 矩阵进行分解可满足缩放和旋转无关性。规整化后计算 3D 模型的矩并生成特征向量,再根据欧几里德距离计算相似度。 Zhang 和 Chen 描述了有效计算多边形网格体积、表面积和矩的有效方法。 特征分布 这些方法采用特征的分布,本节将稍作介绍。 Osada 等人 提出了全局特征的分布方法,并通过概率分布比较得到相似度。他们定义了不同的全局几何形状函数: A3: 3D 形状表面上任意三点的角度度量。 D1: 固定点与表面上任意点的距离度量。通常固定点选择形状边界质心。 D2: 表面上任意两点的距离度量。 D3: 表面上任意三点组成三角形的面积的开发度量。 D4: 表面上任意四点组成四面体体积的开立方度量。 这些函数容易计算,且具有旋转和平移无关性。为了从这些函数产生形状分布,研究者在上述函数的每个形状分布中采样 N 个点,再创建 B 等宽的直方图。这些直方图即为分布的近似。形状相似度匹配也就转换为直方图匹配,可根据 Minkowski 范式、 Kolmogorov-Smirnov 距离、 Kullback-Leibler 散度、地面移动距离、 Bhattacharyya 距离、 X 2 统计等方法计算。 作者实现了八种计算简单的相似度度量。设 a 、 b 为待比较的两个形状, fa 、 fb 为通过直方图近似的形状概率分布函数( pdf ), f^a 、 f^b 为累积分布函数。相似度度量为: ? ? Bhattacharyya 距离: ? Pdf 的 Minkowski ( Lp )范式: ? Cdf 的 Minkowski ( Lp )范式: 这些方法不满足缩放无关性,需要进行规整化处理。作者表示 D2 函数在实验中效果最好。 Obhuchi 等人 和 Ip 等人 给出了 D2 方法的扩展。 Obhuchi 等人 提出了一种方法,沿 3D 模型的主轴计算若干统计数据,并应用于多边形网格模型。首先他们沿主轴对其模型,再计算直方图:( 1 )轴惯量的矩,( 2 )表面到轴的平均距离,( 3 )表面到轴距离的方差。这样每个模型得到由 9 个特征向量组成的特征向量,并采用欧式距离和弹性匹配对其匹配。实验表示该方法仅对旋转对称的模型效果较好。 空间图 这些方法意图捕捉形状的空间组成。 3D 形状首先被分割,再计算各部分的点分布或其特征。相似度匹配也考虑各部分之间的关系。下面给出一个例子。 Ankerst 等人 的方法包括两部分。第一部分基于离散表示产生形状直方图。第二部分定义二次距离函数。形状要事先按其质心对齐,并在表面上均匀采样以计算直方图。 他们提出了三种生成形状直方图的方法。每种方法定义了不同的形状分解:壳模型( 3D 模型被分解为绕中心点的同心壳)、扇模型( 3D 模型被分解为从中心点出发的若干扇块)和蜘蛛网模型(前两者结合)。 除了扇模型,其他两者都不是旋转无关的。作者认为欧式距离不考虑组件直接的关系而导致匹配效果不好。在这种情况下,组件反映了当前空间分解情况下点分布的空间关系,他们定义了如下的二次距离函数形式: 其中 N 为特征向量维数,或空间分解模型中 bin 的个数。 A 为相似度矩阵,其中 aij 表示特征向量中组件的相似度。可以看出,如果 A 为对称矩阵,则表示欧式距离。采用该公式可根据空间关系方便为不同的 bin 设定权值。 积分变换和特别函数 微积分的方法也被用于数字图像识别和信号处理。在 3D 检索中,一些方法采用了积分变换(变换系数)和一些特殊的函数。本节做简单的介绍。 定义 一般积分变换的定义如下 : 其中函数 K(s,t) 称作核函数。根据核函数的不同积分变换也有不同的名字。常用的包括 Hough 变换、傅利叶变换、小波变换、 Radon 变换和 Laplace 变换。 3D 形状检索对离散数据进行变换,并采用系数最为形状描述子组成特征向量。 Zaharia 和 Preteux 提出了基于 Hough 变换( 3DHT )的 3D 形状检索系统。由于 PCA 的局限性,,他们在姿态规整化过后计算所有可能的坐标轴顺序上的 3DHT 。他们称得到的 48 个 3DHT 为优化 3DHT ( O3DHT ),满足形状无关性。再计算 48 个 3DHT 形状描述子直接的 L1 和 L2 距离,并选择其中的最小值来比较模型。 Vranic 和 Saupe 采用离散 3D 傅利叶变换 (3DDFT) 产生多边形网格模型的描述子。 通过多种 PCA 算法满足旋转无关性,再对体素模型应用 3D 傅利叶变换。并由变换的实系数生成特征向量,实验中采用 L1 和 L2 距离进行度量。 Paquet 等人 采用基于小波变换的 3D 模型检索。 Daras 等人 则采用 3D Radon 变换和 L1 距离进行匹配。 3D 形状检索中也用到一些特殊的函数。 Kazhdan 等人 提出了采用球谐函数的方法,他们首先将多边形网格模型进行体素化,采用同心球面与其相交,并根据球面包含的模型多少描述每个球面函数。接下来对其进行谐波分解(频率分解)。他们总结了每个频率的谐波并生成由球面半径和频率索引的 L2 距离的 2D 图。该描述子具有形状无关性,也可应用于任何体素网格。 Novotni 和 Klein 采用 3D Zernike 矩生成形状描述子,该方法也是旋转无关的。 信息理论方法 Page 等人 对 3D 模型表面的形状复杂度进行度量。他们计算曲率熵,并称其为形状信息。他们认为曲别针比球面的复杂度更大,因此可进行量化的度量,并定义了离散情况下墒的概念 : 对网格进行均匀点采样并估计这些点的高斯曲率生成 M 个等宽的 bin ,由此估计形状的曲率概率密度函数 pdf 。根据上述定义,从 M 个 bin 中计算熵 H ,表示了 3D 形状再高斯曲率方面的复杂度。 作者表示球面为曲率复杂度最低的形状。因此上述公式计算球面的信息值为 0 。他们的实验证明具有不同曲率的模型比对称模型或重复曲率的模型更加复杂。 体积差 这种方法的前提是不同形状的空间体积构成是不同的,无法由简单的体积差技术捕捉。两个形状可能体积相同,但却不相似。为了匹配,所以的形状必须先进行姿态规整化,如下所示。 Kaku 等人 的方法采用有 Gottschalk 提出的 OBB 树数据结构。姿态规整化后,数据库中每个 3D 模型表示为二叉树,其中节点表示定向包围盒 OBB 的中心。他们根据对应节点差的总和进行相似度匹配。同时也保留原始模型的纵横比以进行其他的相似度度量。最终的相似度由加权上述两种方法的结果组成。作者与 D2 方法 进行了对比。 Leifman 等人 提出基于体积差的 oc 树。对模型进行 oc 树表示后,根节点的体积差 D 由底向上递归计算。这种方法相对较慢。 Ichida 等人 提出了交互的 3D 形状检索界面 ActiveCube 。用户可采用边长 5 厘米的立方体构建查询形状。系统实时识别用户创建的模型。数据库中的模型和查询形状均由体素表示,并通过对比体素的重叠进行匹配。 对规范形状的投影(变形) 基于投影的方法的思想是将一个形状变形到另一个所需的能量可用于两个形状的相似度匹配。在 3D 形状检索中,数据库中的每个模型都被变形对哦规范形状(如球面),变换所需的能量即作为匹配的描述子。计算能量的方法有很多,下面做些介绍。 Leifman 等人 提出了球面投影方法。首先进行姿态规整化以满足相似变换的无关性。将形状变形为其半径为 R 的包围球面的能量定义为 ,其中 为应用的力, dist 为对象表面到包围球面的距离。对表面上所有点的力假设是相同的。因此能量与球面与模型表面的距离成正比。 他们对球面上的点进行采样并计算距离。第一个距离 d1 是球面到模型的最小欧式距离,第二个距离 d2 为从模型到球面的距离,计算如下:模型上的每个点由球面坐标 ( a,q, r) 表示,对模型上每个点,寻找球面上 a,q 最为相近的点。对应关系建立以后,球面上的每个点对应表面上的一个点集。 d 2 即为从球面点到其对应点集的平均距离 (|R-r|) 。最终距离 d 为 d1 和 d2 的平均或串联。 作者从因特网收集了 1068 个任意的对象,手动将其中 258 个对象分成 17 类(人、导弹、汽车等等)。他们的方法在多数情况下性能优于形状矩 和形状分布 的方法,但对对不具有通用全局形状的类别效果不好,因为该法只捕捉全局性质。 Yu 等人 提出了相似的方法。他们生成从对象到包围球面的距离图,事先仍然需要进行姿态规整化,还对这些距离图应用快速傅利叶变换 FFT 来处理姿态规整化中的错误对齐。这些图的规整化的加权欧式距离用于相似度计算。 作者在由 34 个类、 52 个模型的数据库上进行了实验,但没与其他方法进行对比。 加权点集 这些方法从形状生成点集,按某种方式进行加权,并采用不同方法计算相似度。 Tangelder 和 Veltkamp 提出三种不同的生成加权点集的方法。将姿态规整化后的 3D 多边形网格放置在 3D 网格中。每个非空网格单元包含一个显著点。显著点的选取和加权有不同的方式:( 1 )选取高斯曲率最高的点,并将曲率值作为点的权值,( 2 )选择按面积加权的顶点的均值点,将面的法向方差作为权值,( 3 )计算所有顶点的质心,并赋权值为 1 。 他们采用地面移动距离的变种来进行相似度度量,使其满足三角不等性。作者表示他们的方法由于形状分布的方法。 4.1.1.2 局部形状描述子 这些方法考虑表面上邻居点之间的局部性质。曲率是局部性质的一个例子,在全局方法中也被用于表示上下文信息。在上下文环境中,将所有局部性质组合起来,可以作为形状的全局描述子。 这里我们不考虑组合局部性质的方法,因此可以进行局部匹配。同时这些方法的描述能力更好,因为虽然有些耗时,但它们可以捕捉形状的细节信息。该类方法多用于聚类环境中的对象识别和表面注册问题,也有一些已用于 3D 形状检索。这些方法不需要预先进行姿态规整化。 Johnson 和 Hebert 提出了旋转图像方法。旋转图像是在模型表面某点处计算的 2D 直方图。对一个网格模型,可对网格的每个顶点检索旋转图像。表面法线可在选定作为定向点的顶点处进行估计。与定向点距离 D 最大的点集中,满足其法线和定向点法线之间夹角在允许范围内的点将作为候选点。 2D 直方图则根据到表面法线和定向点处切平面的垂直距离进行计算。该直方图可用作图像。作者给出了聚类场景中的对象识别算法。 De Alarcon 等人 将旋转图像用于 3D 形状检索。对多边形 3D 网格,生成大量的旋转图像,并应用自组织映射 SOM 算法生成旋转图像的简化集合。此外,他们还采用 k 均值聚类方法对旋转图像进行聚类,以对数据库进行索引。作者在小数据库上进行了实验。 Yamany 等人 的方法捕捉表面上某点的曲率,并为每个点生成表面签名图像。该方法用于表面注册。他们发现为了对齐表面,至少需要对模型的三个对应点进行表面签名匹配并对其参数进行相似度变换。 Kortgen 等人 将 Belongie 等人 提出的 2D 形状上下文扩展到 3D 形状上下文。他们对表面上的 N 个点计算直方图。某采样点的直方图包含其余 N-1 个点的坐标。根据采样点集的大小,该方法的局部描述功能也不同。他们的分级方法将空间分解为壳或扇区。形状匹配则通过比较形状上下文来寻找模型上的对应点。 4.1.2 结构和拓扑技术 3D 形状的几何特性无法表达形状的语义。他们描述形状的全局或局部特性,却无法表达形状各部分之间的关系,也无法区分拓扑不同的形状。例如,采用拓扑方法可以方便地区分圆环和球面。同样,拓扑相似而几何不同的形状有时需要被分成一类。例如,不同种类的桌子应属于一类。长方形或圆形桌面、三条腿或四条腿的桌子尽管几何不相似,但确实拓扑相似的。 结构描述子更加直观,但匹配却比几何方法耗时。他们比几何方法的优势在于可以进行局部匹配。 表面透射图 Yu 等人 通过将模型变形到球面来抽取拓扑信息,这称作表面透射图,基本思想为:假设从模型中心发出射线到其包围球,则将根据模型的拓扑和凹度穿透一个或多个表面。包围球被分为多个扇区,并计算每个扇区射线穿透表面的平均值。作者没有与其他方法进行对比。 图结构 Hilaga 等人 提出了拓扑匹配的方法。他们构建多分辨率 Reeb 图( MRG )来匹配 3D 模型。 Reeb 图是对象上连续标量函数的骨架,作者采用测地距离分布作为连续函数。该方法对回转形状同样有效。 Tung 和 Schmit 加入体积和曲率对 Reeb 图进行扩展。因为在人体匹配中,仅采用拓扑相似,无法区分胳膊和腿。 Sundar 等人 采用骨架图匹配 3D 模型。他们同时利用了拓扑和几何信息,生成 3D 模型骨架也有很多方法。作者采用基于参数的细化算法抽取体素 3D 模型。模型各部分的骨架图也包括半径等几何信息。 关系结构 3D 模型可看作一系列单元何其关系的组合。每个单元可由面积、半径等几何属性描述。由关系匹配得到的检索框架由 Vosselman 给出。同时 Haralick 和 Shapiro 给出了基于关系距离定义的一致标记框架。 4.2 基于视图的技术 在利用 3D 几何或结构的同时, 3D 形状的外观或视图也可用于形状描述,其基本思想是相似的物体在各个角度上看起来都是相近的,已有一些相关研究。本节将介绍采用 3D 模型的视图来进行模型的相似度匹配。 Chen 等人 提出了基于光场的方法。光场为一个五维的函数,表示给定 3D 点在给定方向上的半径。对平移和缩放无关的 3D 模型,他们在近似包围球上均匀取 10 个点,并创建其轮廓生成光场。结合使用面积的 Zernike 矩(基于区域的描述子)和边界的傅立叶变换(基于轮廓的描述子)作为每个轮廓的 2D 描述子。这十个不同旋转球面产生十个光场的集合将保存下来。设 a 、 b 为待比较的两个模型,则相似度度量定义如下: 其中 I a ik ,I b ik 为轮廓的 2D 描述子,距离 d 为 L1 范式。 作者将他们的方法与 Funkhouser 提出 提出的 3D 球谐函数方法做比较,并说明他们的方法的处理效率较高。 Obhuchi 等人 提出应用于多边形 soup 3D 模型的方法。这些模型是平移和缩放无关的。他们计算 N=42 个深度的渲染图像,基本上包含了模型的所有视图。再对每幅图像应用傅立叶变换作为 2D 描述子。总共 42 个描述子形成 3D 模型的形状描述子。设 a 、 b 为待比较的两个模型,则相似度度量定义如下: 其中 I a i , I b j 为 2D 描述子,距离 d 为 L 1 范式。 因为所有的旋转是无序的,相似度度量比较所有可能的对并选取最小的 L 1 距离用来计算所有的 42 的视图。 5 、 3D 模型搜索引擎分析 前面的章节讲述了数字世界中 3D 模型的表示、相似度和匹配的概念以及 3D 形状检索技术。本节给出概念框架,将这些模块组合到一起形成 3D 形状搜索引擎。 3D 形状搜索引擎的主要组件是模型数据库。模型可表示为不同形式,例如多边形网格、多边形 soup 、体素模型。数据库可以针对领域的,例如 CAD 模型,或包含各种模型。除了名字之外,模型还可以包含文本描述。 对用户最重要的组件是查询界面,可有不同的形式: 用户提供 3D 模型,检索所有相似的模型。 草绘 3D 草图,检索相似的模型。 草图一个或多个 2D 视图,检索相似的模型。 用户还可以加入文本描述进行搜索,例如汽车。 由于模型本身不适用于匹配,需要创建简化的形状描述子,这些描述子通常预先离线创建。因此相似度匹配可以达到在线情况下的实时性。描述子也可以建立索引,提高检索的效率。下图给出了概念框架的各个组件 : 图 5.1: 概念 3D 形状搜索引擎框架图 6 、 3D 形状检索性能和相关问题 前面我们给出了基于形状的 3D 模型检索的方法,本章将更加细致地讨论这些系统的性能。 本章的结构是: 6.1 节对 3D 模型搜索系统的检索性能做综述。 6.2 节给出检索中主观评价的方法。多数系统采用形状等底层特征进行相似度匹配,但语义特征同样不能被忽略。因此,需要将用户的喜好加入相似度匹配。 6.3 节提出根据查询选择最佳的形状描述子。 6.1 性能评估和 Benchmarking 多数 3D 形状检索检索的性能通过结果与预定义分类之间的相近程度来评估。因为数据库随不同的系统分类而不同,需要一个统一的框架来比较不同的匹配算法。普林斯顿的形状 Benchmark 对此做出了贡献,它提供了不同类别的测试数据库,还附带一些比较检索性能的工具。 如果匹配算法通过计算形状之间的距离大小来进行匹配,通常有一些性能度量方法。 给定形状匹配算法和 3D 模型 (M = {m 1 ;m 2 ; :::;m N }), 可以计算模型之间的距离。对任意模型 q M ,可根据距离矩阵选择 k 个最相似的模型。 以下是评价 3D 形状检索性能的量化方法: 最匹配的图像根据相似度递减的顺序排列。 查准率 - 查全率图 距离图像 等级图像 6.2 主观检索 3D 模型搜索系统抽取底层的形状特征,但它们无法捕捉形状的语义。用户对形状的理解包括形状和语义两方面,同时每个人对语义的理解也可能不同。一个成功的搜索引擎应该能够适应用户的喜好。本节对这些方法做介绍。 Suzuki 等人 创建了对象特征框架 OFS 和用户喜好框架 UPS 并建立两者之间的映射。在特征抽取阶段,他们只考虑多边形网格的顶点,生成模型的规整化包围立方体,并将其分割为单位单元。最后,每个立方体内规整化顶点的个数即作为模型的特征向量。 算法其余部分如下 : 1. 选择数据库中的模型子集(训练集),要求用户提供这些模型的相似度,为每个用户建立相似度矩阵 2. 采用多维缩放 MDS 对上一步中建立的相似度矩阵进行降维。这是用户喜好空间。 3. 对不属于训练集中的模型进行预测。采用多元回归分析建立对象特征空间到每个用户的喜好空间的映射。 Elad 等人 提出循环优化算法允许用户标记相关和不相关的结果来调整距离度量函数。他们采用的特征是规整化矩,并采用加权欧式距离进行相似度度量。 用户反馈通过修改距离度量的权重是结果靠近相关匹配而远离不相关的匹配。支撑向量机 SVM 被用于训练距离函数的权重。这样,系统学习不同用户的主观相似度度量方式。 Zhang 和 Chen 提出主动式学习的概念将语义特征融合到检索过程。他们采用的底层特征是体表面纵横比、不变矩和傅利叶系数。 该系统采用汽车、身体、飞机等 53 个预定义的属性,对每个对象计算其属于每种属性的概率。训练过程中,随机选择若干模型给用户进行标记。用户判断对象是否具有某种属性,给出 0 或 1 的赋值,这称作隐式标注。因为无法收到标注所有模型,系统将估计其余模型的概率。作者采用有偏核回归技术估计未标注样本的概率。有偏估计表示如果一个对象远离标注的模型,则不应受某种标记的影响。 下一步即从数据库中选择最不确定的模型,并要用户进行标注。这采用知识增益进行判断,主要目的是降低数据库的不确定性。 检索过程采用底层特征的加权距离度量和基于模型概率的语义相似度度量。系统性能随标注模型的数量增多而提高。 6.3 形状描述子选择 前面介绍了匹配和检索 3D 形状的方法,以及比较不同形状描述子的性能评估方法和 benchmarking 技术。 本节将形状描述子选择问题看作模式识别环境下的特征子集选择问题。每个形状描述子被看作一种特征,多种特征组合可进行形状检索,问题是如何进行组合以取得最好的检索效果。 本文介绍文献中包含的两种形状描述子选择方法。 Vandeborre 等人 从多边形网格模型生成三种形状描述子(特征),包括:由每个网格面住曲率直方图组成的曲率索引,面之间的距离直方图(距离索引),和每个面的体积直方图(体积索引)所以特征对欧式变换无关。他们采用 L1 范式度量相似度,模型数据库包括飞机、汽车、鱼、象棋等类别。 作者提出两种方法组合形状描述子: 将结果集中对象的排名的曲率、距离和体积索引表示为 Rc , Rd 和 Rv 。 N 为每个查询检索到的模型, F 表示某种特征组合模式下,检索到模型与查询的相关程度。 ? OR 方法: ? MEAN 方法: 上述方法返回 0 到 1 之间的实数值,因此可根据 F 的大小选择最佳的 N 个匹配。 实验表面组合的形状描述子比单独使用其中任何一种的效果都要好。 Bustos 等人 采用基于熵不纯度的方法进行特征选择。 数据库中包括 1838 个 3D 模型,其中 292 个被预分类成汽车、飞机、海洋生物等。分类后的模型用作查询检索其同类的模型。模型特征向量之间的 L1 范式用于相似度度量。 检索的有效性通过结果集的一致性进行评估。查询应返回同类的模型,有些特征的区分性可能好于其他特征,特征组合一般会取得比较好的效果。其出发点是没有一种特征抽取可以对每种查询都有效,例如有效对汽车模型描述效果好,其他则对海洋生物效果好。 作者实现了 15 种特征抽取技术,并表示为特征向量。其共性是他们都描述了 3D 形状的全局特征,表 6.1 给出了这些特征和其出处。 方法 引用 深度缓存 Heczko 等人 体素 Heczko 等人 轮廓 Heczko 等人 体积 Heczko 等人 阴影 Vranic 和 Saupe 3D 谐波 Funkhouser 等人 形状复合函数 Vranic and Saupe 球谐射线 Vranic and Saupe 弦 Paquet et al. 矩 Paquet et al. D2 形状分布 Osada et al 3D FFT Vranic and Saupe 基于射线的方法 Vranic and Saupe 关系无关特征 Kato et al. 形状图谱 Zaharia and Preteux 表 6.1: Bustos 等人抽取的特征种类 . 作者采用熵不纯度度量来估计每种特征的性能,实验表面熵不纯度比 Gini 和误分类不纯度的效果要好。 他们开发了两种方法:独立于查询的特征选择和组合。 设 U 为 3D 模型空间, M 为 U 的有限模型子集(数据库)。对每个模型 m M ,都对应类别 c1; c2; :::; cN ,且 。 设 q U 为查询模型。对特征抽取函数 f , R q f 为按照 d(f(q),f(r)) 升序排列的模型序列,其中 d 为 L1 范式距离度量, q 为查询模型, r 为检索到的模型。 设 P k (c n , R q f ) 为类 cn 中属于 R q f 前 k 个模型的比例。 ? 最佳特征抽取选择的熵不纯度度量 搞定查询 q ,特征抽取函数 f 的 k 熵不纯度为: 若所有 k 个结果属于同一类,则 k 熵不纯度为 0 。当结果集合中不同类别的数目达到最大是,熵不纯度取得最大值。 最佳特征抽取函数根据下式选择: 其中 F ={f1; f2; :::; fT} 为特征抽取函数集合。 ? 最佳特征抽取组合的熵不纯度度量 这里选择查询 q 的最佳特征组合,而不是最佳特征抽取函数 f 。作者采用上述 k 熵不纯度进行特征函数的加权组合。不纯度值越小则权值越大, 并根据 k 熵不纯度建立查询 q 和对象 o U 之间新的距离度量函数如下: 其中 i(f t ,q,k) 为特征抽取函数 f t 和查询模型 q 的 k 熵不纯度。 D max t 为 q 到数据库中模型的最大距离( L1 范式)。 d t (q,o) 为 q 到模型 o 的距离。根据距离 d (q,o) 对结果进行排序。 作者采用查准率 P 和查全率 R 图对各种特征抽取方法和 k 熵不纯度的最佳特征效果进行对比。同样,也用 PR 图对特征组合结果进行评价。结果表面,特征组合可以提高 30% 左右的性能。 下图为查询的一个例子,采用赛车模型作为查询,给出了深度缓存、轮廓以及两者组合的检索效果。 图 6.1: 采用深度缓存、轮廓以及两者组合的查询结果 (Bustos 等人 ) 但这种方法需要手动对数据库中的对象进行分类。对未分类的数据库,则需要预先进行分类处理。如果不知道数据库的规模,可以通过聚类算法等非监督学习技术。但分类有很多方法,也可以考虑主观信息。例如纯基于形状的聚类可能将不相关的模型分为一类,比如导弹和笔。因此需要其他的成组方法,比如基于模型功能的费力或其他相关的文本信息。 参考文献 Mihael Ankerst, Gabi Kastenmuller, Hans-Peter Kriegel, and Thomas Seidl. 3d shape histograms for similarity search and classi_cation in spatial databases. In Ralf Hartmut Guting, Dimitris Papadias, and Frederick H. Lochovsky, editors, Advances in Spatial Databases, 6th International Symposium, SSD'99, Hong Kong, China, July 20-23, 1999, Proceedings, volume 1651 of Lecture Notes in Computer Science, pages 207-226. Springer, 1999. I. Atmosukarto and P. Naval. A survey of 3d model retrieval systems. not published, N/A 2003. not published. B. Bustos, D. Keim, D. Saupe, T. Schreck, and D. Vrani_c. Using entropy impurity for improved 3d object similarity search. In Proc. IEEE International Conference on Multimedia and Expo (ICME'04), 2004. P. J Besl and N. D. MacKay. A method for registration of 3-d shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(2):239-256, 1992. M. Bennamoun and G. J. Mamic. Object recognition: fundamentals and case studies. Springer- Verlag New York, Inc., 2002. Serge Belongie, Jitendra Malik, and Jan Puzicha. Shape matching and object recognition using shape contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(24):509-522, April 2002. Richard J. Cambell and Patrick J. Flynn. A survey of free-form object representation and recognition techniques. Computer Vision and Image Understanding, (81):166-210, 2001. Yang Chen and G_erard Medioni. Description of complex objects from multiple range images using an inating balloon model. Computer Vision and Image Understanding: CVIU, 61(3):325-334, 1995. De-Alarcon, Pascual-Montano PA, and JM Carazo. Spin images and neural networks for e_cient content-based retrieval in 3d object databases. In CIVR, 2002. Yu-Te Shen Ding-Yun Chen, Xiao-Pei Tian and Ming Ouhyoung. On visual similarity based 3d model retrieval. In Computer Graphics Forum (EUROGRAPHICS'03), volume 22, pages 223-232, September 2003. P. Daras, D. Zarpalas, D. Tzovaras, and M.G. Strintzis. Shape matching using the 3d radon transform. In 3D Data Processing, Visualization and Transmission, 2004. 3DPVT 2004, pages 953{960, september 2004. Michael Elad, Ayellet Tal, and Sigal Ar. Directed search in a 3d objects database using svm. Technical report, HP Laboratories, Israel, 2000. M. Elad, A. Tal, and S. Ar. Content based retrieval of vrml objects-an iterative and interactive approach. Eurographics Multimedia Workshop, pages 97{108, 2001. Thomas Funkhouser and Michael Kazhdan. Shape based retrieval and analysis of 3d models. Siggraph2004 Course 15, 2004. Thomas Funkhouser, Patrick Min, Michael Kazhdan, Joyce Chen, Alex Halderman, David Dobkin, and David Jacobs. A search engine for 3d models. ACM Trans. Graph., 22(1):83{105, 2003. M. Heczko, Keim, D. D., Saupe, and D. V. Vranic. Verfahren zur hnlichkeitssuche auf 3dobjekten. In Datenbank Spektrum Zeitschrift fr Datenbanktechnologie, volume 2, pages 54-63, 2002. Robert M. Haralick and Linda G. Shapiro. Computer and Robot Vision. Addison-Wesley Longman Publishing Co., Inc., 1993. Masaki Hilaga, Yoshihisa Shinagawa, Taku Kohmura, and Tosiyasu L. Kunii. Topology matching for fully automatic similarity estimation of 3d shapes. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages 203{212. ACM Press, 2001. Hiroyasu Ichida, Yuichi Itoh, Yoshifumi Kitamura, and Fumio Kishino. Interactive retrieval of 3d virtual shapes using physical objects. In IEEE Virtual Reality, 2004. N. Iyer, K. Lou, S. Janyanti, Y. Kalyanaraman, and K. Ramani. Three dimensional shape searching : State-of-the-art review and future trends. Computer Aided Design, 2004. Cheuk Yiu Ip, Daniel Lapadat, Leonard Sieger, and William C. Regli. Using shape distributions to compare solid models. In Proceedings of the seventh ACM symposium on Solid modeling and applications, pages 273{280. ACM Press, 2002. Anil J. Jain and Chitra Dorai. 3d object recognition: Representation and matching. Statistics and Computing, (10):167{182, 2000. A.E Johnson and M. Hebert. Using spin images for e_cient object recognition in cluttered 3d scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 21(5):433{449, May 1999. A. Young J. Park, D. Mataxas and L. Axel. Deformable models with parameter functions for cardiac motion analysis from tagged mri data. IEEE Transactions on Medical Imaging, 15:278{ 289, 1996. J. J. Koenderink and A. J. van Doorn. The internal representation of shape with respect to vision. In Biological Cybernetics, volume 32, pages 211{216, 1979. D.G. Kendall, Barden D., Carne T.K., and Le H. Shape and Shape Theory. Wiley Series in Probability and Statistics, 1999. Michael Kazhdan, Thomas Funkhouser, and Szymon Rusinkiewicz. Rotation invariant spherical harmonic representation of 3d shape descriptors. In Proceedings of the Eurographics/ACM SIGGRAPH symposium on Geometry processing, pages 156{164. Eurographics Association, 2003. Keitaro Kaku, Yoshihiro Okada, and Koichi Niijima. Similarity measure based on obbtree for 3d model search. In International Conference on Computer Graphics, Imaging and Visualization (CGIV'04), volume I, pages 46{51, july 2004. M. Kortgen, G.J Park, M. Novotni, and R. Klein. 3d shape matching with 3d shape contexts. The 7th Central European Seminar on Computer Graphics, April 2003. Toshikazu Kato, Motofumi T. Suzuki, and Nobuyuki Otsu. A similarity retrieval of 3d polygonal models using rotation invariant shape descriptors. In IEEE International Conference on Systems, Man, and Cybernetics (SMC2000), pages 2946{2952, 2000. G. Leifman, S. Katz, A. Tal, and R. Meir. Signatures of 3d models for retrieval. 4th Israel Korea Bi-National Conference on Geometric Modeling and Computer Graphics, pages 159{163, 2003. A. Witkin M. Kass and D. Terzopoulos. Snakes: Active contour models. International Journal of Computer Vision, 1(4):321{331, 1987. Bruce Naylor. Representations of geometry for computer graphics. In Siggraph 1996 Course Notes, 1996. M. Novotni and R. Klein. 3d zernike descriptors for content based shape retrieval. Solid Modeling, 2003. Robert Osada, Thomas Funkhouser, Bernard Chazelle, and David Dobkin. Shape distributions. ACM Transactions on Graphics, 21(4):807{832, October 2002. Ryutarou Ohbuchi, Takahiro Minamitani, and Tsuyoshi Takei. Shape-similarity search of 3d models by using enhanced shape functions. In Proceedings of the Theory and Practice of Computer Graphics 2003, page 97. IEEE Computer Society, 2003. Ryutarou Ohbuchi, Masatoshi Nakazawa, and Tsuyoshi Takei. Retrieving 3d shapes based on their appearance. Proceedings of the 5th ACM SIGMM international workshop on Multimedia information retrieval, pages 39{45, 2003. Ryutarou Ohbuchi, Tomo Otagiri, Masatoshi Ibato, and Tsuyoshi Takei. Shape-similarity search of three-dimensional models using parameterized statistics. In Proceedings of the 10th Paci_c Conference on Computer Graphics and Applications, page 265. IEEE Computer Society, 2002. D. L. Page, A. F. Koschan, J. K. Paik, and M. A. Abidi. Shape analysis algorithm based on information theory. In Proceedings of the International Conference on Image Processing, volume I, pages 229{232, 2003. E. Paquet, A. Murching, T. Naveen, A. Tabatabai, and M. Rioux. Description of shape information for 2-d and 3-d objects. In Signal Processing: Image Communication, volume 16, pages 103{122, 2000. A. R. Pope. Model-based object recognition: A survey of recent research. Technical report, Univ. of British Columbia, 1994. P. Shilane, M. Kazhdan, P. Min, and T. Funkhouser. The princeton shape benchmark. SMI, 2004. Motofumi T. Suzuki, Toshikazu Kato, and Hideo Tsukune. 3d object retrieval based on subjective measures. In Proceedings of the 9th International Workshop on Database and Expert Systems Applications, page 850. IEEE Computer Society, 1998. Linda G. Shapiro and George C. Stockman. Computer Vision. Prentice Hall, 2001. H. Sundar, D. Silver, N. Gagvani, and S. Dickinson. Skeleton based shape matching and retrieval. In Shape Modeling International, 2003, 2003. T.Tung and F.Schmitt. Augmented reeb graphs for content-based retrieval of 3d mesh models,. In International Conference on Shape Modeling and Applications (SMI'04), pages 157{166, 2004. J. Tangelder and R. Veltkamp. Polyhedral model retrieval using weighted point sets. Int. Journal of Image and Graphics, 3(1), pp. 209-229 (2003)., 2003. Johan W. H Tangelder and Remco C. Veltkamp. A survey of content based 3d shape retrieval methods. Shape Modeling Conference, 2004. Jean-Philippe Vandeborre, Vincent Couillet, and Mohamed Daoudi. A practical approach for 3d model indexing by combining local and global invariants. In 1st International Symposium on 3D Data Processing Visualization and Transmission, pages 644{647, 2002. R.C Veltkamp. Shape matching: Similarity measure and algorithms. In Proceedings Shape Modelling International, pages 188{197, 2001. G. Vosselman. Relational Matching. Lecture Notes in Computer Science, vol. 628, Springer Verlag., 1992. D. V. Vranic and D. Saupe. 3d model retrieval. In Proceedings Spring Conference on Computer Graphics 2000(SCCG2000), Budmerice, Slovakia, may 2000. D. V. Vranic and D. Saupe. 3d shape descriptor based on 3d fourier transform. In Proceedings of the EURASIP Conference on Digital Signal Processing for Multimedia Communications and Services(ECMCS 2001),Budapest, Hungary, pages 271{274, september 2001. D. V. Vranic and D. Saupe. Description of 3d-shape using a complex function on the sphere. In Proceedings IEEE International Conference on Multimedia and Expo, Lausanne, Switzerland, pages 177{180, August 2002. M. Yu, I. Atmosukarto, W. K. Leow, Z. Huang, and R. Xu. 3d model retrieval with morphingbased geometric and topological feature maps. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2003. Sameh M. Yamany and Aly A. Farag. Free-form surface registration using surface signatures. In Proceedings of the International Conference on Computer Vision-Volume 2, page 1098. IEEE Computer Society, 1999. C. Zhang and T. Chen. E_cient feature extraction for 2d/3d objects in mesh representation. CIP, 2001. C. Zhang and T. Chen. An active learning framework for content based information retrieval. Technical report, CMU, 2002. D. S. Zhang and G. Lu. Review of shape representation and description techniques. Pattern Recognition, 37(1):1{19, 2004. T. Zaharia and F. Preteux. Hough transform-based 3d mesh retrieval. In Proceedings of SPIE 4476 on Vision Geometry X, San Diego, USA, august 2001. Dennis Zorin and Peter Schroder. Subdivision for modeling and animation. In Siggraph 1999 Course Notes, 1999. ( http://www.graphics.stanford.edu/data/mich ) ( http://www.formaurbis.stanford.edu/index.html ) ( http://edge.mcs.drexel.edu/repository/frameset.html ) ( http://www.rcsb.org/pdb ) ( http://www.viewtec.ch/meddiv/hugo_e.html ) ( http://www.nlm.nih.gov/research/visible/visible_human.html ) ( http://marathon.csee.usf.edu/range/DataBase.html ) ( http://sampl.eng.ohio-state.edu/~sampl/data/3DDB/RID/minolta/angel.0699/index.html )
个人分类: 学术动向|12459 次阅读|0 个评论
从信息检索到信息交互
njumagic 2009-2-8 16:49
信息检索成为研究热点。在40年的系统研究和发展后,经常被忽视的是,技术和全球信息经济的发展使信息检索成为全球信息空间(cyberinfrastrucure)的一个重要部分,并成为最优秀的研究者关注的热点。新的公司如Google、亚马逊(Amazon)、eBay和巨型机构如IBM、微软已经建立了信息检索的研究开发组。在许多方面,信息检索的研究已经处于稳定水平,直到WWW的发展,为信息检索技术的研究注入了新的活力,使得信息检索技术成为支撑全球市场的电子信息交互的关键技术。本文认为,信息检索的研究重点已经发生变化,一种新的信息交互策略已经产生。这种观点包括两个方面,第一,通过对现在的信息环境和信息检索研究的趋势的观察,来考虑信息检索研究的变化。第二,通过一些例子来说明信息检索作为一种交互的过程,需要激发人的注意力和精神努力。 1. 信息对象与人 信息检索作为一个科学研究领域,可以分成多个组成部分,我们重点关注对我们的技术很重要的部分。信息检索一直关注的重点是信息对象以及创建、发现和使用这些对象的人。然而,因为人是比较难以预测的,也难以控制,所以信息检索研究主要关注信息对象。传统的信息对象主要是文档(document)和查询,研究主要集中在两个问题上:对象的表示和对象间关系的定义。对象的描述一直是哲学、信息科学 、人工智能的典型问题。信息检索研究者已经提出了许多有效的表示文档和查询的方法,包括语言的表示(如词汇集)和基于词频(term-occurrence)、相关性的估计以及超链图等大量的数学表示。信息检索研究主要关注于等同性和相似关系(对象间的相似程度),并开发了大量的匹配算法,应用于现在的检索系统。图1是一个传统信息检索问题的示意图。 图1表示,来自各自对象空间的文档和查询对象的样本都表示为一定的形式,通常使用相同的表示方法。例如,在早期的商业检索系统中,一种简单的方法是把文档和查询表示为词汇集中的一些项(terms),并简单的匹配其相交性。一种更加通俗的方法是通过把文档和查询都表示为一些项集在文档中出现的频率的向量,并根据余弦相似性排序,返回按照相似性排列的检索结果。当文档和查询表示为不同的形式的时候,就必须加入翻译、转化或者中间语言。这种以内容为中心的策略已经推动了创造性的工作,并开发出有效的检索系统。然而,同时提高查准率和查全率的研究似乎已经达到了稳定状态,进展缓慢。 电子信息环境中发生的两种重要的改变,拓宽了研究计划(schema),并刺激了新的信息检索类型的研究和发展。这两种改变主要是出现了新的类型和属性的信息对象,以及对信息检索过程人的参与的进一步关注。信息检索研究者已经开始意识到这些改变,体现在信息检索研究战略小组提出的信息检索所面临的两个重大的研究、发展方向 :全球信息访问(global information access) 和上下文信息检索(contextual retrieval)。全球信息访问是指通过与自动化的系统(这个系统对覆盖了世界范围内任何语言的结构化和非结构化的数据)进行自然、有效的交互,来满足人们的信息需求。上下文信息检索是指把搜索技术和查询知识以及用户的上下文关系结合起来,形成一个简单的框架,提供最合适的答案,满足用户的信息需要。 信息检索感兴趣的信息对象范围已经扩大,性质也发生了改变(qualitatively morphed)。一方面,信息检索感兴趣的对象范围已经扩大,不仅仅局限于文本,还包括统计数据、科学数据集和序列、图像、声音、视频、动画和其他多媒体。许多情况下,这些类型的对象可以使用同样的检索策略。另外,新的对象类型已经出现,如可执行的数据模块、交互协议和窗体、智能agent和程序,每种对象都有新类型的特征,这些特征可能对检索至关重要。比新的对象类型更重要的是,所有的对象变得更加动态化,更少的静态,并依赖于信息检索目的。例如,一个动态的blog是一个不断变化的对象,它的表示形式也同样不停的更新。这种改变来源于新对象的能力,和包含这些对象的外界环境的新能力。其实,电子对象更多的设计在于展示行为根据外界环境的改变而变化。超文本是典型的例子,托付(recommender)系统是更新的例子,而环境敏感的传感器程序装置是近来的趋势。另外,全球信息空间(the global retrieval system)存储和使用上下文信息的趋势是利用更加复杂的信息对象的内在行为。?例如,一个检索系统可能不仅表示了网页内容,而且不断的更新存取时间和引用页面。另外,系统可能增量的存储详细的在线事务的状态轨迹,甚至是用户端的鼠标移动和点击等动作。对象获取历史、注释、链接的信息,这些信息可以影响检索和使用。重要的是,这些信息同样应用于查询对象和文档对象。例如,在9.11前、后查询关于世贸中心的资料的不同。 信息对象这些自然的改变为信息检索提供了挑战和机遇。信息检索的研究已经在许多战线上接受这些挑战,例如,TREC的发展轨迹。明显的,所有各种新的特征类型已经开始用于对象表示。同时,对象上下文信息将对对象的表示和对象间的关系的发现起到巨大的帮助。最重要的是有机会发现对象的新的类型的特征和新的对象间关系,这些对象间关系对检索结果有重要影响。超链接和引用是由对象创建者建立的文字上(literal)的关系,这些关系已经在页面的排序和路由算法中用于表示对象。直接(explicit)的关系是指由第三方定义的对象和观点(opinion)间的关系,可以用于将相同的观点聚类。隐含的关系是根据行为(即人和对象交互的动作轨迹)建立的,这些隐含的关系对检索的目的也有重要的影响。电子对象有许多自然的特征,电子对象间有更多的关系,这些与检索目的有关。目前,信息检索的最激动人心的事情是有许多新的领域去开发,甚至初学者都可以获得重要发现。 信息的这种基本的改变将使信息检索领域出现大量的可选的表示方法和匹配算法。第二个趋势是需要一种新的信息检索策略。这种趋势越来越多的考虑了使用信息检索系统的人。尽管信息检索研究中已经存在用声音表示人的研究(如主观相关性的提倡者Saracevic ,Schamber 和Harter 。关注于检索的认知过程的有Belkin ,Ingwersen 和Marchionini ),信息检索研究者更加努力的把人和检索的问题联系起来。这种表示被成熟的应用于我们的信息检索方法中,我们希望扩展我们的问题定义以包括大量的facets,这些facets因为聚焦于信息检索问题的内容facets而被长期搁置。? 图2描述了一种不同的解决检索问题的策略,而不是图1中展示的典型匹配策略。这里的信息样本被表示为一片云,而不是一个固定的数据库,因为它是动态的。图中,重点在表示的变化和动作,而不是匹配问题。索引是多样的、动态的。典型的表示信息对象的技术仍然有用,但可能被用户控制和选择而不是固定在系统中的。然而,相似性关系可以由信息搜索者根据其需要和能力而灵活的决定。因而,问题从系统优化匹配转变为让信息搜索者参与整个检索过程并做选择。在这种以用户为中心的策略中,人具有职责和能力。指望在google中使用两个词的查询请求来获得需要的所有信息是懒惰的、天真的,人必须通过别的方法来达到信息搜索的目的。一种挑战是当处理复杂的单调的任务,特别是在检索任务需要大量的行为时,人往往是懒惰的、天真的。我们解决这个问题的方法是,设想信息检索是人与信息源不断交互的生命过程,正如我们的身体通过和环境高度协调的过滤和选择作用被连接到环境中一样。在这种策略中,至关重要的系统设计挑战变成了对灵活的吸引人的表示方法、交互方式的控制机制的研究。值得注意的是,结合原来的查询/结果模式的一些新的交互方式已经普遍存在。 信息检索研究使用户体验各种方法。研究者们一直努力的提供一种自动的、用户可以控制的查询表示 ,可以从用户相关反馈中获益的系统 ,并努力的提供用户帮助 。除了用户产生的元数据,研究者在寻找利用用户行为和有意识的注解来为对象增加额外的元数据、特征的方法。有些研究已经利用文件(profile)来为用户建模,这些文件是由用户明确(explicitly)的完成或根据用户行为来动态生成的。近来,关注于利用明确的和自动获得的用户行为来建立(recommender)系统的研究 。这些努力推动了信念挖掘的研究,信念挖掘产生新的推断关系,这些关系可以作为检索的特征。其他的努力在于为用户提供一些帮助 ,典型的例子是获取尽量完整交互历史 。其他的方法在于保存长时期的人机交互状态(网络存档文件保存网页的状态,并考虑保持所有与特定资源的长时期的交互的信息这是许多电话公司需要做的日常事务)。其他目的在于创造一个统一的环境,使用数据挖掘规则和当时(contemporaneous)行为进行上下文信息的获取 。有的研究在于建立预想的信息系统,该系统可以很好的运行在可选的分发系统上,对上下文和用户的文件产生重要作用。?所有的这些努力将丰富以人为中心的信息检索策略,并推动该领域对信息搜索进行更完整的考虑。我认为,最大的进步在于将人类的能力积极的包含到信息检索过程。到目前为止,许多研究者关注于至关重要的人机交互机制,这是这种策略的关键。 2. 高度交互性的界面 直接操作的思想已经由Shneiderman 引入到界面设计,并被一些研究者应用于信息检索的界面设计。Shneiderman 和他的同事把直接操作技术用于检索环境,称为动态查询系统 。这个高度交互性界面的关键是使用户和不断更新的视觉信息进行交互,并允许动作的撤销。对于动态的查询,结果表示和鼠标、键盘动作有紧密的关系。其他的研究者也为数据库和信息的检索建立高度交互的环境。典型的有PARC小组的系统。关于信息检索界面的综述可以参考Hearst 的文章。我们关于信息交互界面的工作的两个例子如下。 3.1 数字视频检索 作为我们开发的一个开放源码的数字视频数据库的一部分,我们已经建立并系统的评价了一系列的表示视频内容的视觉表示。这些表示方式包括基于主键的情节串连图板(storyboard)和幻灯片,快进,摘要等。这些表示是用户可选择的观察方法,可以通过文本查询或者选择等交互来选择文集中的部分内容。图3展示了一个开放的视频框架。?可以通过简单的鼠标动作来改变视图。用户可以根据需要,选择某种表示方式,并快速的获取具有不同的视觉和文本重点提示的结果集。点击一个片断的按钮(surrogate),会生成一个完整的元数据记录,以及视频的内容的三种不同的预览: 7秒的摘要、情节串连图板和快进。点击一个按钮,立即在预览画板上显示预览,而不打开新的窗口或者改变用户的上下文信息。文本元数据同时显示。检索策略允许用户快速的移动不同层次粒度的视频,不同的粒度具有不同的表示方式,强调不同的视频特征,目的在于让用户观看视频,理解特定视频的全部上下文信息,以决定是否值得下载。实际系统也考虑了其他因素,如下载的人数、基于应用的相似性,和各种标准的目录索引、适当的超链接。系统同时支持文本查询,目的不是代替有用的功能,而是扩大系统的功能,由信息搜索者决定搜索策略。 我们认为这个计划最重要的是系统的设计是基于一个交互的框架,对象表示以经验为主的,并有广泛的用户测试。这种系统开发的原则和方法来源于人机交互(HCI)和信息检索领域的评价机制。用户反馈和开放式视频数据库的应用从理论和开发的角度证明了这种经验评估的有效性。? 3.2 与网页数据库的交互 另外一个例子是一个高度交互性的界面Relation Browser++,该界面使查询和结果无缝结合(http://idl.ils.unc.edu/rave)。目的是给用户展示一个完整的信息空间,并允许用户与各个基于属性集的不同信息集交互。图5-7显示了在美国能源信息管理网站上的一系列检测,数据库中有超过10000个网页的描述。这些网页已经根据他们的相关性被分为四个主要类别:燃料类型、地区、部门(sector)和处理(process),每个种类都有一些属性值。屏幕显示了页面的数量和每个属性值在文集(corpus)中的相对长度。这些页面可以利用文集(facet)中或文集间的若干个属性值来建立索引。当用户移动鼠标在一个属性值上时,页面的数量和其属性值随之被更新。这允许用户探究各个方面(facets)的关系。单击一个属性值将分割数据库,使其只包括符合情况的网页。浏览、鼠标移动是连续的、动态的,用户也可以单击搜索按钮以获得检索结果。图5中,用户可以单击属性值天然气和搜索按钮。可以看到有2916个页面是和天然气相关的,其中128个与燃料有关,576个与商业部门有关,403个与进出口有关。单击后,按钮变成重新开始,结果展现在相同的窗口中。这是交互界面的重要成分保持用户的上下文信息以使交互流不被丢失。新的窗口显示将被避免直到出现转变点(until discrete transition points)。在RB++中,所有的浏览和搜索动作在相同的窗口中发生,并更新优化以避免认知中断。新的窗口只当用户单击某个记录并跳转到另外一个网页的时候使用。搜索按钮左边的是结果数量,利用类似于SQL的查询表示生成的结果出现在窗口的下面。 这样,用户可以不断的浏览、在结果中执行一系列的搜索,得到一个特定的网页,或从头开始。图6展示了一个例子,当用户简单的移动鼠标到与住宅有关的属性值。所有的属性值数量和bar立刻更新,得到902个网页与天然气和住宅相关,540个网页和住宅的天然气相关。此外,搜索结果的数目也被更新,以表示902个结果是可用的。每个鼠标移动的过程实际上是一个新的查询。用户可以通过鼠标或在任何三个结果集之一中输入文本检索请求,不断的缩小结果的范围。字符串检索立刻返回匹配结果,并突出显示。图7显示了用文本house检索的结果,从2916个天然气页面中得到50个结果。 关系浏览器(Relation Browser++)是第三个版本,这个界面包括浏览和搜索数据库中的网页内容的功能。最新的版本是用一个java applet连接到MySQL数据库。Relation browser ++及其以前版本已经应用于许多应用,界面facet的数量和属性值的数量都比较小。该界面用于大约几万条记录的中型数据库。我们已经使用了大概300万条的交互日志记录,但把元数据传到客户端的applet的速度是非常慢的。对于大型的数据库,如WWW的搜索,Relation Browser+ 更适合于与一部分搜索结果集或一个种类的页面交互。我们现有的工作目标在于开发一些自动的方法来寻找更好的facet,显示数据库中合适的页面。第一个问题是种类的发现问题,第二个问题是文本的分类问题。我们已经研究了聚类方法,使用一些常用的启发性 的统计研究方法。 3. 结论 这里的例子用于说明使用户在信息检索中不被中断(连续的)的一些初步的研究。视频搜索和网页数据库浏览的例子目的在于利用信息检索研究的成果,使机器在人的控制下做得更好,并具有识别模式、利用各种关系进行推断的能力。通过这种方法,在检索的同时,信息被创建。用户通过行为、理解和反映等来获取用户想要的信息,而不只是通过查询请求的陈述。因而,信息交互的观念比信息检索更能体现人的活跃角色,以及电子环境中信息对象的动态性质。 (李曼舞编译)
个人分类: 学术动向|6343 次阅读|0 个评论
一则学术会议征文信息有感
timy 2009-2-4 12:18
全国第五次情报检索语言发展方向研讨会 将于2009年6月在上海举办,这个是国内信息组织研究人员非常关注的一个会议。相关的会议按照学科来看,可以分为图情学科和计算机学科: 国内关于信息检索的研究与实践最初源于图书情报界,主要针对图书文献进行组织和检索。图书情报界有关信息检索(早期叫情报检索,它和信息组织是紧密联系的)的会议有全国计算机信息管理学术研讨会、全国情报检索语言发展方向研讨会,中国索引学会年会及学术研讨会以及其他一些非定期的相关学术会议。全国计算机信息管理学术研讨会在业内又称机检会,因为早期主要是做计算机信息检索的人聚在一起研讨信息检索的。这个会办到现在已经20几届了,早期计算机领域的人参加较多,现在基本上只有图情的研究参加。全国情报检索语言发展方向研讨会,中国索引学会年会及学术研讨会是范围比较小的会议,基本上是图书情报界的研究人员参加。 计算机界主要从检索技术与实现方面进行了大量研究,并且更侧重于对海量的,通用的信息资源进行挖掘和检索。再看看国内计算机界举办的信息检索相关的学术会议:全国信息检索与内容安全学术会议,全国搜索引擎和网上信息挖掘学术研讨会,全国计算语言学学术会议(里面有信息检索的专题)。这些会议的参加人员包括计算机界、语言学界、图情界等,从构成、范围、影响力上可以看得出这些会议有很好的生命力。 同样是为了解决人类的信息需求问题,不同学科针对不同的研究对象,用自己学科的基本方法来进行坚持不懈的研究与实践。学术会议是学术交流的一个缩影,通过学术会议能从一定程度看出一个学科的发展轨迹。不同学科的融合(如研究方向的交叉、研究方法博采众长等),可以算是延续一个学科生命力的有效方法之一。 08年博主曾在博文 参加SEWM2008 提到计算机界的IR-NLP-DM联合大会,那么图情界、计算机界、语言学界是否能真正融合起来,对信息组织从语言认知、理论模型、技术实现等角度进行全方位的研究,组织一个类似SIGIR、CIKM等国际会议一样(该例子也不是太恰当,现在这两个会议基本上就是计算机界的天下了,即使这样,CIKM还专门设置了Best Interdisciplinary Paper,呵呵。没其他例子举了,没办法啊。),让各种学科研究人员都能广泛参与的会议呢? 以上感想,仅供参考。
个人分类: 研究方法|4945 次阅读|2 个评论
《信息检索系统导论》的编辑手记
maywuyi 2009-2-4 09:49
2008-2-29 秦老师作为代表签了合同,说6月交稿。这本书论述搜索引擎的基本理论与开发方法。市场上较多的是关于图书馆的信息检索,介绍的是如何使用检索工具,而介绍搜索引擎技术的书很少。本书基础篇讲解信息检索这门课必须掌握的基本概念、基本原理和基本技能,包括:绪论、信息检索模型、信息检索的评价、文本处理、查询(Query)处理、索引与检索、Web搜索。高级篇讲解近年来出现的最新检索方法或者研究动态,包括:文本过滤、文本分类和聚类、问答系统。 2008-6-21 6月10日,秦老师按时交稿了。按时交稿值得写吗?对,按时交稿太不容易了,秦老师多忙啊。最近她牵头又接了一项新的工程,见下面的链接,他们实验室有报道:秦兵老师获得一项国家863项目资助,题目为基于实体关系的文本内容挖掘与集成技术平台。这是5月的事情,又搞科研,又教学,还有时间写教材,那需要多大的精力和能量才能作到啊,真是佩服。 我们的朱编辑正好有时间加工这个稿件。朱编辑可有耐心了,还有丰富的编辑经验,更重要的是,她的责任心着实让人钦佩,稿件交给她我就放心。为了更好地了解秦老师的工作,我上到他们的网站,看到许多许多故事和成绩,让人感动。尤其是登上刘挺老师的博客,看到大家式风范的博文,让人受益匪浅。刘挺老师的博文有丰富内容,从科研方法到最新研究,从记忆中的细节到生活哲学,立体地刻画了一个博导的风貌。而且文笔流畅、朴实生动,深深打动了我,让我流连忘返,直到凌晨才离开计算机。下面有相关链接。 http://blog.sina.com.cn/tliu7221 2008-7-3 信息检索系统导论在China-pub上提前预告了,地址见下面的链接 http://www.china-pub.com/208974 。刚开始预告就有人评论了,心理特美。自己几天来连续晚上加班看稿子,心理也得到了平衡。我一定仔细做好这本书。 看稿子的过程很费劲,书稿中含有大量数学公式,算法分析,别说看不懂数学公式,就光这些内容如何表达就让我和朱编辑大伤脑筋。使用怎样的字体?怎样的格式?都关乎读者的阅读体验。让一个内涵复杂的图书表达清楚,着实费劲。在读稿件的过程中,越发佩服朱编辑,她怎样在三周的时间里提出了447个问题?让作者都感到吃惊。只要有一点表达不清楚的地方、可能错漏的地方,朱编辑都不放过。没有多年编辑工作经验是发现不了这么多问题的,没有很高的责任心也是做不到这点的。朱编辑提的问题类型如下:1. 术语如何定义才清楚,语法才规范,绝不含糊。2. 英文术语不好翻译,但是规定都要翻译中文的,如何翻译才合理。3. 术语前后是否表达一致。4. 语言表达是否流畅。 2008-9-10 我们已经编辑完并校对完全稿。打算请人进行评议。我联系了几个老师,他们异口同声地说认识刘老师和秦老师,很愿意仔细读这本书。可见刘老师和秦老师在业界的影响。大连理工大学的林鸿飞教授写了一篇中肯的书评,记录如下。 信息检索课程的示范教材-----读《信息检索系统导论》 随着因特网的日益普及,它已经渗透到我们生活的各个角落,改变着我们的生活方式和思维方式。搜索引擎作为人们使用因特网的重要入口,引起人们广泛的重视和关注。尤其是以谷歌和百度为代表的搜索引擎公司的兴起,很多的青年学子对于搜索引擎技术产生了浓厚的兴趣,在高校的校园内,与搜索引擎相关的课程和讲座也日益火爆。在这种潮流之下,急需一本合适的教材,引导学生系统地学习基础理论和算法,冷静地思考信息检索的核心问题和未来的趋势,积极地参与因特网的搜索引擎及其相关领域的研发活动。哈尔滨工业大学的刘挺教授和他的同事编写的《信息检索系统导论》正是这样一本学习和掌握信息检索理论和技术的好书。它具有很多独到之处,颇具特色。 (1)该书系统地梳理了信息检索及其相关概念,因特网的特征之一就是海量信息,同时相关概念也是目不暇接,层出不穷,本书系统地论述了这些相关概念之间的区别和联系,例如情报学领域的信息检索和计算机领域的信息检索、信息检索与搜索引擎、文本挖掘和数据挖掘、信息检索与自然语言处理、分布式计算、数据库等之间的关系、信息检索中的关键技术及其应用研究等。 (2)信息检索是正在发展的技术,存在许多需要完善和改进的地方,还不断涌现新的应用需求,因此需要将学习、研究和应用集为一体。该书将最新的科研成果融入教材之中,例如隐性语义分析、统计语言模型、本体论以及信息过滤和问答系统。内容安排详略得当,深入浅出,即强化了学生对于基础理论和算法的学习,又满足了对于学生对于目前研究前沿技术的渴望,进而鼓励和引导学生去解决目前搜索引擎中存在的问题和不足。由于作者在信息检索领域取得了出色的研究成果,积累了丰富的研究经验,积淀了大量应用案例,因此举例生动、数据详实、简明有效。 (3)面对因特网上海量信息,如何评价检索系统的性能优劣是人们比较关心的问题。设计检索算法是必要的,但是如何评价检索算法也是必须掌握的,这对于培养学生严谨的学风很有帮助。该书在介绍信息检索各种模型和应用的同时,详细介绍了相关的评测指标和评测办法。而且对于美国的NIST和DARPA主持的TREC,日本的NII主办的NTCIR和欧盟主办的CLEF以及国内的863评测和SEWM评测进行了比较详尽的介绍,使学生可以通过专门的技术评测来学习和评价各种信息检索技术。 毫无疑问,该书的出版将会对信息检索课程建设起到示范作用,帮助更多的读者提高对信息检索的兴趣,对于信息检索领域的研究和应用将产生积极的影响。 2008-12-9 《信息检索系统导论》终于出版了。从9月到12月,反复修改多次,作者也看过三次,去印刷时还是怀着忐忑的心情。封面设计、装帧、印刷都很好,拿到样书时喜悦的心情无以言表。忽然发现在目录上有一个错字,唉,心里别提多懊恼了。最后一次样子没有看,因为只修改几处,大意了。时间拖了很长了,为了赶时间,还是由于兴奋而放松了心情,总之都不是理由。只好拉回印刷厂重新修改。为一个字重新印刷的费用很高啊,真是一字千金。
个人分类: 读书笔记|4653 次阅读|0 个评论
《工程信息检索教程》的编辑手记
maywuyi 2009-2-4 09:32
2007年底,信息检索课程已经被全国工程硕士专业学位教学指导委员会正式列为公共必修课。我们觉得出版这个课程的教材很有意义。于是联系了王知津教授,他马上就答应了。王老师很认真,组织了12人的编写小组,开了三次编委会。编委会成员除了南开大学以外,还包括天津大学、天津工业大学、天津科技大学、天津理工大学、山东建筑大学等,都是在信息检索课教学第一线的教师。第一次编委会,研究了编写原则、指导思想、编写思路以及编写大纲等。王老师还请了2位业内专家参与大纲的讨论。第二次编委会讨论了章节的结构及细节内容,第三次编委会统一体例格式。 我在2008年1月27日到南开大学参加了他们的第三次编委会,与老师们讨论了格式问题和教材拓展问题,希望能编写出立体化的教材,包括教辅等内容。说起与王老师的交情,要回溯到2年前合作出版一本翻译教材。在那次合作中与王老师有很多的交往,深刻了解王老师的做事风格与态度,想必我们的工作情况也给王老师留下过不错的印象。但是我们从没见面。这次王老师带领所有参编人员一起交流,开会变成了朋友会面,愉快的场景深深印刻在了我的记忆里。 2008-2-28昨天已经把签定好的合同快递给王知津老师了。计划6月交稿。 这个教材有如下特点: 1)重点介绍现代信息检索的基本理论与方法,包括信息检索领域的最新成果,强调外文信息检索的方法。(区别于本科教材和科学硕士教材。本科教材比较简单而且泛化,中文信息多,外文信息少。科学硕士教材很少,有的包含很多学科,有点杂。) 2)专门针对工程硕士领域的信息检索,包含目前40个全国工程硕士培养领域。 3)为了使工程硕士快速掌握信息检索方面,专门设计了综合示例。 4)突出实用性,注重工程硕士的科研能力的培养。 5)完全介绍电子信息检索,不包含已经落后的纸制信息检索。(旧教材中会有) 王老师交稿时间很准时,6月底就交稿了。但编辑的过程很痛苦,时间很长,做了很大的修改,删掉三分之一的内容。为什么这样折磨自己呢?因为信息检索类的大学教材多如牛毛,据说有7000多种。我们的教材如何才能有自己的特色,如何能打动读者和教师。我们参考了多本教材,研究了各类教材的优劣,对读者对象问题进行了详细的讨论。最后一遍通读是在元旦的时候。现在终于定稿了。但是春节的到来,又一次推迟了书稿的进展。真是一波三折。 2009-2-2 《工程信息检索教程》就要出版了,对于封面设计我们进行了多次讨论,设计部门拿出了五种方案,才定稿。真是难为了设计部的同事。
个人分类: 读书笔记|3811 次阅读|0 个评论
现代信息检索原理与技术——出版一本科技图书的过程(待续)
maywuyi 2009-2-3 10:46
第1次见到王老师是在2008年的春天,五月的北京已经春深似海,阳光灿烂。尽管在网上与王老师聊过很多次,但是从来没有见过面。因为有过很多话语交流,王老师的形象已经在我的脑海里形成:有敏捷的思维头一般比较大,说话很快会比较瘦,话语很有吸引力两眼有神采。见面后果然有八分像,只是他独特的个人魅力只有当面才能感受到:他那睿智的双眼、微笑的嘴唇更能生动地描绘出一个智者的形象。 第二次见到王老师是在2008年11月15日北京清华的NCIRCS 2008会议上。我们只用很短的时间聊了一会儿。要知道,听智者一句话胜读一年书啊,一会儿的时间我听了王老师的很多句话,真是胜读很多年书。 王老师打算出书的题目是《现代信息检索的技术与实现》,计划明年交稿。这会对搜索引擎技术领域做出贡献。他的书尤其对打算进入搜索引擎技术领域的年轻人有很好的指导。我们期盼着。
个人分类: 读书笔记|4163 次阅读|3 个评论
读《信息检索系统导论》【转载】
timy 2008-12-5 13:55
转载于: http://blog.csdn.net/hzbooks/archive/2008/11/26/3380348.aspx 读《信息检索系统导论》 随着因特网的日益普及,它已经渗透到我们生活的各个角落,改变着我们的生活方式和思维方式。搜索引擎作为人们使用因特网的重要入口,引起人们广泛的重视和关注。尤其是以谷歌和百度为代表的搜索引擎公司的兴起,很多的青年学子对于搜索引擎技术产生了浓厚的兴趣,在高校的校园内,与搜索引擎相关的课程和讲座也日益火爆。在这种潮流之下,急需一本合适的教材,引导学生系统地学习基础理论和算法,冷静地思考信息检索的核心问题和未来的趋势,积极地参与因特网的搜索引擎及其相关领域的研发活动。哈尔滨工业大学的刘挺教授和他的同事编写的《信息检索系统导论》正是这样一本学习和掌握信息检索理论和技术的好书。它具有很多独到之处,颇具特色。 (1)该书系统地梳理了信息检索及其相关概念,因特网的特征之一就是海量信息,同时相关概念也是目不暇接,层出不穷,本书系统地论述了这些相关概念之间的区别和联系,例如情报学领域的信息检索和计算机领域的信息检索、信息检索与搜索引擎、文本挖掘和数据挖掘、信息检索与自然语言处理、分布式计算、数据库等之间的关系、信息检索中的关键技术及其应用研究等。 (2)信息检索是正在发展的技术,存在许多需要完善和改进的地方,还不断涌现新的应用需求,因此需要将学习、研究和应用集为一体。该书将最新的科研成果融入教材之中,例如隐性语义分析、统计语言模型、本体论以及信息过滤和问答系统。内容安排详略得当,深入浅出,即强化了学生对于基础理论和算法的学习,又满足了对于学生对于目前研究前沿技术的渴望,进而鼓励和引导学生去解决目前搜索引擎中存在的问题和不足。由于作者在信息检索领域取得了出色的研究成果,积累了丰富的研究经验,积淀了大量应用案例,因此举例生动、数据详实、简明有效。 (3)面对因特网上海量信息,如何评价检索系统的性能优劣是人们比较关心的问题。设计检索算法是必要的,但是如何评价检索算法也是必须掌握的,这对于培养学生严谨的学风很有帮助。该书在介绍信息检索各种模型和应用的同时,详细介绍了相关的评测指标和评测办法。而且对于美国的NIST和DARPA主持的TREC,日本的NII主办的NTCIR和欧盟主办的CLEF以及国内的863评测和SEWM评测进行了比较详尽的介绍,使学生可以通过专门的技术评测来学习和评价各种信息检索技术。 毫无疑问,该书的出版将会对信息检索课程建设起到示范作用,帮助更多的读者提高对信息检索的兴趣,对于信息检索领域的研究和应用将产生积极的影响。 林鸿飞 大连理工大学计算机学院教授 (博主注:近10年来,国外已经有好几本很受欢迎的信息检索技术教材或专著,比如Manning等人今年出版的《 Introduction to Information Retrieval 》。由于中文在自然语言处理上的独特性,同时随着自然语言处理和信息检索技术今后更加紧密的结合,相信国内未来会在信息检索领域,出现更多有影响相关教材和专著。)
个人分类: 信息检索|6434 次阅读|1 个评论
情报学系列会议评介:计算机信息管理学术研讨会
huabolin 2008-12-5 10:19
化柏林 第二十二届全国计算机信息管理学术研讨会于 2008年11月29日-2008 年12 月1 日 在深圳召开,来自全国情报技术界的40 余位学者参加了此次会议。第二十二届全国计算机信息管理学术研讨会由中国科学技术情报学会信息技术专委会主办,圈内简称机检会,今年是第二十二届。本系列会议曾有过辉煌的历史,八十年代会议规模很大,海外参加人员也较多,在检索界的影响也是独一无二的,详情请见曾民族研究员撰写的《计算机情报检索学术活动历史回顾见证中国科技情报现代化历程》(第二十届全国计算机信息管理学术研讨会论文集)。 近几年的系列会议,呈现以下几个特点: 1. 老专家的 关注一如既往,新生力量热情高涨,中坚力量略显单薄 曾民族、霍忠文、赖茂生等老专家坚持参会,并从宏观上把握学科发展;新生力量特别是研究生踊跃参加,并展示了具体的实验或系统。 35岁到45岁的情报技术人员略显匮乏。 2.相关公司高度关注 清华同方、万方数据、拓尔思( TRS)依然是本系列会议的主要赞助商,公司总工程师或软件研发部门经理到会祝贺并带来应用性很强的学术报告。 3.国防军口是主力 本次会议除中国国防科技信息中心有十多位学者参与之外,还有解放军政治学院上海分院、军械工程学院、后勤指挥学院、第四军医大、解放军医学图书馆、兵工 202所、成都飞机研究所等很多学者。 4.交流火候很重要 因为有一半的军口人员参加,加之相关公司技术人员参加,所以大家在报告时都会很注意,既要向大家展示自己的研究进展,又不能泄漏军事秘密或商业秘密。 5.在检索界的影响有所下降 过去机检会是国内检索会议的一枝独秀,影响力颇大。而近几年又兴起了两个重要会议,分别为全国搜索引擎和网上信息挖掘学术研讨会议和全国信息检索与内容安全学术会议。全国搜索引擎和网上信息挖掘学术研讨会议目前已举办六届,本系列会议参照 TREC方式,以评测为主。前五届由 中国计算机学会互联网专业委员会主办,从第六届开始由中国计算机学会主办,优秀论文可发表在 EI源刊上。 全国信息检索与内容安全学术会议已举办四届,是由中国中文信息学会信息检索与内容安全专业委员会主办的。从会议的组织来看,三个会议隶属三个一级学会,分别为情报学会、计算机学会、中文信息学会,已形成三足鼎立的局面。 6.探索新的前沿进展 既然在检索界的影响有所下降,那么一定要根据学科的特点,探索新的生长点。最近五届信息管理学术研讨会紧紧围绕知识服务做文章,包括知识服务的关键技术、知识组织的现状和趋势、知识处理技术研究、知识服务的效果评估等主题展开了新一轮的前沿探索。这也进一步验证了情报人员的信息敏感性及前沿洞察力。
个人分类: 会议感发|7303 次阅读|2 个评论
信息检索与信息抽取差异性探析
huabolin 2008-10-27 10:29
信息检索与信息抽取差异性探析 郑彦宁,化柏林,张新民 中国科学技术信息研究所 北京 100038 (发表于《图书情报工作》2007年第10期) 通过发表论文、会议组织、出入口、关键技术、发展趋势等方面对信息检索与信息抽取进行比较分析,结果发现信息抽取与信息检索有着质的不同。信息抽取不是信息检索的发展方向,但信息抽取技术可以很好地应用于信息检索系统。分析两者之间的差异有利于研究的深入,理清它们的关系有利于共同促进。 ******************************************* 论点一: 信息检索强调对检索入口进行控制,并不对检索出口进行控制 信息检索策略的调整只能决定检索结果的多与少,并不能决定每条检索结果的大与小。 查到了相应的文献,而在文档中有许多不需要的信息,通过信息抽取把需要的信息单元抽取出来,过滤掉其它信息。 ************************************* 论点二: 信息检索的粒度要比信息抽取的粒度大 信息检索以篇为单位,信息抽取以篇中的信息单元为处理单位。 信息检索一般返回整篇文献,而信息抽取是返回信息的某个单元。 ************************************* 论点三: 信息检索的最终用户是人,而信息抽取的用户是计算机。 信息检索由人构造检索式,通过系统进行检索,得到检索结果由人来查看,整个过程中体现着人机交互。而信息抽取一般是系统根据模板和预先设定的规则,通过分析文本抽取需要的内容,信息抽取系统一般不单独使用,往往是为其它系统提供技术工具,信息抽取过程往往不需要人机交互。 ************************************* 信息检索与信息抽取差异性探析
个人分类: 信息检索|5212 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-11 11:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部