书山网海一沙鸥分享 http://blog.sciencenet.cn/u/xuechunxiang 倒腾倒腾,求索求索!

博文

听罗凤珠教授“根植于诗词文学特性的诗词语言处理及研究之应用”有感

已有 6551 次阅读 2009-9-1 20:18 |个人分类:学海泛舟|系统分类:科研笔记|关键词:学者| 自然语言处理, 典籍自动化, 语义概念分类, 情感表达与计算

今天下午很有幸听了罗凤珠教授关于诗词语言处理和应用的一场精彩的报告,应该来说收获颇多。一方面自己对诗词比较感兴趣,另一方面今天下午的状态不错,整个过程都很清醒,可能跟罗教授的报告风趣有关吧!
 
罗凤珠教授简历: 台湾元智大学中国语文学系讲师。主要研究领域域是中国古典诗以及文学数字化研究、多媒体数字化教学研究。曾主持过国科会数字典藏国家型科技计划、教育部、文化建设委员会等计划四十余件,建置三十余种文学相关网站。与北京大学、台湾中央研究院、美国华盛顿大学、台湾清华大学合作多起研究项目,发表相关论文七十余篇,获得二次国科会研究奖,所建置的文学网站「网络展书读」(http://cls.hs.yzu.edu.tw/)获得二次杰出信息应用暨产品奖、一次杰出信息人才奖。近年着力于中国韵文之语意标记及语意概念分类研究、文学地理信息研究。
罗教授本科为中国语言文学专业,但工作后曾任图书馆馆长,负责图书馆自动化工作,因此后来去读了一个图书情报专业的硕士。罗教授坦言,当时想做诗词语言的自动化,为诗词教学做点辅助工作,出发点很简单,但能持之以恒地做20余年那就不是一件简单的事情了。
罗教授的报告分为五个部分:
(1)研究动机,关于台湾典籍自动化计划的回顾、如何让电脑更接近人脑、概念体系。 
(2)诗词文学的特性,包括诗词文学的内容、文学的表达与共鸣、诗词文学语言的特殊性。 
(3)语意概念标记与分类,包括诗词语言概念分类方法、诗词语言的语意概念分类体系、并阐述了罗教授自己做的一个诗词语言的语意分类体系。 
(4)语意概念分类的应用,包括对资讯检索质量与使用需求的影响、对诗词情感表达与识别研究的影响。 
(5)当前研究中遭遇的困难与未来的发展。
整个报告中有些有价值的信息,简单摘记如下:
(1)“不要问电脑能做什么,而是问你要电脑做什么”,这是上世纪80年代罗教授开展研究之前对台湾一些研究经史子集等古典文学专家调研的一个结论,虽然这些专家那时候都未必接触过电脑,但这个论断现在读来还是很令人回味的。
(2)如何让电脑更接近于人脑,那要求电脑具备三方面的能力:辨识字义的能力(语义标记)、认知的能力(语义概念分类)和感知的能力(情感表达和计算),而客观认知+主观认知+思维体系就形成了我们的概念系统,应该说就是现在的ontology吧。
(3)选择研究领域和研究对象应先考虑其优势和核心问题所在,古典诗词它是一个封闭的语言系统,因为文本总量和内容基本上是固定的,这对于构建一个概念体系相对于开发系统而言是一个优势,但诗词的文学特性、构词特点也是其问题难点所在,而这些是计算机可以处理的,最难处理的是如何揭示出诗词的意境。
(4)诗词语言是一种人工语言,它有一定的规则,比如平仄押韵,比如特定的事物表达特定的情感,这些往往是有规则可循的,而计算机处理规则是远远优于人脑的,这也是这项研究可以交给计算机做的地方。
(5)诗词的表达往往是通过事物的描述引起情感上的共鸣,即从物象(认知)揭示意境(感知),因此,对诗词中的人、事、时、地、物进行标注和语义概念分类是能够挖掘出诗词中的情感因素的。
(6)为了解决5的问题,罗教授研究组构建了一个诗词语言的四级概念分类体系,总类→大类→中类→控制词汇,其中总类即诗词的五个元素,人、事、时、地、物及其他,然后根据我国古代诗词文本来提炼下层的具体细分,其中控制词汇类似于权威档,一个词统领一组同义的词。
(7)这个概念分类体系的应用很实在,也很有用,首先解决了诗词的概念检索问题,最简单的一个例子,用“月亮”去检索基本上是返回不出结果的,用“月”检索返回结果虽多,但不全且误检很多,什么“二月”、“三月”之类的结果,通过这个概念分类体系去检索,完整性和正确性都很好,像“婵娟”、“冰壶”、“蟾宫”、“琼阙”之类的结果也能一并返回,很好地保证了完整性,并实现了消歧;其二,基于概念体系中的季节、天候变化、昼夜变化、天文意象、动植物的计算和统计能反映出诗词中意境和情感,这个一旦能实用,相信能解决诗词赏析、机器作诗的一些问题了。
(8)我们建构语言知识库,实际上是要让计算机能实现语义理解、情感感知和哲理思维,这是一个越来越难的过程,目前我们还在解决第一层次的问题——语义理解,情感分析的研究近年开始有所起步,而要实现哲理思维确实很难,因此,罗教授指出诗词中哲理诗词的标注是最困难的,因为有一些东西确实是“只可意会,不可言传”的。
以上是这次报告的草草记录。除此之外,还有一些感触:
(1)做学问、做研究,要能板凳做的十年冷的恒心和毅力;
(2)多学科交叉研究,一定要有领域知识背景和兴趣,其他学科都是为本学科核心问题的研究做工具,所以我们做情报学研究也是一样的,什么是我们的领域的核心一定要掌握好,而不能跟风计算机或其他领域。
(3)做语言文字研究的确实比理工科的报告浅显易懂,但不乏深度,所以今后应加强自己的语言文字能力,善思、会做、能说是根本。
 
 
 


https://m.sciencenet.cn/blog-110726-252714.html

上一篇:明白了KOS互操作的一点意义
下一篇:收藏:几个主要的自动标引工具

4 武夷山 陈学雷 章成志 艾云灿

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-15 21:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部