章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

中文信息处理奇葩绽放

已有 6629 次阅读 2008-2-28 10:54 |个人分类:自然语言处理|关键词:学者

中文信息处理——“奇葩绽放”

 转载于《中国计算机学会通讯》2008年第2期

 特邀编辑:刘挺

       中文信息处理是我国计算机领域中的一朵奇葩,它是计算机技术与语言学、心理学、数学、控制论、信息论、声学、自动化技术等相互交叉融合而形成的一个学科。

       由于中文语言和文化上的壁垒,在我国计算技术普遍落后的80年代,中文信息处理就已经处于国际领先的水平。北大汉字激光照排,联想汉卡等一批重大科研成果,为中国催生了一批优秀的计算机企业。此后,五笔字型、金山WPS、中文之星等也都为中国人使用电脑做出了贡献。近些年来,汉王手写输入、科大讯飞语音合成、TRS中文检索等一连串带有中文特色的高水平实用化的成果相继诞生。

         2005年底,国家科技部组织专家编写的《中国技术前瞻报告》指出:未来10年我国在信息、生物、新材料三大领域中最有可能的科学突破与技术突破集中在10个方面,其中之一就是中文信息处理技术。2006年,国家863计划信息技术领域设立了“中文为核心的多语言处理技术”重点项目,总经费7000万元,这是前所未有的大手笔。权威预测和政府的重点支持,预示着中文信息处理又一个春天的到来。

        近年来中文信息处理的升温得益于互联网的迅猛发展。互联网上的海量文本一方面为语言处理提供了巨大需求,一方面又提供真实的训练、测试数据。中文搜索引擎的成功为中文信息处理的研发工作注入极大的活力,随着搜索引擎向精准化、智能化、专业化方向发展,语言处理将找到更大的用武之地。与Web 2.0相关的论坛、博客等的出现,又提出了处理网络语言、进行褒贬分析等新的课题。中文处理通用套装软件,在现有国情下很难大规模获利,高速度成长。搜索引擎等以提供软件服务,收取广告费的方式解决了盈利模式问题。在PC机时代受挫的中文处理软件,在互联网时代则正在胜出。此外,电信网和广电网的发展为中文语音处理创造了条件。

        我们观察到中文信息处理发展的一些趋势:(1)处理单元越来越大:从字到词,再到命名实体、短语、句子,进而处理篇章、同主题的篇章集合,直至海量文本;(2)处理深度越来越深:从输入输出开始,到词法、句法,再到语义、语用,逐步深入。由于语言处理技术的进步,中文信息处理将由语言处理向以语言为载体的信息处理和知识处理过渡,从而真正为知识经济的发展做出贡献。(3)应用范围越来越广:中文信息处理作为核心技术,往往以嵌入其他应用系统的方式实现自身的使用价值,随着互联网的发展,中文信息处理技术已渗透到的社会生产和生活的诸多方面。从桌面到企业内部网络,到互联网,到移动设备,到无线网,从新闻、图书、情报领域到电子商务、信息安全、远程教育、电子政务等,都能够看到中文信息处理的身影。(4)技术路线走向融合:统计方法仍占主流,但由于面临数据稀疏等问题,逐步吸纳传统语言分析技术,在更深的层次上建立统计模型,已是大势所趋。

         在看到喜人成绩的同时,我们也看到自身的不足以及潜在的危机。对国外技术的跟踪和改良居多,偏重应用,而原创的新理论、新方法还比较少。在基础研究中,对词法、句法、语义、语用等单项技术的研究较多,对各个层面之间交互作用的研究较少。国门大开,国内研发机构已无法再象80年代那样依靠中文屏障获得天然的领先优势。在二十一世纪互联网上的文化撞击中,中国人有责任掌握和研制最先进的中文技术,推广中文语言文化,提高中文信息的的使用效率,拓展中文互联网的疆土,并通过机器翻译等技术打通与其他语种的信息通道,提升中国在世界的形象和影响力。这是这一代中文信息处理工作者的使命。

         经过多年的培养,中文信息处理领域已经积累了一批优秀人才,有继续奋战在第一线的前辈们,有逐渐挑起大梁的30-40岁的中青年学者,还有一批20出头的研究生。他们已经逐步进入国际学术界,在ACL、SIGIR等国际顶级会议上发表论文,在国际技术评测屡获佳绩,本期专辑的10多位作者就是这个群体中的部分成员。

         本期专辑一共有7篇文章,内容覆盖了中文信息处理中多个主要方向,试图立体交叉、深入浅出地介绍中文信息处理当前研究动态,描绘未来发展趋势。布局上以资源建设为基础,以技术评测为导向,从语义处理等底层核心技术,讲到机器翻译、信息检索等经典应用技术,直至文本情感倾向性分析这样的新生热点话题,最后介绍中文语音处理。

         北京大学计算语言学研究所在语言资源建设方面有多年的工作积淀,俞士汶教授、朱学锋老师在文章中介绍了北大综合语言知识库的理论基础、资源概况和发展规划,并总结了他们多年从事语言资源建设的心得体会。刘群、钱跃良研究员在文章中描绘了国内外中文技术评测的全景图,同时总结概括了评测的意义、模式以及趋势。中文缺乏形态变化,是一种意合的语言,因此语义处理尤显重要。我和车万翔撰写了题为“中文语义处理”的文章,重点介绍了中文词义消歧(词义)和语义角色标注(浅层句义)的研究进展,并对存在的问题进行了反思。

        机器翻译被视为21世纪的十大科技难题之一。近年来,基于规则的翻译产品已得到广泛应用,而基于实例与统计方法的兴起,又为机器翻译研发注入了新的活力。王海峰博士在简要回顾机器翻译发展史之后,全面而简洁地描述了几种主流的机器翻译方法,并介绍了机器翻译的评测和应用。他对机器翻译技术的融合与发展见解独到。信息检索是目前中文信息处理最重要的应用方向之一,“大海捞针亦有道”,马少平教授、刘奕群博士深入浅出地回顾了中文信息检索技术的发展历程,分析了中文信息检索技术的若干关键问题与发展现状,展望未来的发展方向。近两年来,由于Web 2.0的推动,国内一批研究机构进入情感倾向分析这个新兴领域,黄萱菁教授、赵军研究员联合撰文,从词语、句子、篇章、海量信息等四个研究层次系统地介绍了情感倾向分析的研究进展,以及标准语料库的建设和系统评测,读罢已可以看清这个方向的基本轮廓。

       中文信息处理包括对中文的形、音、义各个层面的处理,中文语音技术是中文信息处理非常重要的一个方面。近年来,语音技术在电信、广电、教育和安全等各个领域都有越来越实际的应用,徐波研究员从真实环境下自然口语处理讲到面向内容的语音信息处理,阐述了语音识别技术与应用的发展趋势,以及中文语音识别的机遇和挑战。

        衷心感谢《通讯》组织这一期“中文信息处理”专辑,衷心感谢本专辑的各位作者在百忙中撰写文章,希望这一组文章能够对计算机业界的同行们了解中文信息处理的发展现状有所帮助。

 

       刘挺(CCF高级会员,CCF中文信息技术专委委员,哈尔滨工业大学计算机学院教授)



https://m.sciencenet.cn/blog-36782-16488.html

上一篇:王国裕教授报告几点摘要与随想
下一篇:参加SEWM2008

0

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 07:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部