科学网

 找回密码
  注册

tag 标签: 语料库语言学

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

文学语言学、诗学语言学:语料库的运用
carldy 2011-10-21 23:32
今天系主任、也是Chair Professor(Martin Montgomery)主持了一次全系的研讨会,会议的主题是Reading Emily Dickson: Three Approaches to one of her Poems(Wild Nights)。 研讨会请来美国一知名教授(William Franke),还有系里的其他众多老师 ,如Full Professor Zhang(从翻译角度探讨诗歌翻译)。老师们从文学、语言学、翻译等多角度,对这首诗歌进行了解读,给大家留下了深刻印象。 这里简单回顾一下Martin老师从语言学角度解读该诗歌的方法。他从好几个语言层面给大家分析了艾米莉狄金森这首备受关注的诗歌,如实词、虚词、标点符号、意象等特征。让我感兴趣的是,他还特意借助语料库工具来分析诗歌中的关键词。 Corpus of Contemporary American English (COCA: http://corpus.byu.edu/coca/ )、 Corpus of Historical American English (COHA: http://corpus.byu.edu/coha/ ) 两大在线语料库中检索了Wild Nights、Wild Night两个词组,分析了这两个词组在不同语境之下所蕴含的意义,可谓别开生面,让人耳目一新。 语料库在不知不觉之中走向了神圣的“文学、诗学”研究的殿堂,这恐怕是出乎很多人意外的。 文学语言学,诗学语言学,是属于典型的跨学科研究,这些学科也可以借助当前发展迅速的语料库语言学作为辅助性研究工具,对文本进行深层次的挖掘与解读,从而拓展研究视野,推动新兴学科健康快速发展。 是为记。
个人分类: 语言学探讨 Linguistics|4121 次阅读|0 个评论
第二届“基于语料库的语言对比与翻译研究”国际学术研讨会综述
热度 1 carldy 2010-12-17 20:47
【备注】本文即将在《中国英语教育》杂志刊出,录下与大家共享: 第二届基于语料库的语言对比与翻译研究国际学术研讨会综述 戴光荣 肖忠华 福建工程学院 浙江大学 1 引言 自从二十世纪八十年代以来,语料库研究方法在语言研究几乎所有领域掀起了一场革命,特别是多语种语料库(包括对应语料库与可比语料库)的迅速发展,为语言对比与翻译研究创造了良好的条件。恰如Laviosa(1988:474)指出的,通过理论阐述与实践经验相结合,语料库研究途径已发展成为一种复合型的研究范式,以此解决一系列与翻译理论、翻译描写以及翻译实践相关的问题。Tymoczko(1998)也曾指出,基于语料库的研究方法对于翻译研究来说至关重要,使之作为一门学科充满活力,得以发展。在语言对比研究方面,语料库也发挥着重要作用。自二十世纪九十年代以来,多语种语料库资源给一度失宠的语言对比研究注入了新的生机与活力(Salkie 2002)。当语料库方法促进语言对比与翻译研究的同时,这些研究本身也大大拓展了语料库语言学的研究范畴。 基于语料库的语言对比与翻译研究(以下简称UCCTS)国际研讨会顺应了这一发展趋势,在众多学者的关注下,盛大出场。第一届UCCTS国际研讨会于2008年9月25-27日在浙江大学成功举行,该次大会吸引了来自海内外14个国家和地区38家高等院校近60位专家教授与会。会上宣读的论文以论文集的形式在网上出版,其中23篇论文经作者修改后由英国剑桥学者出版社结集出版(Xiao 2010,肖忠华2009)。 自第一届UCCTS会议以来,国内外语料库研发迅猛,语言对比与翻译研究领域成果频出,如Gilquin Papp (2008),Rodrigo (2008),Angelelli et al (2009),Beeby et al (2009), Morgenstern (2009),Munday (2009),Suomela-Salmi Dervin(2009),Ji (2010) ,Laviosa (2010) ,Xiao McEnery (2010)等等。国内学者在创建各类翻译语料库基础上,也取得了可喜的成绩,如北外王克非教授主持创建的大型平行语料库,在这两年内成果迭出,如王克非 胡显耀(2008),王克非 秦洪武 (2009),秦洪武 王克非(2009)等;浙江大学肖忠华教授主持创建的世界上第一个汉语译文语料库ZCTC,专门用以研究汉语译文的语言特征(参阅肖忠华 戴光荣2010, 戴光荣 肖忠华2010等)。 第二届UCCTS国际研讨会在众多学者的呼唤声中,于2010年7月27-29日在英国知山大学(Edge Hill University)拉开帷幕,迎来了来自六大洲31个国家和地区、59所高校和科研单位的67位与会代表。本文对该次大会做一个简单综述,以期为大家提供最新资讯。 2 会议主题报告及分论坛研讨内容介绍 本次会议的主题相比第一届会议有所增加,大致如下:(1)可比或平行语料库的研制,(2)多语语料库的加工,(3)平行语料库在翻译研究和教学中的运用,(4)语料库在语言对比中的运用,(5)基于语料库的本族语源语、译语和本族语目的语之间的对比研究,(6)基于语料库的语言对比和翻译研究接口研究,以及(7)语料库在术语学、词汇学与词典编纂中运用。 大会共录用并宣读论文62篇,内容涵盖上述所有主题。会议按照主题报告、翻译研究、对比研究、语料库与工具开发、翻译教学与培训五大块进行探讨,因此下文对上述主题及各分论坛研讨内容分别加以介绍与评论。 2.1 主题报告 在介绍分论坛内容之前,先介绍一下四项主题报告的内容。此次会议邀请了四位主题报告人,他们都在语料库与翻译及语言对比领域做出了巨大贡献。他们的报告,把大家带入到了语料库研究的精彩境界。 挪威奥斯陆大学的Hilde Hasselg?rd教授做了题为平行语料库与对比研究的报告(Parallel corpora and contrastive studies)。她指出,单语种语料库在语言研究中做出了开创性的工作;而自20世纪90年代以来,多语与双语语料库在语言对比与翻译中得到广泛运用,并取得了很大的突破。她还通过具体个案研究,探讨了语料库在语言描写的不同领域为实现不同目的运用情况。 意大利巴里大学的Sara Laviosa博士在题为语料库翻译教学中的跨文化概念的报告(A transcultural conceptual framework for corpus-based translation pedagogy)中,探讨了语料库在翻译教学中的运用。她分别介绍了译者培训、译者教育并区分了两者在教学方法、教学设计及教学过程中的差异。她还指出,跨文化概念对于学习语言与翻译的学生来说非常重要。 英国布莱顿大学的Raf Salkie 教授就翻译:几个难题及解决方案(Translation: some tough questions and some answers)展开探讨,分别从语言之间的表达间距(expressive gap)、表达偏好(expressive (dis)-preference)以及表达差异(expressive difference)这三个问题入手,探讨如何通过语料库来解决翻译中遇到的难题。 芬兰赫尔辛基大学的Anna Mauranen教授在她题为翻译语料库与探寻翻译共性(Translation corpora and the quest for Translation Universals)报告中,高屋建瓴,从语言共性出发,引出并详细探讨了翻译共性(translational universals)。她通过具体个案研究,探讨可比语料库、平行语料库等多语种语料库在探讨翻译共性中发挥的作用。 上述四位学者分别就语料库与翻译、语料库与语言对比、语料库用于翻译教学与培训,以及语料库翻译研究中最热门的话题展开了深入研究,展示了基于语料库的语言对比与翻译研究领域的最新研究动态。 2.2翻译研究分论坛 翻译研究分论坛约有20多位学者报告了其最新研究成果,话题涉及宏观与微观层面,范围较广。宏观层面如探讨翻译共性、语料库翻译学最新进展与动态,微观层面如明晰化、简化、源语透过效应、归化与异化翻译。语言研究层面涉及到语篇(如译者语篇风格研究、文学语篇研究)、句子(如被动句式)、短语(如习语、词簇)及词语(如话语重述标记);研究范围涉及到翻译课堂教学中语料库的运用、基于语料库的口译与视译研究等。他们在研究与教学中使用的语料库包括单语语料库、双语平行语料库、多语可比语料库,研究方法大多采用定量与定性相结合,理论联系实践,既有理论层面的探讨,也有具体个案的研究。他们的务实不空谈的研究作风,在语料库翻译研究方面做出了有益探索,赢得了与会者的一致好评。 2.3语言对比研究分论坛 对比研究分论坛话题涉及面也非常广,如学术英语中句法省略、专业语料库在语言变体研究中的作用、系动词的对比研究、术语的代表性、语体与语域变体研究、所有格对比研究、配价理论在语言理解中的作用、虚拟条件句研究、认知表达对比研究等。 该论坛研究中涉及的语种很多,有英语、德语、捷克语、法语、荷兰语、意大利语、挪威语、土耳其语、汉语等;研究题材也很广泛,如军事语言、法律语言、学术语言、语言变体、医学语言等。 研究的语言层面也涉及到语篇、句法、词组(如I wish you/someone/people would)、词(如英语、法语及荷兰语中关联动词的对比研究)及词缀(如比较英语与法语的前缀)等。理论方面的探讨也很深入,如认知层面的探讨、术语层面的研究等。 2.4语料库与工具开发分论坛 该分论坛探讨语料库的创建与工具开发,体现出很强的应用意识。会议上呈现给大家的,有许多是大型团队研究项目,如Per-Fide Project项目(葡萄牙语及其六种不同语言的平行语料库创建),英国英语与中国英语,与英国国家语料库BNC配套的波兰语可比语料库,IAC(动态语料库获取接口研究)、法律双语及双系统词典编纂等。除此之外,还涉及到许多在线语料库的创建以及语料库如何实现在线检索技术的探讨、中介语语料库的创建及研究等。研究所涉及的语对有英语-挪威语/葡萄牙语/西班牙语/俄语/法语/意大利语/德语/汉语/波兰语/斯洛文尼亚语等。从这里可以看出,英语作为一种强势语言,在语料库研究中具有举足轻重的作用。当然这说明,语料库技术还有很大的发展空间,世界上这么多语言,正好可以满足语料库迅猛发展的需要。 2.5 翻译教学与培训分论坛 语料库技术的发展,多语种语料库的开发,都有其各自的特色和目的。其中用途最为广泛的首推翻译教学与译者培训。本论坛涉及的话题非常具体,大多来自一线的翻译课堂与译者培训,如基于语料库的口译研究、基于语料库的视译评价与考核、语料库在实用翻译课程中的运用(如旅游翻译语料库、航空航天翻译语料库、总统演讲中英文平行语料库)。特别值得提出的,是Laviosa博士在主题报告中总结归纳的基于语料库的译者培训与教育的各类方法(包括教学工具、语料涉及、教学步骤等),为语料库翻译教学与培训提供了很好的借鉴。 3 会议影响及评价 此次国际研讨会相比第一届研讨会来说,有几个突出的特点: 1,会议规模扩大:参会人员来自31个国家和地区,影响波及面广; 2,会议主题更体现出语料库研究与发展趋势,增加了术语学研究、词典编纂、口译、视译、网站本土化翻译等方面的话题; 3,研讨内容更深入,话题更鲜明,质量更高。与会人员通过近三天的全称探讨,纷纷表示受益匪浅,并期盼下一次有更好、更新的话题,更多更新更全的技术交流。 4 展望 毋庸置疑,语料库已成为当前语言对比翻译研究中广泛使用的平台与工具。作为语言研究的重要资源,语料库数据能广泛运用于语言描述、语言教学、语言对比、翻译研究、词典编纂等诸多领域。基于语料库的语言对比与翻译研究必将在今后的发展中体现出更强的实用性,具有更加广泛的运用前景,并将产生更加深远的积极影响。 参考文献: Angelelli, Claudia V. and Jacobson, Holly E. (2009) Testing and Assessment in Translation and Interpreting Studies. Amsterdam: John Benjamins. Beeby, A., Rodrguez Ins, P. and Snchez-Gijn, P. (eds) (2009). Corpus Use and Translating: Corpus Use for Learning to Translate and Learning Corpus Use to Translate. John Benjamins. Gilquin, G and Papp, S. (2008) Linking up Contrastive and Learner Corpus Research. Amsterdam: Rodopi. Ji, M. (2010) Phraseology in Corpus-Based Translation Studies. Berlin: Peter Lang. Laviosa, S. (1998) The corpus-based approach: A new paradigm in translation studies. Meta 43(4): 474-479. Laviosa. S, (2010) Corpora. In Yves Gambier and Luc Van Doorslaer (eds) Handbook of Translation Studies (Volume 1),8086. Amsterdam and Philadelphia: John Benjamins. Ldeling, A. and Kyt?, M. (2009) Corpus Linguistics: An International Handbook. Berlin and New York: Walter de Gruyter. Morgenstern, K. (2009) Corpus Linguistics-Differences and Similarities between German and English Fairy Tales. Altstadt: GRIN Verlag. Munday, J. (2009) The Routledge Companion to Translation Studies. London and New York: Routledge. Peters. P., Collins, P and Smith, A. (eds) (2009) Comparative Studies in Australian and New Zealand English: Grammar and beyond. Amsterdam and Philadelphia: John Benjamins. Rodrigo, E. Y. (2008) Topics in Language Resources for Translation and Localisation. Amsterdam and Philadelphia: John Benjamins. Salkie, R. (2002) How can linguists profit from parallel corpora? In L. Borin (ed.) Parallel Corpora, Parallel Worlds, 93-109. Amsterdam: Rodopi. Suomela-Salmi, E. and Dervin, F. (2009) Cross-Linguistic and Cross-Cultural Perspectives on Academic Discourse. Amsterdam and Philadelphia: John Benjamins. Tymoczko, M. (1998). Computerized corpora and the future of translation studies. Meta 43(4): 652-660. Xiao, R. (ed.) (2010) Using Corpora in Contrastive and Translation Studies. Newcastle: Cambridge Scholars Publishing. Xiao, R. and McEnery, A. (2010). Corpus-Based Contrastive Studies of English and Chinese. London and New York: Routledge. 戴光荣、肖忠华.(2010) 基于自建英汉翻译语料库的翻译明晰化研究. 《中国翻译》(1): 76-80. 秦洪武、王克非. (2009) 基于对应语料库的英译汉语言特征分析.《外语教学与研究》(2):131-136. 王克非、胡显耀.(2008) 基于语料库的翻译汉语词汇特征研究.《中国翻译》(6):16-21. 王克非、秦洪武(2009) 英译汉语言特征探讨基于对应语料库的宏观分析. 《外语学刊》(1):101-105. 肖忠华. (2009) 基于语料库的语言对比与翻译.《国际学术动态》(5):3-4. 肖忠华、戴光荣. (2010) 寻求第三语码:基于汉语译文语料库的翻译共性研究. 《外语教学与研究》(1):52-58.
个人分类: 基于语料库的研究汇总corpus-based studies|6626 次阅读|0 个评论
[转载]语言统计学三大定律:Zipf law,Heaps law和Benford law
timy 2010-10-12 13:27
From: http://blog.csdn.net/pennyliang/archive/2010/09/10/5876746.aspx zipf law :在给定的语料中,对于任意一个term,其频度(freq)的排名(rank)和freq的乘积大致是一个常数。 Heaps law :在给定的语料中,其独立的term数(vocabulary的size)v(n)大致是语料大小(n)的一个指数函数。 Benford law :在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d) 其中Benford law还在会计作假帐的审查和政治选票合法性审查起到了重要作用。 推荐阅读: (1)Zipf and Heaps Laws Coefficients Depend on Language: http://www.gelbukh.com/CV/Publications/2001/CICLing-2001-Zipf.htm (2) http://limiao.net/1450 (3) http://www.douban.com/group/topic/11417532/ (4) http://blog.csdn.net/pennyliang/archive/2006/09/11/1207832.aspx 本文来自CSDN博客,转载请标明出处: http://blog.csdn.net/pennyliang/archive/2010/09/10/5876746.aspx
个人分类: 自然语言处理|6956 次阅读|2 个评论
UCCTS2010会议纪实
carldy 2010-8-2 05:38
个人分类: 翻译/语料库语言学等会议 Symposiums|12 次阅读|0 个评论
[转载]语料库术语汇编[ZZ]
timy 2010-3-28 19:52
来源于: http://www.corpus4u.org/showthread.php?p=35335#post35335 【Updated on March 28, 2010】左边为英文,右边的汉语凡以分号(;)隔开的表示该术语有不同含义,以顿号(、)隔开的表示该术语有两种以上可接受的汉语译法。 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码 Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统 Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的 Corpus-driven 语料库驱动的 Corpus-informed 语料库指导的、参考了语料库的 Co-select/Co-selection/Co-selectiveness 共选(机制) Co-text 共文 DDL/Data Driven Learning 数据驱动学习 Diachronic corpus 历时语料库 Discourse 话语、语篇 Discourse prosody 话语韵律 Documentation 备检文件、文检报告 EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格 Empirical Linguistics 实证语言学 Empiricism 经验主义 Encoding 字符编码 Error-tagging 错误标注、错误赋码 Extended unit of meaning 扩展意义单位 File-based search/concordancing 批量检索 Formulaic sequence 程式化序列 Frequency 频数、频率 General (purpose) corpus 通用语料库 Granularity 颗粒度 Hapax legomenon/hapax 一次词 Header/Text head 文本头、头标、头文件 HMM/Hidden Markov Model 隐马尔科夫模型 Idiom Principle 习语原则 Index/Indexing (建)索引 In-line annotation 文内标注、行内标注 Key keyword 关键主题词 Keyness 主题性、关键性 Keyword 主题词 KWIC/Key Word in Context 语境中的关键词、语境共现(方式) Learner corpus 学习者语料库 Lemma 词目、原形词、词元 Lemma list 词形还原对应表 Lemmata 词目、原形词、词元(复数) Lemmatization 词形还原、词元化 Lemmatizer 词形还原(词元化)工具 Lexical bundle 词束 Lexical density 词汇密度 Lexical item 词项、词语项目 Lexical priming 词汇触发理论 Lexical richness 词汇丰富度 Lexico-grammar/Lexical grammar 词汇语法 Lexis 词语、词项 LL/Log likelihood (ratio) 对数似然比、对数似然率 Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库 Machine-readable 机读的 Markup 标记、置标 MDA/Multi-dimensional approach 多维度分析法 Metadata 元信息 Meta-metadata 元元信息 MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法 Mini-text 微型文本 Misuse 误用 Monitor corpus (动态)监察语料库 Monolingual corpus 单语语料库 Multilingual corpus 多语语料库 Multimodal corpus 多模态语料库 MWU/Multiword unit 多词单位 MWE/Multiword expression 多词单位 MI/Mutual information 互信息、互现信息 N-gram N元组、N元序列、N元结构、N元词、多词序列 NLP/Natural Language Processing 自然语言处理 Node 节点(词) Normalization 标准化 Normalized frequency 标准化频率、标称频率、归一频率 Observed corpus 观察语料库 Ontology 知识本体、本体 Open Choice Principle 开放选择原则 Overuse 超用、过多使用、使用过度、过度使用 Paradigmatic 纵聚合(关系)的 Parallel corpus 平行语料库、对应语料库 Parole linguistics 言语语言学 Parsed corpus 句法标注的语料库 Parser 句法分析器 Parsing 句法分析 Pattern/patterning 型式 Pattern grammar 型式语法 Pedagogic corpus 教学语料库 Phraseology 短语、短语学 POSgram 赋码序列、码串 POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码 POS tagger 词性赋码器、词性赋码工具 Prefab 预制语块 Probabilistic (基于)概率的、概率性的、盖然的 Probability 概率 Rationalism 理性主义 Raw text/Raw corpus 生文本(语料) Reference corpus 参照语料库 Regex/RE/RegExp/Regular Expressions 正则表达式 Register variation 语域变异 Relative frequency 相对频率 Representative/Representativeness 代表性(的) Rule-based 基于规则的 Sample n./v. 样本;取样、采样、抽样 Sampling 取样、采样、抽样 Search term 检索项 Search word 检索词 Segmentation 切分、分词 Semantic preference 语义倾向 Semantic prosody 语义韵 SGML/Standard Generalized Markup Language 标准通用标记语言 Skipgram 跨词序列、跨词结构 Span 跨距 Special purpose corpus 专用语料库、专门用途语料库、专题语料库 Specialized corpus 专用语料库 Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比 Stand-off annotation 分离式标注 Stop list 停用词表、过滤词表 Stop word 停用词、过滤词 Synchronic corpus 共时语料库 Syntagmatic 横组合(关系)的 Tag 标记、码、标注码 Tagger 赋码器、赋码工具、标注工具 Tagging 赋码、标注、附码 Tag sequence 赋码序列、码串 Tagset 赋码集、码集 Text 文本 TEI/Text Encoding Initiative 文本编码计划 The Lexical Approach 词汇中心教学法 The Lexical Syllabus 词汇大纲 Token 形符、词次 Token definition 形符界定、单词界定 Tokenization 分词 Tokenizer 分词工具 Transcription 转写 Translational corpus 翻译语料库 Treebank 树库 Trigram 三元组、三元序列、三元结构 T-score T值 Type 类符、词型 TTR/Type-token ratio 类符/形符比、类/形比、型次比 Underuse 少用、使用不足 Unicode 通用码 Unit of meaning 意义单位 WaC/Web as Corpus 网络语料库 Wildcard 通配符 Word definition 单词界定 Word form 词形 Word family 词族 Word list 词表 XML/EXtensible Markup Language 可扩展标记语言 Zipf's Law 齐夫定律 Z-score Z值
个人分类: 工具箱|5183 次阅读|0 个评论
冯志伟:《语料库语言学与计算语言学研究丛书》 序 【转载】
timy 2009-3-28 21:17
转载于: http://www.lingviko.net/feng/clcl.pdf 《语料库语言学与计算语言学研究丛书》 1 序 冯志伟 语料库语言学与计算语言学研究丛书旨在向国内读者推荐语料库语言学与计算语言学这两个学科最新和最经典的外文著作。语料库语言学的语料要建立在计算机上,而计算语言学则专门研究自然语言的计算机处理,这两个学科都要使用计算机,都与计算机有着不解之缘。这篇序言主要介绍这两个学科的学术背景,并且讨论这两个学科之间的关系,以方便读者的阅读和理解。 1.语料库语言学研究简介 语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。 语料库一般可分为如下类型: ●按语料选取的时间划分,可分为历时语料库(diachroniccorpus)和共时语料库(synchroniccorpus)。 ●按语料的加工深度划分,可分为标注语料库(annotatedcorpus)和非标注语料库(non-annotatedcorpus)。 ●按语料库的结构划分,可分为平衡结构语料库(balancestructurecorpus)和自然随机结构的语料库(randomstructurecorpus)。 ●按语料库的用途划分,可分为通用语料库(generalcorpus)和专用语料库(specializedcorpus)。专用语料库又可以进一步根据使用的目的来划分,例如,又可以进一步分为语言学习者语料库(learnercorpus)、语言教学语料库(pedagogicalcorpus)。 ●按语料库的表达形式划分,可分为口语语料库(spokencorpus)和文本语料库(textcorpus)。 ●按语料库中语料的语种划分,可分为单语种语料库(monolingualcorpora)和多语种语料库(multilingualcorpora)。多语种语料库又可以再分为比较语料库(comparablecorpora)和平行语料库(parallelcorpora)。 比较语料库的目的侧重于特定语言现象的对比,而平行语料库的目的侧重于获取对应的翻译实例 。 ●按语料库的动态更新程度划分,可分为参考语料库(referencecorpus)和监控语料库(monitorcorpus)。参考语料库原则上不作动态更新,而监控语料库则需要不断地进行动态更新。 早在1897年,德国语言学家Kaeding就使用大规模的语言材料来统计德语单词在文本中的出现频率,编写了《德语频率词典》(J.Kaeding,H.ufigkeitsw.rterbuchderdeutschenSprache,Steglitz:publishedbytheauthor,1897)。由于当时还没有计算机,Kaeding使用的语言材料不是机器可读的(machinereadable),所以他的这些语言材料还不能算真正意义上的语料库,但是Kaeding使用大规模语言资料来编写频率词典的工作,是具有开创性的。 1959年,英国伦敦大学教授RandolphQuirk提出建立英语用法调查的语言资料库,叫做SEU(SurveyofEnglishUsage),当时由于技术条件的限制,SEU是用卡片来建立的,也不是机器可读的。后来Quirk把这些语言资源逐步转移到计算机上,使之成为机器可读的语料库,并根据这个语料库领导编写了著名的《当代英语语法》(R.Quirk,TowardsadescriptionofEnglishusage,TransactionsofthePhilologicalSociety,pp.40-61,1960.)。 1964年,A.Juilland和E.Chang-Rodriguez根据大规模的西班牙语资料来编写《西班牙语单词频率词典》(A.JuillandandE.Chang-Rodriguez,FrequencyDictionaryofSpanishWords,TheHague,Mouton,1964.)。在收集语言资料时,注意到了抽样框架、语言资料的平衡性、语言资料的代表性等问题。 1979年,美国Brown大学的NelsonFrancis和HenryKucera在计算机上建立了机器可读的BROWN语料库(布朗语料库),这是世界上第一个根据系统性原则采集样本的平衡结构语料库,规模为100万词次,并用手工做了词类标注(partofspeechtagging)。 BROWN语料库是一个代表当代美国英语的语料库 (W.Francis,Problemsofassembling,describingandcomputerizinglargecorpora,ScripterVerlag,pp.110-123,1979.)。 接着,英国Lancaster大学的GeoffreyLeech教授提出倡议,挪威Oslo学的StigJohansson教授主持完成,最后在挪威Bergen大学的挪威人文科学计算中心联合建立了 LOB语料库(LOB是Lancaster,Oslo和Bergen的首字母缩写),规模与Brown语料库相当。这是一个代表当代英国英语的语料库 。 欧美各国学者利用BROWN和LOB这两个语料库开展了许多大规模的研究,取得了引人注目的成绩。 近年来,语料库语言学的研究硕果累累,关于这些研究成果,我在《应用语言学中的语料库》(世界图书出版公司、剑桥大学出版社2006年版)一书的导读中已经做过介绍,有兴趣的读者可以参看。 从20世纪90年代初、中期开始,语料库逐渐由单语种向多语种发展,多语种语料库开始出现。目前多语种语料库的研究正朝着不断扩大库容量、深化加工和不断拓展新领域等方向继续发展。随着从事语言研究和机器翻译研究的学者对多语种语料库重要性的逐渐认识,国内外很多研究机构都致力于多语种语料库的建设,并利用多语种语料库对各种各样的语言现象进行了深入的探索 。 在建设或研究语料库的时候,我们应当注意语料库的代表性、结构性和平衡性,还要注意语料库的规模,并制定语料的元数据规范。下面分别讨论这些问题。这只是我个人的意见,供读者参考。 首先讨论语料库的代表性 。 语料库对于其应用领域来说,要具有足够的代表性,这样,才能保证基于语料库得出的知识具有较强的普遍性和较高的完备性。 真实的语言应用材料是无限的,因此语料库样本的有限性是无法回避的。承认语料库样本的有限性,在语料的选材上,就要尽量追求语料的代表性,要使有限的样本语料尽可能多地反映无限的真实语言现象的特征。语料库的代表性不仅要求语料库中的样本取自于符合语言文字规范的真实的语言材料,而且要求语料库中的样本要来源于正在使用中的语言材料,包括各种环境下的、规范的或非规范的语言应用。语料库的代表性还要求语料具有时代性,能反映语言的发展变化和当代的语言生活规律。只有通过具有代表性的语料库,才能让计算机了解真实的语言应用规律,才有可能让计算机不仅能够理解和处理规范的语言,而且还能够处理不规范的但被广泛接受的语言、甚至包含有若干错误的语言。 再来讨论语料库的结构性。 语料库是有目的地收集的语料的集合,不是任意语言材料的堆积,因此要求语料库具有一定的结构。在目前计算机已经普及的技术条件下,语料库必须是以电子文本形式存在的、计算机可读的语料集合。语料库的逻辑结构设计要确定语料库子库的组成情况,定义语料库中语料记录的码、元数据项、每个数据项的数据类型、数据宽度、取值范围、完整性约束等。 我们还有必要来讨论语料库的平衡性。 平衡因子是影响语料库代表性的关键特征。在平衡语料库中,语料库为了达到平衡,首先要确定语料的平衡因子。影响语言应用的因素很多,如:学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、语料的用途(公函、私信、广告)等。不能把所有的特征都作为平衡因子,只能根据实际需要来选取其中的一个或者几个重要的指标作为平衡因子。最常用的平衡因子有学科、年代、文体、地域等。应该根据平衡语料库的用途来评测语料库所选择的平衡因子的恰当性。 在建设语料库时,还应当考虑语料库的规模。 大规模的语料库对于语言研究,特别是对于计算语言学的研究具有不可替代的作用。但随着语料库的增大,垃圾语料带来的统计垃圾问题也越来越严重。而且,当语料库达到一定的规模后,语料库的功能并不会随着其规模同步地增长。我们应根据实际的需要来决定语料库的规模,语料库规模的大小应当以是否能够满足其需要来决定。 我们还应当考虑语料库的元数据(metadata)问题。 语料库的元数据对语料库研究具有重要的意义。我们可通过元数据了解语料的时间信息、地域信息、作者信息、文体信息等各种相关信息;也可通过元数据形成不同的子语料库,满足不同兴趣研究者的研究需要;还可通过元数据对不同的子语料库进行比较,研究和发现一些对语言应用和语言发展可能有影响的因素;元数据还可记录语料的知识版权信息、语料库的加工信息和管理信息。 由于在汉语书面文本中词与词之间没有空白,不便于计算机处理,因此,汉语书面文本的语料库一般都要做切词和词性标注。汉语书面文本经过切词和词性标注之后,带有更多的信息,更加便于使用。 不过,关于语料库的标注(annotation)问题,学术界还存在不同的看法。有的学者主张对语料进行标注,认为标注过的语料库具有开发和研究上的方便性、使用上的可重用性、功能上的多样性、分析上的清晰性等优点。有的学者则对语料库标注提出批评。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的标注语料库是不纯粹的,带有标注者对于语言的主观认识;另一方面认为,手工标注的语料库准确性高但一致性差,自动或半自动的标注一致性高但准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性(J.Sinclair,Corpus,Concordance,Collocation,OxfordUniversityPress,1991)。我们认为,不论标注过的语料库还是没有标注过的语料库都是有用的,其中都隐藏着丰富的语言学信息等待着我们去挖掘,我们甚至可以使用机器学习的技术,从语料库中自动地获取语言知识,不论标注过的语料库还是没有标注过的语料库都有助于语言学的发展。 近年来,在语料库的建立和开发中逐渐创造了一些独特的方法,提出了一些初步的原则,并且对这些方法和原则在理论上进行了探讨和总结,逐渐形成了语料库语言学(corpuslinguistics)。由于语料库是建立在计算机上的,因此,语料库语言学是语言学和计算机科学交叉形成的一门边缘学科。目前语料库语言学主要是利用语料库对语言的某个方面进行研究,是一种新的研究手段,同时也逐步建立了自己学科的理论体系,正处于迅速的发展过程之中。 语料库语言学是一种新的获取语言知识的方法。描写语言学基本上是通过语言学家用手工方法或内省的方法,从有限的语料资料中归纳总结个别的语言数据来获取语言知识的。由于人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海。这种获取语言知识的方法不仅效率极低,而且带有很大的主观性。我国传统语言学中倡导的所谓例不过十不立,反例不过十不破的朴学精神貌似严格,实际上,在浩如烟海的语言数据中,以十个正例或十个反例就轻而易举地来决定语言规则的取舍,难以万无一失地保证这些规则的可靠性。语料库语言学提倡建立语料库,在计算机的辅助下,使用统计的方法或机器学习的方法,自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着因特网日新月异的发展,因特网上有着无比丰富的文本语言数据,其中有经过标注的结构化的语言数据,也有未经过标注的非结构化的语言数据,我们可以从因特网上这些大量的语言数据中自动或半自动地获取语言知识。这是语言学获取语言知识方式的巨大变化,在语言学的发展历史上具有革命性的意义。我们应该敏锐地注意到这样的变化,努力学习语料库语言学的理论和方法,逐渐改变获取语言知识的手段。 语料库语言学也为语言研究人员提供了一种新的思维角度,辅助人们的语言直觉和内省判断,从而克服语言研究者本人的主观性和片面性。我们预计,语料库方法将会逐渐成为语言学研究的主流方法,受到语言研究者的普遍欢迎。 语料库语言学还为语言研究的现代化提供了强有力的手段。语料库把语言学家从艰苦繁重的手工劳动中解放出来,使语言学家可以集中精力来研究和思考其他重要问题,这对于促进语言学研究的现代化具有不可估量的作用。 目前,语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、自动切分、词性标注、语义标注,并研究具有上述功能的语料库在词典编纂、语言教学、语言定量分析、词汇研究、词语搭配研究、语法研究、多语言跨文化研究、法律语言研究、作品风格分析等领域中的应用,已经初步展现出这门新兴学科强大的生命力,并且也影响和推动了计算语言学的发展。 2.计算语言学研究简介 1946年美国宾夕法尼亚大学的J.P.Eckert和J.W.Mauchly设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启示着人们考虑传统翻译技术的革新问题。为了探索如何用计算机来改进翻译技术,1952年在美国的MIT召开了第一次机器翻译会议,1954年美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,拉开了人类历史上使用计算机来处理自然语言的序幕。接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。 为了推动机器翻译的研究,1954年美国出版了第一本机器翻译的杂志,这个杂志的名称叫做MachineTranslation(《机器翻译》)。1965年MachineTranslation杂志改名为MachineTranslationandComputationalLinguistics(《机器翻译和计算语言学》)杂志,在杂志的封面上,首次出现了ComputationalLinguistics这个新学科的名字,令人遗憾的是,andComputationalLinguistics这三个单词是用特别小号的字母排印的,与大号字母排印的MachineTranslation形成强烈的对照。这说明,当时学者们对于计算语言学是否能够算为一门真正的独立的学科还没有确实的把握。计算语言学刚刚登上学术这个庄严的殿堂的时候,还带有千呼万唤始出来,犹抱琵琶半遮面那样的羞涩,以至于这个刊物不敢用与MachineTranslation同样大小的字母来排印它。当时MachineTranslation杂志之所以改名,是因为在1962年美国成立了机器翻译和计算语言学学会AssociationformachineTranslationandComputationalLinguistics),通过改名可以使杂志的名称与学会的名称保持一致。根据这些史料,我们认为,远在1962年,就出现了计算语言学这个学科了,尽管它在刚出现的时候还是偷偷摸摸的,显示出少女般的羞涩,然而,它却悄悄地登上了庄严的学术殿堂。 40多年来,计算语言学发展迅速,逐渐建立了完整的理论和方法,成为了一门独立的学科,取得了很大的成绩,在当代语言学中引人注目。 由于计算机的速度和存储量的增加,使得计算语言学在语音合成(speechsynthesis)、语音识别(speechrecognition)、文字识别(characterrecognition)、拼写检查(spellingcheck)、语法检查(grammarcheck)这些应用领域,进行了商品化的开发。除了早期就开始的机器翻译(machinetranslation)和信息检索(informationretrieval)等应用研究进一步得到发展之外,计算语言学在信息抽取(informationextraction)、问答系统(questionansweringsystem)、自动文摘(textsummarization)、术语的自动抽取和标引(termextractionandautomaticindexing)、文本数据挖掘(textdatamining)、自然语言接口(naturallanguageinteraction),计算机辅助语言教学(computer-assistedlanguagelearning)等新兴的应用研究中,都有了长足的进展,计算语言学的技术在多媒体系统(multimediasystem)和多模态系统(multimodalsystem)中也得到了应用。 3.语料库语言学和计算语言学之间的关系 在过去的40多年中,从事计算语言学应用系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的子语言(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从计算语言学应用系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,在计算语言学中就提出了大规模真实文本的自动处理问题。 1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:处理大规模真实文本的理论、方法和工具,这说明,实现大规模真实文本的处理已经成为计算语言学在今后相当长的时期内的战略目标。为了实现战略目标的转移,计算语言学需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是机器翻译中的经验主义和理性主义的方法。所谓理性主义,就是指基于规则(rule-based)的方法,所谓经验主义,就是指以大规模语料库的分析为基础的方法,也就是基于语料库(corpus-based)的方法。语料库的建设和语料库语言学的崛起,为计算语言学战略目标转移提供了语言资源方面的保证。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的方法(即经验主义的方法)至少是对基于规则的方法(即理性主义的方法)的一个重要补充。因为从大规模和真实这两个因素来考察,语料库才是最理想的语言知识资源。当前的计算语言学研究提倡建立语料库,使用机器学习(machinelearning)的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。在每两年召开一次的自然语言处理中的经验主义方法会议(EmpiricalMethodsinNaturalLanguageProcessing,简称EMNLaP)上,基于语料库的机器学习方法成为了会议的主流议题。计算语言学和语料库语言学发生了鱼水难分的密切联系。 21世纪,这种基于语料库的机器学习方法在计算语言学中进一步以惊人的步伐加快了它的发展的速度。我认为,计算语言学的加速发展在很大的程度上受到下面三种彼此协同的因素的推动。第一个因素是带标记语料库的建立。在语言数据联盟(LinguisticDataConsortium,简称LDC)和其他相关机构的帮助下,计算语言学的研究者可以方便地获得口语和书面语的大规模的语料库,而且其中还包括数量可观的标注过的语料库,如宾州树库(PennTreebank),布拉格依存树库(PragueDependencyTreeBank),宾州命题语料库(PropBank),宾州话语树库(PennDiscourseTreebank),修辞结构库(RSTBank)和TimeBank。这些语料库是带有句法、语义、语用、修辞结构等不同层次的标记的标准文本语言资源。这些标注语料库的存在使得计算语言学的研究可以使用有监督的机器学习方法(supervisedmachinelearning)来处理那些在传统上非常复杂的自动句法分析和自动语义分析等问题。这些标注语料库也推动了计算语言学中有竞争性的评测机制的建立,不再采用传统的人工评测方法而采用机器自动评测方法,评测的范围涉及到自动句法分析、信息抽取、词义排歧、问答系统、自动文摘等领域。 第二个因素是统计机器学习技术的成熟。对于机器学习的日益增长的重视,导致了计算语言学的研究者与统计机器学习的研究者更加频繁地交流,彼此之间互相影响。支持向量机技术(supportvectormachine)、最大熵技术(maximumentropy)、多项逻辑回归(multinomiallogisticregression)、图式贝叶斯模型(graphicalBayesianmodels)等统计机器学习技术在计算语言学中得到了普遍的应用,深受计算语言学研究者的欢迎。 第三个因素是高性能计算机系统的发展。高性能计算机系统的广泛应用,为机器学习系统的大规模训练和效能发挥提供了有利的条件,而这些在上一个世纪是难以想象的。 进入21世纪以来,除了有监督的机器学习方法之外,大规模的无监督统计学习方法(unsupervisedstatisticalmachinelearning)在计算语言学中也得到了广泛的关注。机器翻译(machinetranslation)和主题模拟(topicmodeling)等领域中统计方法的进步,说明了在计算语言学也可以只训练完全没有标注过的语料库来构建机器学习系统,这样的系统也可以得到有成效的应用。由于建造可靠的标注语料库要花费很高的成本,建造的难度很大,在很多问题中,这成为了使用有监督的机器学习方法的一个限制性因素。因此, 今后在计算语言学研究中将会更多地使用无监督的机器学习技术 。我们相信,计算语言学和语料库语言学的联系将会更加密切,进一步发展到水乳交融的程度。 世界图书出版公司北京公司为了引进国外关于语料库语言学和计算语言学的专著和论文集,出版了这套语料库语言学与计算语言学丛书。这套丛书可以帮助读者更好地了解这两门新兴学科的发展概貌,扩大读者的语言学视野,吸引更多的读者来关注这两门新兴的学科。 这套语料库语言学与计算语言学研究丛书目前收入6本国外有关语料库语言学研究的论文集和专著,1本国外有关计算语言学的专著,今后还会不断引进其他最新的相关著作,力求反映当前语料库语言学和计算语言学的研究成果和发展动向。    《语料库语言学的进展》(AdvancesinCorpusLinguistics) 是第23届国际英语语料库语言学年会的论文选集,包括22篇论文,反映了语料库语言学的最新发展情况。论文中心内容是讨论理论、直觉和语料的关系以及语料库在语言学研究中的作用。大多数论文是关于英语某个特定方面的经验研究,从词汇和语法到话语和语用,涉及面很广。此外,还讨论了语言变异、语言发展、语言教学、英语与其他语言的跨语言比较、语言研究软件工具的研制等问题。论文的作者中有许多著名的语言学家,如M.A.K.Halliday、JohnSinclair、GeoffreyLeech和MichaelHoey等。本文集既注意理论,又注意方法,清楚地显示了在经验主义方法的影响下语料库语言学这个新兴学科正在稳步地发展中。 《通过语料分析进行教与学》(TeachingandLeaningbydoingcorpusanalysis) 是第四次教学与语言语料库国际会议文集(2000年7月1924日在Graz举行)。该文集反映了在语言教学中应用语料库取得的进展,不论把语料库作为一种资源还是作为一种方法,它对于语言的教学或研究都有积极的作用。文集强调了发现式学习(discoverylearning)的重要性,指出发现式学习在课堂教学和课外研讨中都有很好的效果。文集还强调了在使用中学习口语和书面语的重要性,提出要充分利用现代的语料库来学习、翻译和描述语言。文集主张以学生为中心,以基于语料库的语言调查为手段来进行语言教学。文集所收的文章既有回顾性的,也有前瞻性的,在这些文章中,作者们描述了他们使用语料库来教学的实践与担心,成功与失败,让读者来分享他们的教学经验。 《语言学中的数学方法》(MathematicalMethodsinLinguistics) 是一本关于计算语言学的专著。全书包括A,B,C,D,E五篇。A篇讲述集合论,B篇讲述逻辑和形式系统,C篇讲述抽象代数,D篇讲述作为形式语言的英语,E篇讲述形式语言、形式语法和自动机。如果读者从A篇开始,一篇一篇地仔细阅读,反复推敲,认真做练习,逐步深入下去,就可以升堂入室,了解到语言学中使用的主要的数学方法。现代语言学的研究,特别是面向计算机的语言学研究,离开了数学将寸步难行。在这种情况下,语言学工作者有必要进行更新知识的再学习,学习一点与语言学研究有关的数学知识,从而改进自己的知识结构。本书是专门为语言学工作者写的,讲数学问题时都紧紧扣住语言,深入浅出,实例丰富,作者还精心设计了大量的练习,书末附有练习答案选,正好满足了语言学工作者更新知识的迫切需要,是一本不可多得的优秀读物。 《超句法表示结构的形式与功能》(Formandfunctionofparasyntacticrepresentationstructure) 根据真实的语料数据,从功能的视角来研究韵律和句法之间的相互作用。作者介绍了Halliday关于声调是一个信息单位的解释,Halford关于从韵律方面和句法方面定义谈话单位(talkunit)的思想,Esser关于抽象表达结构的概念,在这些理论的基础上,作者建立了一个修正的谈话单位模式(modifiedtalkunitmodel)。这种谈话单位模式是一种超句法的模式(parasyntacticunit),既要进行定量的分析,也要进行功能的分析,并在声调单位的边界处来研究韵律状态和句法状态的相互作用。这项研究的数据是从LondonLund英语口语语料库中采集的,样本包含50000个单词。研究结果表明,使用韵律和句法之间的相互作用,可以更有效地对语言信息进行结构化的描述。本研究应用了语料库语言学的方法来分析谈话单位在风格和语用方面的潜在特征,对于英语口语进行功能主义和经验主义的分析,具有开创性。 《应用语料库语言学:多维视角》(AppliedCorpusLinguistics:AMultidimensionalPerspective) 是美国印第安纳大学跨文化交流中心第四届北美研讨会的文集(2002年11月在Indiananpolis举行),作者来自美国、比利时、中国、法国、德国、爱尔兰、荷兰、西班牙等8个国家,内容涉及基于语料库的课堂教学、口语话语分析、书面语话语分析、网络话语分析等。整个文集分为两部分:第一部分是语料库语言学在口语话语分析和书面语话语分析中的应用;第二部分是语料库语言学在直接教学法中的应用。 《拓展基于语料研究的范围》(ExtendingtheScopeofCorpus basedResearch) 是北亚利桑那大学现代英语和中古英语计算机文档国际会议的文集,该会议于2001年在Arizona举行。这次会议的主题是对语料库语言学的新挑战。这种新挑战包括:改进语料库语言学的方法论标准,划清基于语料库的研究与理论语言学之间的界限,进一步探讨语料库语言学在语言教学中的应用。文集中的文章清楚地显示了基于语料库的研究正在迎击这样的挑战。 《应用语言学中的语料库》(CorporainAppliedLinguistics) 以丰富而有趣的实例说明了语料库在应用语言学中的作用,本书广泛地使用了COBUILD英语银行(BankofEnglish)语料库中丰富的语言材料,把应用语言学与语料库密切地结合起来,对于如何在应用语言学中发挥语料库的作用,提出了许多独到的见解。本书还讨论了语料库对应用语言学的重要性和它的局限性。语料库对应用语言学的重要性在于:语料库是收集和存储语言数据的一种手段,借助词语索引(concordancelist)和频率(frequency),语料库可以大大地改善人们的语言直觉,弥补内省方法的不足,从而克服主观性和片面性。而语料库的局限性是:语料库只能给我们关于某种语言现象频率高低的信息,但不能给我们某种语言现象是否可能的信息;语料库只能告诉我们语言事实本身,但不能进行推理;语料库只能给我们提供例证,但不能对例证提供解释,对例证的解释要依靠语言学家对于语言的直觉和内省;此外,文本语料库还不能提供关于声调、手势以及社会背景方面的信息等。 世界图书出版公司北京公司出版的这套语料库语言学和计算语言学研究丛书内容丰富而新颖,是反映这两个学科当前发展情况的一面镜子。读者可以通过这面镜子,对当前的语料库语言学和计算语言学有一个鸟瞰式的认识。希望广大读者喜爱这套丛书,从阅读中开阔眼界,获得新知。是为序。 2008-12-6 --------------------------------------------------------------------------------------------- 1 .《语料库语言学与计算语言学研究丛书》,世界图书出版公司出版。
个人分类: 自然语言处理|9223 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-26 01:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部