实用工具 | 美国当代英语语料库 COCA
English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库。5亿词的文本构成,文本分为口语、小说、流行杂志、报纸以及学术文章五种不同的文体,各占库容的20%。美国当代英语语料库(COCA)——英语教学与研究的良好平台[J]....
当代英语语料库(COCA)是目前最大的免费英语语料库,也是第一个大规模平衡的美国英语语料库。 语料库由包含 4.5 亿个单词的文本组成,文本分为五种不同的文体:口语、小说、流行杂志、报纸和学术文章,各占图书馆容量的 20%。
它不仅仅是一个简单的在线词典,从建立之初就体现了它作为搜索语料库的特性,可以帮助研究者追溯语言发展的变化(Davies, 2010)。 语料库由美国杨百翰大学马克·戴维斯教授创立,于2008年正式上线。除了强大的文本检索功能外英语语料库在线网站实用工具 | 美国当代英语语料库 COCA,由于语料库的细致划分英语语料库在线网站,研究者可以追溯语言发展的变化按年。
下面小编就来简单介绍一下COCA的主要作用和注意事项
这是COCA网站的封面,看起来还是很有设计感的
翻盖之后,终于进入了主界面。 看起来不是很笨重,其实功能非常多
这里是最重要的操作地方,也就是输入查询词的地方。 先来看最简单的词查询,直接输入cause(注意:这里直接输入只显示cause本身的搜索结果,排除causes, caused等英语语料库在线网站,如果需要搜索一个词的所有形式,则需要搜索时加[],下同),下图是搜索结果,右上是搜索摘要,右下是索引行信息。
COCA的一大特点是将文字分为不同的文体。 我们可以比较同一个词在不同风格下的表现。 以上面的搜索词cause为例,我们尝试比较它在人文学科学术文章和科技学术文章中的使用分布不同。 具体检索结果如下图所示。 小编首先解释一下几个数据的含义。 tokens1是指搜索词在第一部分语言中出现的频率(即传说中的人文类。学术文章)英语语料库在线网站,tokens2是指搜索词在第二部分语言中出现的频率(也就是传说中的科技学术文章),PM1和PM2指的是两种语言风格的百万词出现频率,RATIO指的是两种搜索词出现频率的比值,如下图两种语言风格之间比较明显,科技类学术文章中搜索词的使用明显多于人文类学术文章。
看来这个内容还不够精彩。 COCA还支持搜索词的搭配关系搜索。 看到图中的POST LIST选项英语,从中可以选择自己想要的搭配词性,比如小编搜索反映Nouns后出现的,并按照相关性排序(见下图),搭配最高的名词成分reflect 背后的相关性得到了。
COCA 还允许搜索者轻松仔细地阅读文本。 比如想知道搜索词的左右邻,选择KWIC搜索英语,就可以得到下图中的索引行搜索结果。 索引行中的完整信息包含样式、来源和年份信息,并且还根据词性的不同以不同颜色突出了节点词附近的相邻词。
除了列表展示(list),COCA还支持图标展示各语言风格的搜索词分布情况。 下图显示了原因在语料库的每种语言风格中的分布。
更可喜的是,COCA还支持对比从不同语料库中检索出的词风分布信息,如下图,可以与BNC、COHA等众多语料库的词风分布或历时变化特征进行对比, TIME(参见比较语料依赖)
不仅如此,COCA还可以分析同义词,比如smart和clever,中国学生可能分不清两者的区别,但是借助语料库,很容易发现两者的常见搭配是完全不同的。
以上只是对COCA功能的一个大概介绍。 点击阅读原文直接进入美国当代英语语料库。 除此之外,语料库还有其他强大的功能,比如搜索特定词性(caugh.动词的使用)英语培训,比如搜索同义词([=cell],搜索cell的同义词),上面的介绍就是只是语料库众多功能中的一小部分,还需要大家继续探索和应用。
参考
王兴福,马克戴维斯,刘国辉。 当代美国英语语料库(COCA)——英语教学与研究的良好平台[J]. 外语电化教学,2008,05:27-33.
猜你喜欢
发表评论
评论列表