英语语料库及词频表介绍
这三个语料库。这个词库主要是基于主流的英语词典制作,主要是用来作为各种英文输入工具的拼写检查的。之所以介绍这个词库,主要是因为它可以作为辅助词库来帮助我们更好的理解词频和词汇分类,结合其它词频表,我们可以设计出更加合理词汇表来进行学习。项目,目的是以美式英语(American-English)为基础创建一个核心词汇列表。4核心词频库...
下面主要介绍一下:GBC、BNC、COCA这三个语料库。
GBC,Google Book's Corpus,官网:,拥有1550亿个美国英语单词。
BNC - British National Corpus是具有同等影响力的权威语料库,只是其选词来自英式英语英语语料库在线网站,主要来自1980年的各种英文资料。
COHA,美国历史英语语料库
COCA,当代美国英语语料库
COHA/COCA作为当代美式英语语料库,于2008年2月20日上线,最初包含约3.2亿个单词,并以每年2000万个的速度增长。 2017年达到4.5亿以上。
2N-GRAM 连词文法模型
N-GRAM 是一种连词分类法(模型),表示短语或句子中的连续单词。 在人工智能领域,马尔可夫概率模型可以用来预测这些词后续出现的概率。
根据连词的多少又可细分为unigram、bigram(或digram)、trigram、four-gram、five-gram等。
Google的N-GRAMS模型采用的选词原则是:由三到四个连续的词组成的一串词(string,可以是句子或句子的一部分)在语料库中出现次数超过40次。 这个原则也被称为“40 Token Threshold”。 这样做的好处是,虽然GBC的词汇量是COCA的400倍,但他们选择的N-GRAMS数量却相差无几。
这里有几个例子来理解谷歌的 N-GRAMS 模型。 我们搜索[j*] groan(注意:这里前面的j*表示可以匹配的形容词),可以得到如下结果:
下面是Google官网给出的Google N-GRAMS和COHA N-GRAMS的对比。
解释标记和类型的含义。 前者表示token出现的总数,后者表示词组或句子类型的数量(唯一字符串的数量)。
可以看出,在COHA N-GRAMS给出的结果中,类型数量比Google N-GRAMS多。
简单的说,在谷歌词汇中,沉重的呻吟出现了很多次,但是低吟+沉重的呻吟空洞的呻吟+低沉的呻吟+……一起出现的物种数量没有COHA合集那么多。
这种现象在较长的短语或句子中更为明显,比如将长度增加到4克或5克,如图:
2、COHA给出的类型远远超过Google的数量,达到了6倍。 可见Google N-GRAMS采用的“40-token-threshold”的选词原则也存在一些不足。
总结:
我们可以看到GBC的词汇量是宇宙级的英语培训,是COCA体积的400倍,几乎囊括了古今中出现过的所有词汇。 从这个词集中,我们可以了解到几乎所有词根的变迁史。 当然英语语料库在线网站,这个庞大的语料库对于第二语言学习者来说意义不大,因为有些词在整个历史中只出现过一次。 GBC官方自己甚至无法确认这些词是否完全是拼写错误造成的,但也指出,通过将这种规模的词汇集与COCA等其他流行语料库进行对比,可以排除很多出现频率非常高的词. 也就是说,通过对比比较,可以更加明确词汇的主流使用范围。
3 其他叙词表 (SCOWL)
SCOWL英语语料库在线网站,Spell Checker Oriented Word Lists 本词库主要基于主流英语词典,主要用作各种英文输入工具的拼写检查。
因此英语语料库在线网站,它的词库远小于上述几百万甚至上亿的语料库(大多数词典的词汇量在20万左右)。 但相对而言英语培训,它也更精、更准,用词也更雅俗。 非常适合母语不是英语的人学习和使用。
之所以介绍这个词库,主要是因为它可以作为一个辅助词库,帮助我们更好地理解词频和词汇分类。 结合其他词频表,我们可以设计出更合理的词汇表进行学习。
SCOWL提供了数个准备好的词库供用户免费使用,其中12Dict词库和一些衍生版本比较流行,下面简单介绍一下。
12Dict 源自 n-Dict 项目,旨在创建一个基于美式英语核心词汇表。 (其中n为变量,表示出处词库(权威词典)的数量,最终确定为12本。)这12本词典由8本ESL词典和4本桌面词典组成。 最小的包含 20,000 个条目,最大的包含 46,000 个条目。
6of12 和 2of12
关于这两个列表的详细介绍,请参考readme文件,具体链接为:
词形还原
按“同源异形”分词的具体含义是:按屈折形式(或变体形式)对(文中的词)进行分类。 例如:“采取”:[“采取”,“采取”,“采取”,“采取”]。 这些词是“同源”的,可以归为一类,只能用一个词来表示。
制作列表时的具体方法是:将文本文件处理成一个词序列,对于每个词,查字典得到本体,将其加入到一个词典中,录入形式为:词:频率,每一个词词出现,频率加1。
12Dict Release 5 添加了 2+2lemma 和 2+2gfreq 两个列表。 按照上述方法分类计算词频后英语语料库及词频表介绍,每个文件包含约50000个词条。
4核心词频库
这部分是我介绍的重点,因为这部分列举的几本词库收录的词汇比较核心和精简,所以很有学习价值。
(1) COCA词频
COCA是目前最权威、最流行、最实用的英语词汇学习库(亿词数据:免费在线获取)。 让我们来看看它提供了什么:
1.词表+流派频率词汇。
本词表根据口语、小说、流行杂志、报纸、学术等进行频次划分统计,每个类别又包含子类别(共约40个类别)。
COCA 根据这些分类最终提供了 3 个数量级的词汇表,分别包含 5000、20000 和 60000 个单词。
二、Collocates短语搭配
不仅提供词汇表,COCA还提供了总共约480万词组搭配(Collocates),详见基于4.5亿词的COCA语料库。 特别是为前20000到30000个最常用的单词分别提供了200到300个词组搭配,很有学习价值。
3. N-克
N-GRAMS 反映了一个词最常与哪些词(之前和之后)配对。 例如英语,根据统计,free 最常与 of the 放在一起,而 takes 最常与 place in 或 care of 一起使用。
猜你喜欢
发表评论
评论列表