CCL语料库
enname(英文篇名)等是汉英双语语料库检索系统专用的,其余关键字既可用于现代汉语、古代汉语语料库检索系统,也可以用于汉英双语语料库检索系统。(1)模式查询针对的语料并未分词。关于CCL和COCA在线语料库使用方法的研究[J].才智,2014(28)...
提供:崔鑫、邢丹、魏国瑞
网址::8080/ccl_corpus/index.jsp
一、简介
CCL语料库即北京大学现代汉语语料库,由北京大学汉语语言学中心开发。 在此期间得到了北京大学计算语言研究所、中国科学院计算技术研究所等单位的大力支持和帮助。
CCL语料库及其检索系统纯属学术性、非营利性。 语料库中的中文文本未进行分词,检索系统以汉字为基本单位。 CCL中文语料库字符总数为783463175个,其中现代汉语语料库字符总数为581794456个,古汉语语料库字符总数为201,668,719个字符。 语料库包含的语料涵盖了公元前11世纪至今的文献,涉及的文献类型也相当多样。
该语料库主要用于分析现代汉语的语言现象以及与国外语料库进行比较研究。 用户在使用时应自行检查语料库的准确性,然后根据语料库进行研究。
CCL的语料库包括一些口语(北京话调查)语料库,包括一些影视作品(如百家论坛、周星驰电影等)、网络语料库、书面语言语料库。 其中,报纸语料库占据了绝对较大的比例。 CCL最新更新新增众多学术论文语料库; 此外,CCL还拥有古汉语和汉英双语语料库英语语料库在线网站,其中双语语料库不对外开放。 CCL是原始语料库(除分类、标题、作者等元信息外),正文未经任何处理。 支持复杂的搜索表达式(如非相邻关键字查询、指定距离查询等); 支持标点符号查询(例如查询“?”可以检索语料库中的所有问题); 支持在“结果集”中继续搜索; 用户可以自定义查询结果的显示方式(如左右长度、排序等); 用户可以从网页下载查询结果(文本文件); CCL提供了丰富的字符串搜索功能,尤其是模式匹配。 让生语料库还可以满足多样化的研究需求; 所有搜索结果都可以下载,非常开放(结合左右最大显示字数,可以下载完整的搜索结果)
2. 使用教程A
CCL语料库的查询分为普通查询、批量查询和模式查询。 还可以选择查询内容,分为现代汉语和古汉语。 在“选择范围”中,您还可以指定朝代和时期。
1、一般查询:
我们可以输入三种形式的关键字,分别是:纯文本、文本+符号、文本+符号+数字
·纯文本:不包含任何特殊符号和空格的文本。
·文字+符号:该类别中可以使用的符号有[空格](文字[空格]文字...)和| (文本|文本|文本...)。
·文本+符号+数字:该类型有两种格式。 文本+“$/#/+/-/~”+数字+文本,文本+“$/#/+/-/~”+数字+“!” + 文字。
普通查询中有九个符号,分别是(空格)、|、$、#、+、-、~、!、:
·(空格)相当于“组合”,同时搜索以空格分隔的关键词。 显示的结果是整个内容中包含搜索到的关键词的文章,并显示包含该关键词的句子。
·| 相当于“或”,显示的结果是文章中包含其中一个关键词的句子。
·$表示关键字按从左到右的顺序出现在同一个句子中。 关键字之间的字符数小于或等于数字。 例如:我给你10美元。 在搜索到的句子中,我和你之间的距离小于或等于10。
·#表示关键字同时出现在同一个句子中,不分前后顺序,且关键字之间的间隔小于等于数字。
·+表示关键词在同一句话中按从左到右的顺序出现,关键词之间的间隔等于个数。
·-表示关键字按照从左到右的顺序出现,且查询关键字之间的距离大于数字。 例如,I-10you,在搜索的句子中,you出现在我的右侧,距离大于10。
·~表示关键字按照从右到左的顺序出现,且查询关键字之间的距离大于数字。 例如,I~10you,在搜索的句子中,you出现在我的左边,距离大于10。
·! 表示其后面的关键字是本次查询的主键字符串,在显示查询结果时以“简单项”作为定位的中心。
·:使用方法author:作者姓名英语,name:文章标题,type:类型,ch:中文句子,pattern:特殊模式(如重复词AABB等),translator:译者,enname:文章英文标题和其他关键字,用于分隔关键字及其值。例如:名称:诗经
(注:以上符号必须为英语格式)
2.批量查询
您可以上传需要查询的文件。 最大字数为30。要求文件中所有文件都符合常用的查询表达式(但使用时没有产生结果英语语料库在线网站,目前尚未找到原因)。
3. 花样查询
如果我们要查询“月...月...”,则查询表达式为“月(A)月(B)”。 如果我们要查询前后相同的单词,可以写“悦(A)悦(A)”,A、B可以用任意字母代替,没有大小写限制。
被查询的A和B都可以有长度限制,表达式为“(A,=3)”,即要求A的长度为3; “(A,
例如:“更多(A、三、使用教程B
1.打开页面进入北京大学中国语言文学研究中心选择古汉、现汉,可根据需要选择进入普通、批量、模式查询检索。
2.CCL语料库语料分类分布情况、语料库文件详细目录、语料库字符统计详细信息、汉英句对齐语料库规模及语料类型详见http://ccl.pku.edu.cn:8080/ccl_corpus/corpus_statistics.html
3.首先CCL可进行简单查询,查询表达式可以是以下形式的序列:(1)子句,(2)子句1 子句2 ...(子句和子句之间需要以空格隔开,表示逻辑“AND”关系),使用$+操作符的查询表达式, $ 符号表示间隔小于等于,如“把$10给”表示返回“把”与“给”之间少于10个字符的句子。查询表达式支持多个“$”连用,如查询“被$10把$3给$2了”,表示 “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”前出现,二者之间间隔小于10个字符。+ 符号表示间隔等于,如“把+10给”表示返回“把”与“给”之间等于10个字符的结果。查询表达式支持多个“$”或“+”连用,如支持查询“我$10你$3他$2 了” “你+3他+2了”。此外系统也支持“$”与“+”的组合搜索,如“我$10你+3他$2了”, 该查询表示返回“我” 和“你”间隔小于等于10,“你”和“他”间隔等于3,“他”和“了”间隔小于等于2。
4.其次批量查询,用户可以上传查询文件,文件中可以包含多个普通查询可接受的表达式,默认允 许的最大查询数为30。文件格式为:每一行是个合法的查询表达式。返回的查询结果是一个网页(html文件),其中列出每一个查询表达式命中 的结果的个数,每一个查询表达式后的结果个数上有一个超链接,点击后可进入该 查询表达式对应的具体查询结果。
5.模式查询,在模式查询页面,用户可以检索特定的模式,比如“爱V 不 V” “有 X V X”;其中,模式“爱V 不 V”表示查询“爱”跟“不”之间间隔一个字(或词),用户可以指定V的字符个数(长度),两个V是相同的字符串。模式“有X V X”表示查询字符串中包括“有”,“有”后面紧跟的字符串“X”间隔字符串“V”后又重复出现一次,字符串“V”跟字符串“X”不相同。
6.在普通查询、批量查询、模式查询页面,系统都提供了“选择范围”按钮,点击 该按钮,系统弹出语料库目录结构的树状显示,用户可以通过鼠标点击选取框checkbox来指定查询范围。语料库文件目录的树状结构可以在网页上“展开-收缩”显示,每个节点前有一 个选取框(checkbox),如果选中一个节点,则默认情况下,该节点的所有子孙节点都被选中,反之。如果清除一个子节点,默认情况下,该节点的所有子 孙节点都被清除。对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功 能,逐次逼近检索目标。 “在结果中检索”的功能是指在上一次检索基础上,用户输入新的查找条件,然后点击“在结果中检 索”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个 子集。比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样 的否定词。可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和 “也”,且二者相隔10字以内的句子,然后再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。
4. 使用教程C
CCL语料库具有三种查询模式。 您可以根据不同的表达找到对应的内容,也可以在结果中继续查询,也可以上传本地文件进行查询。 下面分别介绍普通查询、批量查询和模式查询的使用:
一个常见的查询
1.1 查询表达式简介
查询表达式由运算符、基本项、简单项、复杂项、过滤项、子句等组成,下面依次介绍这些单元。
1.1.1 运营商
查询表达式中可以使用 9 个特殊符号: SPACE|$#+-~!:
这些符号分为四组:
操作员1:空格|
运算符2:$#+-~
操作员3:!
操作员4: :
符号含义如下:
(1)运算符1:运算符1是二元运算符CCL语料库,“基本项”可以出现在其两边。
(1)SPACE(空间)相当于逻辑中的“并”关系。
(2) | 相当于逻辑中的“或”关系。
(2)算子2:算子2是二元算子,其两边都可以出现“简单项”。
(3)$表示其两边的“简单项”以先左后右的顺序出现在同一个句子中。 两个“简单项目”之间的字数小于或等于 Number
(4)#表示其两边的“简单项”出现在同一个句子中,不分前后顺序。 两个“简单项目”之间的字数小于或等于 Number
(5)+表示其两侧的“简单项”以先左后右的顺序出现在同一个句子中。 两个“简单项目”之间的单词数正好等于 Number
(6)-表示其左边的“简单项”出现在句子中,而在右边的数字词范围内,-号右边的“简单项”没有出现。
(7)~表示其左边的“简单项”出现在句子中,且在左边数词范围内,~号右边的“简单项”没有出现。
除$和+运算符外,Operator2不能连续多次使用,即Operator2只能用于连接两项:A Operator2 B组成查询表达式。
Operator2中的$和+可以连续多次使用英语语料库在线网站,并且可以混合使用。 参见第 1.2 节中的描述。
(3) 运算符3:运算符3是一元运算符。
(8)! 表示其后面的“简单项”是本次查询的主键字符串。 显示查询结果时,将以“简单项”为中心进行定位。
(4)运算符4:西班牙冒号:是分隔符
(9):后面的关键字,如作者、名称、类型、模式等,用于分隔关键字及其值。 这样形成的查询公式称为“过滤项”(见下文1.1.5)
1.1.2 基本项目
指不包含特殊符号和空格的连续字符串
1.1.3 简单项目
简单术语可以由以下三种形式的序列组成
(一)基本项目
(2) 基本项目 1 操作员 1 基本项目 2 操作员 1…
(3) (基本项目 1 操作员 1 基本项目 2 操作员 1...)
1.1.4 复杂项目
复杂项可以由以下三种形式的序列组成:
(1)简单项目
(2) 简单项目 1 操作员 2 数字 简单项目 2
(3) 简单项目 1 运算符 2 数字 运算符 3 简单项目 2
第二种形式相当于Operator3简单项1 Operator2 Number简单项2。也就是说,如果以第一个简单项作为查询结果的显示中心,! 可以省略。
1.1.5 过滤项目
过滤项可以包含以下表达式:
(1) 作者:简单项目
(2)名称:简单项目
(3)类型:简单项
(4)图案:简单单品
(5) ch:简单项
(6) en: 简单项目
(7) 译者:简单项
(8) enname:简单项
阐明:
– “author: simple item”的含义是指“author”关键字后面的表达式是上面1.1.3“Simple item”中定义的字符串,以此类推。
– 通过在过滤项中指定author(作者)、name(文章标题)、type(文章类型)、ch(中文句子)、en(英文句子),用户可以缩小查询语料的范围。
– 过滤项模式专门用于查询中文的各种模式,例如“AABB”等重叠形式、“AB is not AB”等重复疑问形式等。
– 过滤项关键词(5)-(8),即ch、en、translator(译者)enname(英文标题)等为汉英双语语料库检索系统独有。 其余关键词既可用于现代汉语英语培训,也可用于古汉语。 中文语料检索系统也可以用于汉英双语语料检索系统。
例子:
例1:如果要查询“老舍”的语料,则在查询表达式中输入“作者:老舍”;
例2:如果要查询“老舍”先生的文章中“A come A go”的用法,则在查询表达式中输入“作者:老舍模式:A come A go”。
示例3:查询 ch:Ethernet en:Ethernet
意思是:找出中文句子中含有“以太网”和英语句子中含有“以太网”的汉英句子对。
(ch表示后面的字符串查询范围是中文句子;en表示后面的字符串查询范围是英文句子。)
1.1.6 条款
子句可以是以下两种类型的表达式:
(1)复杂项目
(2) 过滤项目
1.1.7 查询表达式
查询表达式可以是以下形式的序列:
(一)条款
(2) 第 1 条第 2 条……
(子句之间需要用空格分隔,表示逻辑“与”关系)
1.2 使用$+运算符的查询表达式
$符号表示区间小于或等于。 例如,“Give $10”表示返回“Give”和“Give”之间少于 10 个字符的句子。
查询表达式支持使用多个“$”。 例如,查询“$3 was Give to $2 by $10”表示四个关键字“been、given、given、given”在一个句子中同时出现,并且它们之间有空格。 根据要求,“be”出现在“bar”之前,并且它们之间的间隔小于10个字符。
第二批查询
用户可以上传查询文件,其中可以包含常见查询的多个可接受的表达式。 默认允许的最大查询数为 30。
文件格式为:每一行是一个合法的查询表达式。
返回的查询结果是一个网页(html文件),其中列出了每个查询表达式命中的结果数。 每个查询表达式后面都有一个关于结果数的超链接,可以点击该链接输入查询表达式。 具体查询结果对应公式。
三模式查询
在模式查询页面,用户可以搜索特定的模式,例如“爱V不V”和“有”,用户可以指定V的字符数(长度),并且两个V是同一个字符串。模式“你们不一样。
3.1 模式查询表达式
为了将它们与文本中的字母区分开来,需要匹配的可变字符被括在括号中。 例如,搜索模式“Love V Not V”英语语料库在线网站,对应的查询表达式是“Love (V) Not (V)”。 V 的长度也可以指定,例如:
查询表达式为“love(V,=3)not(V)”,表示要求V的长度为3;
查询表达式为“爱(V)”,查询表达式为“爱(V,2-5)不(V)”,表示要求V的长度在2-5之间。
注意:
(1)模式查询所针对的语料库未进行分词。 因此,查询“爱(V)或不(V)”也可以匹配“令人难以置信的爱”。
(2)模式查询只是形式意义上的匹配。 匹配实例在语义上不一定满足模式的要求。 例如,查询“爱(V)或不(V)”也可以匹配“他所有的爱都在羞辱中消失了吗?” 这里的“爱不是v”不符合“爱v不是v”的一般语义模式。
(3)上例中,模式查询表达式“Love(V)Not(V)”中的V并不代表动词(Verb),而是代号。 可以写成X、x等符号,也可以指代任意字符。 。 因此,查询“Love (V) Not (V)”也可以匹配“年轻人,有一个严肃的爱好是不好的”
3.2 形态查询结果页面显示
“模式查询”的默认结果页面与“普通查询”的结果页面相同,参见下面第4节的说明。
在“模式查询”的结果页上,还增加了“统计”按钮。 点击“统计”按钮,系统对“模式查询”表达式中的“变量(如x、v等)”进行统计,并可以按频率降序或频率升序输出。 例如:查询“爱(x)不(x)”模式,默认返回的结果页面为:
共有 236 条结果
点击“统计”按钮后,返回的结果为:
共有 43 条结果
爱是感动:3; (x,移动)
爱去不去:2; (×,走)
喜欢打不打:1; (x,命中)
爱而不怀念:1; (×,小姐)
爱还是恐惧:1; (×,恐惧)
爱戒烟:1; (×,退出)
你懂爱吗:1; (×,明白)
喜欢用与否:1; (x,使用)
……
根据这个统计结果,我们可以知道,在CCL语料中,“爱V还是不V”中的V包括:
移动、前进、战斗、阅读、恐惧、放弃、理解、使用……
4、选择查询范围
在普通查询、批量查询、花型查询页面,系统提供了“选择范围”按钮。 点击该按钮,系统会弹出语料库目录结构的树形展示。 用户可以通过鼠标点击复选框来指定查询范围。
语料文件目录的树形结构可以在网页上“展开-折叠”显示。 每个节点前面都有一个复选框。 如果选择一个节点,则默认选择该节点的所有后代节点。 相反。 如果清除某个子节点,则默认情况下该节点的所有后代节点都会被清除。
6搜索结果
对于复杂的查询需求,可以尝试通过多次查询来完成英语培训,即利用“在结果中查找”功能来一一逼近搜索目标。
“结果搜索”功能是指用户在上次搜索的基础上,输入新的搜索条件,然后点击“结果搜索”按钮。 系统会将用户输入的搜索条件与上次的搜索条件相结合。 (LastQuery) 合并(AND 操作)以执行查询。 查询结果是先前查询结果的子集。
例如:您想要查找“rather...ye”的示例,但您不希望“ye”后面出现“no”之类的否定词。
您可以先输入查询表达式“I'drather$10”,返回的结果将是一个包含“rather”和“ye”的句子,两个单词间隔小于10个单词,然后您可以输入查询表达“是-4 否”。 这样就可以排除“是”后4个字符内带有“否”的句子。
5.相关文献
[1] 陈伯聪. 基于现代汉语语料库的“纠结”释义分析[J]. 现代汉语(语言研究版),2017(08)
[2] 高文成,张丽芳. 英汉二项式内倾结构认知结构比较研究——基于BNC和CCL语料库[J]. 西安外国语大学学报,2013(02)
[3] 李水. 认知立场标记“我认为”与“我认为”的比较研究初探——基于现代汉语语料库的研究[J]. 沉阳工学院学报(社会科学版),2016(01)
[4] 李秀平. 基于语料库的现代汉语教学方法研究[J]. 现代营销(学院版),2011(10)
[5]孙东平,郑琳。 CCL语料库视角下的“比特”一词研究[J]. 和田师范高等专科学校学报,2015(03)
[6]王超. CCL和COCA在线语料库的使用研究[J]. 彩脂,2014(28)
[7] 于世文,段惠明,朱雪峰,孙斌. 北京大学现代汉语语料库基本处理规范[J]. 中国信息科学学报,2002(05)
[8] 于世文,段慧明,朱雪峰,孙斌. 北京大学现代汉语语料库基本处理规范(续)[J]. 中国信息科学学报,2002(06)
[9] 朱晓敏. 基于COCA语料库和CCL语料库的翻译教学探索[J]. 外语教学理论与实践,2011(01)
[10] 詹卫东、郭锐、陈以荣,2003,北京大学汉语语言学研究中心CCL语料库(规模:7亿字;时间:公元前11世纪-当代),网址:8080/ccl_corpus
猜你喜欢
发表评论
评论列表