分享丨翻译与语言研究必备:23个国内外语料库推荐
北大语料库——北京大学中国语言学研究中心此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。中国传媒大学“传媒语言语料库在线分词标注系统”中国传媒大学“媒体语言语料库(MLC)”香港教育学院“LIVAC汉语共时语料库”...
3.北京大学《人民日报注释语料库》
4. 北京大学语料库 - 北京大学汉语语言学研究中心
北大语料库由《现代汉语语料库》、《古汉语语料库》和《汉英双语语料库》三个语料库组成。其中,北大计算语言学研究所的双语语料库拥有五万余对英汉对齐句子,并开发了相应的对齐工具和双语语料库管理软件。在此基础上,正在开发汉英对比短语库,规模预计达到数十万。(汉英双语语料库目前仅对北大用户开放)
5.北京语言大学高级翻译学院“高级翻译记忆库”
6.清华大学中文平衡语料库TH-ACorpus
(好像正在修改,无法访问)
7.中央研究院《现代汉语平衡语料库》
专为语言分析而设计,每句以词为单位划分,并标注词类。语料库的收集旨在将现代汉语分布在不同的主题和风格上学英语,是现代汉语无限多的句子的代表性样本。现有的语料库主要用于语言分析,由中央研究院信息研究所和语言研究所的词库团队完成。其中包含简介和使用说明。当前语料库为 4.0 版。
8. 现代汉语有标记语料库,中央研究院
9.中央研究院中文电子文献(汉典全文检索系统)
藏书约1000余册,包括全二十五史、全十三部阮籍佛经、二千余万字台湾史料、一千万字大正藏经及其他经典。
10.红楼梦网络教学科研数据中心
元智大学中国文学网络系统研究室开发的“在线读书-中国文学网络系统”由研究中心主任罗凤珠教授主持,《红楼梦》是其子系统之一,其他子系统包括古籍、诗经、唐宋词、诗词等。该网站是中国互联网上最大的中国文学研究数据库,为用户提供最全的中国文学研究资料。
11.《红楼梦》汉英平行语料库
12. 查词释字
共包含“寻字寻语”、“文学之美”、“解谜游戏”、“古文字世界”四个单元,可按部首、字、音、词进行搜索,并可查阅四书、老子、庄子、唐诗等出处,并可直接链接至出处阅读原文。
13.中国传媒大学《面向媒体语言语料库的在线分词标注系统》
14.中国传媒大学媒体语言语料库(MLC)
15.哈尔滨工业大学信息检索实验室语料资源对外开放
本语料库为中英双语语料库,收录10万对齐双语句对,并附有《同义词词典》的扩展版。词量77343个,秉承《同义词词典》的编纂风格,采用五级编码体系,多文档自动文摘语料。40个主题,同一主题下同一事件的不同报道。中文依存树库,无关系句子5万句分享丨翻译与语言研究必备:23个国内外语料库推荐英语培训,有关系句子1万句,LTML、分词、词性、句法人工标注,可图形化查看。问答系统题集,6264句,问题类型标注,LTML、分词、词性、句法、词义、浅层语义等处理。 单文档自动文摘语料,211篇文章,分为不同的体裁,经过LTML、摘要句标注、分词、词性、句法、词义、浅层语义、文本分类、参考解析等程序处理。
16. 香港教育学院 LIVAC 汉语共时语料库
自1995年起,我们以“共时性”的方式处理了异常庞大的汉语语料,通过精湛的技术手段和大量精准统计数据的积累,建立了LIVAC(汉语言语社区语言变异)共时语料库。该语料库最显著的特点是采用“共时性”窗口模式,严格按一定时间间隔从多地采集定量的相似语料,可用于各种客观的比较研究,并促进相关信息技术的开发和应用。此外,该语料库还兼顾了“历时性”,便于各方客观观察和研究窗口内语言发展的代表性综合动态。
17. 汉语资源联盟
中文语言数据联盟(ChineseLDC)是一个吸引国内高校、科研机构和企业参与的开放语言资源联盟清华社英语在线平台,其宗旨是建设一个能够代表当前中文信息处理水平的通用中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需的各类语言资源,包括词典、语料、数据、工具等。在建设和收集语言资源的基础上,分发资源、推广统一的标准规范、向用户推荐,并建立中文信息处理领域关键技术的评估机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么低,是因为它是国家资助的项目,但没有免费资源。)
外语语料资源
1.杨百翰大学语料库
杨百翰大学马克·戴维斯教授开发的语料库统一检索平台整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC语料库、西班牙语语料库、葡萄牙语语料库等六个语料库的资源,网站每月有6万用户使用,可能是目前使用最广泛的在线语料库。
2. 联合国文献数据库
ODS 包含联合国自 1993 年以来发布的所有官方文件。但是,联合国的旧文件每天都会添加到系统中。ODS 还提供自 1946 年以来大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议的访问。ODS 不提供新闻稿、联合国出版物、联合国条约系列或新闻部发布的公共信息材料的访问。日本捐赠的 30,000 多份数字化文件已添加到 ODS。
3. 兰卡斯特汉语语料库(LCMC)
LCMC 语料库的建立是为了响应学术界对一个免费、均衡的现代汉语语料库的需求。LCMC 语料库是英国兰卡斯特大学语言学系开展的研究项目清华社英语在线平台,由英国经济和社会研究委员会资助(项目编号:RES-000-220135)。LCMC 语料库是弗莱堡-LOB 英国英语语料库(FLOB)的平行汉语语料库,可帮助我们进行汉语单语和英汉双语的比较研究。LCMC 语料库可通过上述网站免费供研究使用。
4.开放语言档案社区(OLAC)
开放语言档案社区(OLAC)是由个人或组织组成的国际合作协会。许多类型的协会都需要语言资源清华社英语在线平台,例如语言学家、工程师、教师和演讲者。也有许多提供零散架构的组织,例如文件管理员、软件开发人员和出版商。理论上,用户希望能够通过单一界面获取所需的任何资源,资源类型包括: ①数据:描述一种语言的任何相关信息; ②工具:帮助创建、浏览、查询或使用语言数据的计算机资源; ③建议:例如告诉用户哪些资源具有高可靠性?哪种工具适合这种情况?当有新数据衍生时如何创建? 但在现实中,存在诸如语言资源分散在不同网站上,用户无法获取想要的资源,语言资源在不同网站上名称不同导致召回率低,在其他领域含义相同导致准确率低,许多语言资源不是基于文本的,不确定是否有合适的软件进行推荐英语,推荐是否中肯等问题……OLAC 诞生了。
5.SKETCHENGINE多语言语料库
每个邮箱可以注册一次,免费期限为一个月,过了免费期限就换个邮箱再注册。中文语料是未经加工的生语料,利用价值不大,关键英语语料其实就是本来就需要付费才能使用的BNC,所以还是能用得上的。
6. 当代美国英语语料库(COCA)
美国当代英语语料库(COCA)由美国杨百翰大学马克·戴维斯教授开发,是目前世界上最大的平衡英语语料库,语料库规模高达3.6亿词。与其他语料库不同的是,它是免费的清华社英语在线平台,可以在网上供所有人使用,这给全世界的英语学习者带来了福音英语它是英语学习的一座不可多得的宝库,也是观察美国英语使用和变化的绝佳窗口。
(根据网上资源整理,国内语料已经测试可用,部分国外语料由于网络原因无法打开,仅供参考,欢迎留言交流。)
猜你喜欢
发表评论
评论列表