英语词典是工具书转型的一个缩影。 它经历了什么,又会变成什么?
年代开始,主导了在线牛津英语词典项目和第二版牛津英语词典的编撰增补工作。年进入牛津英语词典编辑部工作。我们开始注意到万维网和互联网所带来的可能性——它能够改变我们一直以来使用的传统词典搜索和出版方式。“挑选牛津高阶来做我们数字化出版的一次试水,是因为这本词典一直以来的销售都比较稳定。...
你最后一次打开纸质字典是什么时候?
1857年,一个叫做“语言协会”的英国教会的少数成员能买到的词典,不仅词条少得可怜,而且还收录了一些生僻的英文单词。 于是,他们决定发起一个英语词典编纂项目。
1933年,历时71年编纂的第一版牛津英语词典(OED)正式出版。 其中,前22年为筹备工作(1857年至1879年),实际编辑的49年(1879年至1928年),共有4位主编,编辑团队招募了约1300名志愿者提供报价。 OED 的第四任主编 James Murray 不得不在牛津大学旁边搭建了一个小型“图书馆柜”来收集这些雪花词条。
詹姆斯·默里博士。 图片来自:牛津词典博客
不到一个世纪后的 2010 年,OED 编委会宣布,代表当代英语语言权威的 OED 第三版很可能不再出版纸质版。
OED 第一版。 图片来自:Bauman Rare Books
OED 第二版。 图片来自:Centered Librarian
消息一出,除了一些感叹的声音外,更多的人都觉得没什么大不了的。 对于习惯生活在互联网和智能移动设备环境中的现代人来说,“查词”的行为早已从翻纸质词典转变为将图像、语音、文字输入电脑或手机。 几秒钟后韦氏国际英语在线词典,你就能得到相应的答案。
主持牛津英语词典数字化的人是约翰·辛普森,他曾于 1993 年至 2013 年担任牛津英语词典的主编。
准确的说法应该是:这位英国人在80年代见证了OED语料库的数字化进程,并从1990年代开始主导在线牛津英语词典项目和牛津英语词典第二版的编增补。
1976年,毕业于英国雷丁大学中世纪研究专业的约翰·辛普森从1976年开始在牛津英语词典编辑部担任索引卡片分类助理。 如果你看过一部由同名漫画改编的电影《周记》,你可能会对索引卡有更直观的认识。 在词典编纂者普遍使用计算机录入数据之前,索引卡是词典编纂者最重要的语料库收集工具。 这些是一张一张的小卡片,每张卡片上都写着一个词和这个词的意思。
Merriam-Webster 编辑部存放的索引卡。 图片来自:波士顿环球报
在OED的编纂过程中,每一个词都要经过收录、书写、校对、反复校对的过程,才能进入辞典。 在OED编辑部,负责编纂词条的编辑分为四类:普通词条、科学词条、生词词条、日耳曼语和法文词条。 频率,以及国际流动性等来决定这个词是否有资格被收录。 在写作过程中,剪辑组也会产生更细化的分工——比如会有剪辑师进行录音,通过电视、电影、广播等渠道记录并验证每个词的发音。
这种做法已经持续了一百多年——编辑和研究人员在巨大的图书馆里走来走去,从报纸到报纸或古书英语,查找每个单词历史的每一个微小足迹。 然后恭恭敬敬地排列在薄纸上,供字典使用。
但对于约翰·辛普森来说,他恰好站在时代变迁的十字路口。
“早在 1989 年,OED 第二版出版时,我们就开始从印刷材料中收集数据并将其输入计算机。 (牛津大学出版社雇佣了120名打字员,用了18个月的时间翻译了6700万字符的OED版本,全部录入了电脑,采用了基本的标签语言结构)当时,我们的探索重点是建立一个庞大的电子数据库。 20世纪90年代,数据库的总体结构形成后,世界再次发生变化。 我们开始关注万维网和互联网带来的可能性——它可能会改变我们传统上搜索和发布词典的方式。” 辛普森在他的回忆录《文字侦探:文字中的一生:从意外发现到自拍》中写道。
由于编纂辞典的特殊性,类似于“信息工匠”的编辑是电子数据库技术的早期实践者。 Simpson 说,自 1980 年代以来,词典编辑就开始使用 Lexis/Nexis 美国报纸数据库。 他们逐渐习惯了使用台式电脑搜索语料库和录入数据。
1995年,OED团队开始使用密歇根大学开发的Making of America在线数据库韦氏国际英语在线词典学英语,该数据库将美国早期书籍和杂志的信息存储在密歇根大学的数据库中。 这也是 OED 编辑从 CD 格式数据库转向在线数据库的时候。
2000 年,辛普森和他的团队正式将 OED 上线。 从那时起,对词条的编辑增补和修订已在线提供,人们可以订阅最新的 OED 词条。
基于网络的 OED 于 2000 年推出。图片来自:ARIADNC
“当你了解一个词时,你就会感觉到最终产品会是什么样子。每个词都是一首诗——小到莎士比亚的十四行诗,大到像乔伊斯的尤利西斯。但是当在计算机上编译词典时,我们越来越多地意识到我们不应该真正专注于单个词,像“语言”这样的单个词 A brick on a collage. 在我们现在能够构建的语言网络中,你可以比旧的更清楚地看到词之间的密切关系天。” 2013年,约翰·辛普森接受了《时代》杂志的采访。
那么,载入图书馆的纸质资料会不会随着电子数据的建立而消亡呢? 约翰辛普森也问过自己这个问题。
他很快发现,这种担心似乎是多余的,因为虽然电子数据库可以帮助编辑找到比以前多得多的信息,但并不能真正提高条目编译的速度。 一方面,其实人们并没有看到那么多信息; 网上资料的不准确也会给审核过程带来麻烦。 “有时候,”辛普森说,“你仍然需要依靠纯粹的人力和书架深处足智多谋的研究人员才能找到问题的根源。这两种验证方法可以同时存在。”
牛津英汉词典的应用程序是在一位名叫刘浩先的华人倡议下完成的。
刘浩然在香港牛津大学出版社工作了 16 年。 刚加入公司时,他负责英汉词典的编辑助理。 现为《牛津英汉词典》主编,牛津大学出版社大中华区Cibook出版总监。
就在约翰·辛普森即将退休之际,刘浩先和他的团队负责将《牛津高等英汉词典(第七版)》做成APP。
图片来自:当当网
“选择 Oxford Higher Level 来试水我们的数字出版,因为这本词典的销量一直相对稳定。” 刘浩贤告诉《好奇日报》。
2011年前后,刘浩贤代表牛津大学出版社和商务印书馆提出了做APP的想法。 由于互联网和搜索引擎的介入,全世界纸质词典的销量已经进入了快速下滑的状态,亟待改变。
当时,牛津大学出版社已经具备了生产和开发一些相关数字产品的基础,包括向一些电子产品制造商授权内容。 典型案例是1990年代后期与日本卡西欧合作推出的电子词典。 它大大简化了人工查词的过程,同时在小册子中详尽录入了十余部不同版本、不同用途的词典。
但他仍然不得不面对这样一个现实:整个词典编辑团队对开发应用程序的过程一无所知。
不仅如此韦氏国际英语在线词典,刘浩贤的App提案从一开始就遭到各方阻挠。 由于电子书的读者群仍不明朗,各家出版社对新兴的数字出版业务没有信心。 另一方面,100多年来,纸质词典已经形成了完整的营销渠道和参考标准,但App应该卖给谁呢? 如何推广? 没人知道。
“正是这些不熟悉,导致所有合作伙伴在提案初期都对其持谨慎态度。” 刘浩先说:“唯一可以参考的标准就是那些打榜靠前的软件,所以我们一个一个下载下来研究,这些软件有什么缺点,我们能做什么,能做什么?” “我们能不做吗?一些编辑甚至因为这个项目得到了他们的第一部智能手机。”
另一个让刘浩贤倍感压力的因素是,词典软件的盈利模式尚未明确。
在整个APP开发计划敲定的前夕,老板问了他两个问题:现在做数字版对纸质出版有什么影响? 这个数字版能赚多少钱?
“我当时并没有想太多。” 刘浩贤回忆说:“我当时的回答是:第一,不要把数字版的发布看成是对纸质版的打击,因为数字版的使用和纸质版是不一样的。。数字版是一个全新的机会——找到新的读者,并且,给老读者带来新的内容。第二个问题英语词典是工具书转型的一个缩影。 它经历了什么,又会变成什么?,我不能告诉你我们能赚多少钱,但我可以告诉你我们最多能损失多少钱是损失我们编程和开发的成本。”
刘浩先当时认为这个答案并不完美,好在他的计划没有因此而草草否决。 更让他欣慰的是,牛津高端App上线两个月后的销量让出版社收回了开发成本,并在打折季的一次营销活动中英语培训,进入了软件销量榜单。香港苹果专卖店。 7号。
牛津高级英汉词典应用程序(第 8 版)。 图片来自:Apple Store
刘浩贤将这一成功归功于“顺应时代发展的实践”。 再加上牛津词典此前建立的良好口碑,使其得到众多教育机构和专业出版社的推荐。
牛津高级英汉词典App其实和现在大家喜欢的在线词典软件不太一样,虽然两者都接入了专业词典出版商的语料库。 以网易旗下有道词典为例。 它的词库包括柯林斯英汉词典、21世纪英汉词典,甚至维基百科上的内容。 当你查找一个词时,你可以从这些数据库中得到不同的解释,以及搜索引擎提供的英语例句。
与此相比,传统词典出版社建立的语料库所能提供的解释范围因此受到一定程度的限制。
首先韦氏国际英语在线词典,App中的内容来自牛津英语词典的语料库。 语料库的标签结构决定了App可以提供的查词功能和释义范围。 编辑和工程师在制作词典内容时,很大程度上受限于语料库中每条信息的标签。
与上世纪90年代约翰·辛普森的电子数据库相比,刘浩先反复提到的OED语料库(语料库)已经是经过编辑和工程师们不断完善,收录了数十亿词的庞大数据库。 它收集来自不同媒体的语料库,包括报纸、杂志、文学作品、广播录音、戏剧对话等。记录每个语料库的来源,包括时间、地点和来源。 编辑通过分析语料库的内容来编写词条——根据词的使用频率、出现时间、国际流动性等决定是否收录词条,分析词义并写出词条。 样例也是从语料库中选取的,保证是真实的使用记录。 编辑通常更喜欢选择组织良好且语法符号化的语料库。
其实字典、电子词典、内容授权都是这个语料库支持的前端产品。 它曾经是默里的一家小书店。 现在,语料库让我们在国外快速旅行时,可以在几秒钟内了解菜单上的菜名。
同样在语料库的支持下,除了传统意义上的词典开发,牛津大学出版社还有广泛的内容授权对象——包括与苹果、谷歌、腾讯等科技公司的内容合作。
“此外,我们还在建设一个收集不同语言的学术项目。” 刘浩贤最后提到:“我们现在说的是中英语词典,但是牛津还有其他不同国家和地区的词典项目。我们还在计划建设一个大型的多语种数据库,未来不会只能生产词典、电子词典和翻译软件,但它也将成为牛津大学出版社制定的语言保护计划的一部分。我们的目标是收集一百种不同的语言。”
题图来自:Examining the OED
TED 还谈到了人与机器之间的冲突。 他们在说什么? | TED 2017 现场报道
LVMH将以65亿欧元收购Dior。 这个拥有70年历史的品牌卖什么?
拥有13000家门店和12个女鞋品牌的百丽集团可能会以低价出售。 为什么百货公司一楼的老式女鞋已经买不到了?
猜你喜欢
发表评论
评论列表