【重磅】谷歌开源全球最准确的自然语言解析器SyntaxNet
Research今天宣布,世界准确度最高的自然语言解析器SyntaxNet开源。据介绍,谷歌在该平台上训练的模型的语言理解准确率超过90%。建立于强大的机器学习算法,可以学会分析句子的语言结构,能解释特定句子中每一个词的功能。一个自然语言句法分析器必须能够搜索所有这些结构选择,并找到给定语境下最合理的那个结构。...
编译:胡湘杰 朱焕
【新智元指南】Google Research 今日宣布,全球最准确的自然语言解析器 SyntaxNet 开源。 谷歌在开源方面更进了一步。 据介绍在线智能英语句子分析器,谷歌在该平台上训练的模型语言理解准确率超过90%。 近期,众多科技巨头的人工智能相关平台开源步伐明显加快:谷歌和Facebook一直处于领先地位,马斯克的OpenAI想要打造一个完全开放的AI模型训练营,甚至还有亚马逊,被批评为“保守”,也在努力开源。 这波开源热潮的背后,是人工智能研究者的福利,但也是一场数据和平台的激烈争夺战。
Google Ambient Computing 架构师 Yonatan Zunger 表示:事实上,语言理解被我们认为是“AI 的终极任务”。 要解决这个问题,前提是能够解决所有人类级别的人工智能问题。
机器对语言的理解可以分为几个步骤,很多不确定性正在逐渐清晰(语音识别的不确定性比较多学英语,因为要解决从声音到文字的转换)。 第一步是把单词分开,放到依存关系树上【重磅】谷歌开源全球最准确的自然语言解析器SyntaxNet,看看哪个单词是动词,它对名词有什么作用等等。 然后,理解每个名字的含义。 再次,补充很多先验知识,也就是对世界的理解,因为很多句子只有利用这些信息才能真正理解。 如果你幸运的话,你会在这里得到一个清晰的认识。
谷歌高级研究科学家斯拉夫彼得罗夫在谷歌研究博客上写道:在谷歌,我们花了很多时间思考,计算机系统如何阅读和理解人类语言,并以更智能的方式处理这些语言方式? 今天,我们很高兴能与更广泛的受众分享我们的研究成果并发布 SyntaxNet。 这是一个在 TensoFlow 中运行的开源神经网络框架,为自然语言理解系统提供了基础。 我们的披露包含根据您自己的数据训练新 SyntaxNet 模型所需的所有代码,以及 Paesey McParseface——我们经过训练的分析英语文本的模型。
Paesey McParseface 建立在强大的机器学习算法之上,可以学习分析句子的语言结构并解释给定句子中每个单词的功能。 在这些模型中,Paesey McParseface 是世界上最准确的模型,我们希望他能帮助对自动信息提取、翻译和其他自然语言理解 (NLU) 应用感兴趣的研究人员和开发人员。
SyntaxNet 是如何工作的?
SyntaxNet是一个框架,学术界所说的SyntacticParser学英语,是很多NLU系统中的关键组件。 在本系统中输入一个句子,它会自动给句子中的每个单词打上POS(part-of-Speech)标签,描述这些单词的句法功能,并呈现在依存句法树中。 这些句法关系直接关系到句子的潜在含义。
作为一个非常简单的例子,看看下面这句话“Alice saw Bob”的依存句法树:
在这个结构中,Alice 和 Bob 被编码为名词,而 Saw 是一个动词。 只要动词saw是句根,Alice就是saw的主语,Bob就是直接宾语(dobj)。 正如预期的那样,Paesey McParseface 可以正确解析这句话,并理解以下更复杂的示例:
句子:一直在阅读有关 SynataxNet 的 Alice 昨天在走廊里看到了 Bob
在这句话的编码中,Alice和Bob分别是saw的主语和宾语,Alice被带有动词“reading”的关系从句修饰,saw被时态“yesterday”修饰。 依存句法树中的语法关系让我们很容易找到不同问题的答案,例如,爱丽丝看到了谁? 谁看见鲍勃了? 爱丽丝在读什么? 或者当爱丽丝看到鲍勃时。
为什么让计算机正确处理句法分析如此困难?
使句法分析如此困难的一个主要问题是人类语言非常模棱两可。 20 到 30 个单词的中等长度句子具有数百、数千甚至数万种可能的句法结构并不少见。 自然语言解析器必须能够搜索所有这些结构选择,并找到在给定上下文中最有意义的选择。 作为一个非常简单的例子在线智能英语句子分析器,“Alice drive down the streetin her car”这句话至少有两种可能的依赖分析:
第一个分析对应于对句子的(正确的)解释,根据该解释,爱丽丝开着一辆汽车在街上; 第二个对应于一种(荒谬但仍然可能的)解释,根据这种解释,爱丽丝在街上开车,而街道在车内。 出现歧义是因为介词“in”可以与“drive”和“street”一起使用。 上面的例子是所谓的“介词短语附加歧义”的一个例子。
人类非常擅长处理歧义,以至于人们甚至不会注意到句子中的歧义。 而这里的挑战是如何让计算机也能做到这一点。 长句中的多重歧义共同导致句子可能结构数量的组合爆炸。 总的来说,这些构造中的绝大多数都是极不合理的,但它们仍然是可能的,解析器不得不以某种方式丢弃它们。
SyntaxNet 将神经网络应用于歧义问题。 输入语句从左到右处理。 随着句子中每个单词的处理,单词到单词的依赖性会逐渐增加。 由于模棱两可,过程中的每个点都有多个可能的决定在线智能英语句子分析器,神经网络会根据这些相互竞争的决定的合理性为它们分配分数。 因此,在此模型中使用 Beam Search 很重要。 不是在每个时间点直接做出最优决策,而是在每个步骤保留多个部分假设。 只有当存在多个得分较高的假设时,才会丢弃一个假设。 下图将通过从左到右的决策过程展示对句子“I booked a ticket to Google”的简单句法分析。
而且,正如我们在论文中所描述的那样,将学习和搜索紧密结合以实现最高的预测准确性非常重要。 Parsey McParseface 和其他 SyntaxNet 模型是我们使用 Google 的 TensorFlow 框架训练过的一些最复杂的网络结构。 您还可以使用 Google 支持的 Universal Treebanks 项目中的数据在您自己的机器上训练解析模型。
Parsey McParseface 的准确性如何?
在对随机抽取的英语新闻句子(来自拥有二十年历史的 Penn Treebank)进行的标准测试中,Parsey McParseface 在提取单词之间的个体依赖性方面的准确率超过 94%,超过了我们之前的最高水平在线智能英语句子分析器,也超过了之前的任何方法。 尽管文献中没有关于人类语法分析性能的明确研究,但我们从我们的内部句法注释项目中得知,接受过这项任务培训的语言学家在 96-97% 的情况下是一致的。 这表明我们正在接近人类表现——但仅限于格式良好的文本。 根据我们从 Google WebTreebank(Google Network Treebank,2011 年发布)了解到的情况,从互联网上获取的句子要分析起来要困难得多。 在这个网络数据集上,Parsey McParseface 的解析准确率刚刚超过 90%。
虽然精度并不完美英语,但它足以用于许多应用程序。 目前,主要的错误来源是像上面描述的介词短语附加歧义这样的情况,这需要真实世界的知识(例如,“街道不太可能在车内”)和深度上下文推理。 机器学习(尤其是神经网络)在解决这些歧义方面取得了显着进步。 我们还想走得更远:我们想开发既能学习真实世界知识,又能在所有语言和语境中实现同样出色的自然语言理解的方法。
要尝试一下,请阅读 SyntaxNet 的代码。 并下载 Parsey McParseface 语法分析模型。 主要开发人员 Chris Alberti、David Weiss、Daniel Andor、Michael Collins 和 Slav Petrov 祝您成功。
“招聘”
全职记者、编辑和活动运营商
欢迎实习生
和AI翻译机构志愿者
更多信息请进入公众号点击“招聘”
或电邮至
猜你喜欢
发表评论
评论列表