【重磅】谷歌开源全球最准确的自然语言解析器SyntaxNet

时间：2023-02-20 22:17:03 阅读：次来源：网络整理

Research今天宣布，世界准确度最高的自然语言解析器SyntaxNet开源。据介绍，谷歌在该平台上训练的模型的语言理解准确率超过90%。建立于强大的机器学习算法，可以学会分析句子的语言结构，能解释特定句子中每一个词的功能。一个自然语言句法分析器必须能够搜索所有这些结构选择，并找到给定语境下最合理的那个结构。...

编译：胡湘杰朱焕

【新智元指南】Google Research 今日宣布，全球最准确的自然语言解析器 SyntaxNet 开源。谷歌在开源方面更进了一步。据介绍在线智能英语句子分析器，谷歌在该平台上训练的模型语言理解准确率超过90%。近期，众多科技巨头的人工智能相关平台开源步伐明显加快：谷歌和Facebook一直处于领先地位，马斯克的OpenAI想要打造一个完全开放的AI模型训练营，甚至还有亚马逊，被批评为“保守”，也在努力开源。这波开源热潮的背后，是人工智能研究者的福利，但也是一场数据和平台的激烈争夺战。

在线智能英语句子分析器_拍照在线读英语朗读器_双色球智能选号器在线

Google Ambient Computing 架构师 Yonatan Zunger 表示：事实上，语言理解被我们认为是“AI 的终极任务”。要解决这个问题，前提是能够解决所有人类级别的人工智能问题。

机器对语言的理解可以分为几个步骤，很多不确定性正在逐渐清晰（语音识别的不确定性比较多学英语，因为要解决从声音到文字的转换）。第一步是把单词分开，放到依存关系树上【重磅】谷歌开源全球最准确的自然语言解析器SyntaxNet，看看哪个单词是动词，它对名词有什么作用等等。然后，理解每个名字的含义。再次，补充很多先验知识，也就是对世界的理解，因为很多句子只有利用这些信息才能真正理解。如果你幸运的话，你会在这里得到一个清晰的认识。

谷歌高级研究科学家斯拉夫彼得罗夫在谷歌研究博客上写道：在谷歌，我们花了很多时间思考，计算机系统如何阅读和理解人类语言，并以更智能的方式处理这些语言方式？今天，我们很高兴能与更广泛的受众分享我们的研究成果并发布 SyntaxNet。这是一个在 TensoFlow 中运行的开源神经网络框架，为自然语言理解系统提供了基础。我们的披露包含根据您自己的数据训练新 SyntaxNet 模型所需的所有代码，以及 Paesey McParseface——我们经过训练的分析英语文本的模型。

Paesey McParseface 建立在强大的机器学习算法之上，可以学习分析句子的语言结构并解释给定句子中每个单词的功能。在这些模型中，Paesey McParseface 是世界上最准确的模型，我们希望他能帮助对自动信息提取、翻译和其他自然语言理解 (NLU) 应用感兴趣的研究人员和开发人员。

SyntaxNet 是如何工作的？

SyntaxNet是一个框架，学术界所说的SyntacticParser学英语，是很多NLU系统中的关键组件。在本系统中输入一个句子，它会自动给句子中的每个单词打上POS（part-of-Speech）标签，描述这些单词的句法功能，并呈现在依存句法树中。这些句法关系直接关系到句子的潜在含义。

作为一个非常简单的例子，看看下面这句话“Alice saw Bob”的依存句法树：

在线智能英语句子分析器_双色球智能选号器在线_拍照在线读英语朗读器

在这个结构中，Alice 和 Bob 被编码为名词，而 Saw 是一个动词。只要动词saw是句根，Alice就是saw的主语，Bob就是直接宾语（dobj）。正如预期的那样，Paesey McParseface 可以正确解析这句话，并理解以下更复杂的示例：

双色球智能选号器在线_在线智能英语句子分析器_拍照在线读英语朗读器

句子：一直在阅读有关 SynataxNet 的 Alice 昨天在走廊里看到了 Bob

在这句话的编码中，Alice和Bob分别是saw的主语和宾语，Alice被带有动词“reading”的关系从句修饰，saw被时态“yesterday”修饰。依存句法树中的语法关系让我们很容易找到不同问题的答案，例如，爱丽丝看到了谁？谁看见鲍勃了？爱丽丝在读什么？或者当爱丽丝看到鲍勃时。

为什么让计算机正确处理句法分析如此困难？

使句法分析如此困难的一个主要问题是人类语言非常模棱两可。 20 到 30 个单词的中等长度句子具有数百、数千甚至数万种可能的句法结构并不少见。自然语言解析器必须能够搜索所有这些结构选择，并找到在给定上下文中最有意义的选择。作为一个非常简单的例子在线智能英语句子分析器，“Alice drive down the streetin her car”这句话至少有两种可能的依赖分析：

拍照在线读英语朗读器_在线智能英语句子分析器_双色球智能选号器在线

拍照在线读英语朗读器_双色球智能选号器在线_在线智能英语句子分析器

第一个分析对应于对句子的（正确的）解释，根据该解释，爱丽丝开着一辆汽车在街上；第二个对应于一种（荒谬但仍然可能的）解释，根据这种解释，爱丽丝在街上开车，而街道在车内。出现歧义是因为介词“in”可以与“drive”和“street”一起使用。上面的例子是所谓的“介词短语附加歧义”的一个例子。

人类非常擅长处理歧义，以至于人们甚至不会注意到句子中的歧义。而这里的挑战是如何让计算机也能做到这一点。长句中的多重歧义共同导致句子可能结构数量的组合爆炸。总的来说，这些构造中的绝大多数都是极不合理的，但它们仍然是可能的，解析器不得不以某种方式丢弃它们。

SyntaxNet 将神经网络应用于歧义问题。输入语句从左到右处理。随着句子中每个单词的处理，单词到单词的依赖性会逐渐增加。由于模棱两可，过程中的每个点都有多个可能的决定在线智能英语句子分析器，神经网络会根据这些相互竞争的决定的合理性为它们分配分数。因此，在此模型中使用 Beam Search 很重要。不是在每个时间点直接做出最优决策，而是在每个步骤保留多个部分假设。只有当存在多个得分较高的假设时，才会丢弃一个假设。下图将通过从左到右的决策过程展示对句子“I booked a ticket to Google”的简单句法分析。

双色球智能选号器在线_在线智能英语句子分析器_拍照在线读英语朗读器

而且，正如我们在论文中所描述的那样，将学习和搜索紧密结合以实现最高的预测准确性非常重要。 Parsey McParseface 和其他 SyntaxNet 模型是我们使用 Google 的 TensorFlow 框架训练过的一些最复杂的网络结构。您还可以使用 Google 支持的 Universal Treebanks 项目中的数据在您自己的机器上训练解析模型。

Parsey McParseface 的准确性如何？

在对随机抽取的英语新闻句子（来自拥有二十年历史的 Penn Treebank）进行的标准测试中，Parsey McParseface 在提取单词之间的个体依赖性方面的准确率超过 94%，超过了我们之前的最高水平在线智能英语句子分析器，也超过了之前的任何方法。尽管文献中没有关于人类语法分析性能的明确研究，但我们从我们的内部句法注释项目中得知，接受过这项任务培训的语言学家在 96-97% 的情况下是一致的。这表明我们正在接近人类表现——但仅限于格式良好的文本。根据我们从 Google WebTreebank（Google Network Treebank，2011 年发布）了解到的情况，从互联网上获取的句子要分析起来要困难得多。在这个网络数据集上，Parsey McParseface 的解析准确率刚刚超过 90%。

虽然精度并不完美英语，但它足以用于许多应用程序。目前，主要的错误来源是像上面描述的介词短语附加歧义这样的情况，这需要真实世界的知识（例如，“街道不太可能在车内”）和深度上下文推理。机器学习（尤其是神经网络）在解决这些歧义方面取得了显着进步。我们还想走得更远：我们想开发既能学习真实世界知识，又能在所有语言和语境中实现同样出色的自然语言理解的方法。

要尝试一下，请阅读 SyntaxNet 的代码。并下载 Parsey McParseface 语法分析模型。主要开发人员 Chris Alberti、David Weiss、Daniel Andor、Michael Collins 和 Slav Petrov 祝您成功。

“招聘”

全职记者、编辑和活动运营商

欢迎实习生

和AI翻译机构志愿者

更多信息请进入公众号点击“招聘”

或电邮至

拍照在线读英语朗读器_双色球智能选号器在线_在线智能英语句子分析器