将 NLP 依赖树转换为二叉树?

Transforms of NLP dependency trees into binary trees?

Spacy(以及 Core NLP 和其他解析器)输出可以包含不同数量子项的依赖树。例如在spacy中,每个节点都有一个.lefts.rights关系(多个左分支和多个右分支):

模式模式匹配算法在其节点具有固定参数集的谓词树上工作时要简单得多(并且效率更高)。

是否有从这些多树到二叉树的标准转换?

例如,在此示例中,我们有 "publish",其中有两个 .lefts=[just, journal] 和一个 .right=[piece]。可以将这样的句子(通常)转换为严格的二叉树表示法(其中每个节点有 0 或 1 个左分支和 0 或 1 个右分支)而不会丢失太多信息,或者多树对于正确携带信息至关重要吗?

语言分析中有不同类型的树,immediate constituents and dependency trees(尽管您通常不会在依存语法中谈论 )。前者通常是二元的(尽管没有真正的理由必须如此),因为每个类别都分为两个子类别,例如

S -> NP VP
NP -> det N1
N1 -> adj N1 | noun

依赖关系在本质上通常不是二进制的,因此没有简单的方法将它们转换为二进制结构。唯一固定的约定是每个词都将完全依赖于另一个词,但它本身可能有多个依赖于它的词。

所以,答案基本上是"no"。