乔姆斯基层次结构——真实语言的例子
Chomsky hierarchy - examples with real languages
我试图通过使用一些真实的语言作为模型来理解乔姆斯基层次结构的四个级别。他认为所有自然语言都可以通过上下文无关文法生成,但Schieber反驳了这一理论,证明瑞士德语等语言只能通过上下文生成-敏感语法。由于乔姆斯基来自美国,我猜美国语言是上下文无关语法的一个例子。我的问题是:
- 是否有可以通过常规文法(类型 3)生成的语言?
- 既然递归可枚举语法可以生成所有语言,为什么不使用它呢?它们是否太复杂且线性度较低?
- 瑞士德语有什么特点无法通过上下文无关文法生成?
我认为这不是适合编程问题网站 Whosebug 的问题。但我会尽力解决它。
我不相信乔姆斯基曾经有过自然语言可以用 Type 2 文法来描述的印象。名词-动词一致(singular/plural)用 Type 2 文法表示也不是不可能,因为格数是有限的,但文法很别扭。但是自然语言还有更复杂的特征,通常涉及关于如何重新排列词序的特定规则,这些不能用简单的语法来捕捉。乔姆斯基希望第二层次的分析——“转换语法”——能够有用地捕捉这些重排规则,而不会使语法在计算上变得难以处理。这将需要找到适合类型 1 和类型 2 之间的某种系统化,因为类型 1 语法在计算上不易处理。
事实上,既然我们确实正确地解析了我们自己的语言,那么理所当然地需要一些计算算法。但这种推理实际上可能并不正确,因为我们可以解析的句子的复杂性是有限的。任何有限语言都是规则的(类型 3);只有具有无限数量的潜在句子的语言才需要更复杂的语法。因此,大量有限模式的集合足以理解自然语言。这些模式可能比正则表达式复杂得多,但只要每个模式仅适用于有限长度的句子,该模式就可以在数学上表示为正则表达式。 (最明显的是只列出所有可能的句子作为备选,如果可能的句子的数量是有限的,这就是一个正则表达式。但在很多情况下,这可能会被简化为更有用的东西。)
据我了解,现代使用所谓的“深度学习”处理自然语言的尝试本质上是基于通过神经网络进行的模式识别,尽管我没有深入研究该领域并且我确信在这个简单的描述中我跳过了很多并发症。
诺姆·乔姆斯基是美国人,但“美国人”不是一种语言 (y si fuera, podría ser castellano, hablado por la mayoría de los residentes de las Americas)。据我所知,他的第一语言是英语,但他不是by any means unilingual,虽然我不知道他会讲多少瑞士德语。当然,多年来一直有人批评他的理论带有印欧语系的偏见。当然,尽管我在瑞士生活了几年,但我并没有声称精通瑞士德语,但我确实阅读了 Shieber 的论文和一些后续文章,并与母语为瑞士德语的同事进行了讨论。 (意见分歧。)
基本问题与列表中的形态一致性有关。正如我前面提到的,许多语言(据我所知,所有印欧语系语言)都坚持动词形式与主语形式一致,因此单数主语需要单数动词,复数主语需要单数动词。复数动词。 [注1]
在许多语言中,形容词和名词之间也需要一致,这不仅是数量上的一致,还包括语法性别上的一致(如果适用)。此外,许多语言要求特定动词与动词宾语的冠词或形容词一致。 [注2]
简单的约定可以用context-free (Type 2)文法来处理,但是有很大的限制。简单来说,上下文无关文法只能处理括号结构。即使有不止一种类型的括号,这也可以工作,因此上下文无关文法可以坚持 [
与 ]
匹配,而不是 )
。但是语法必须具有这种“由内而外”的形式:匹配符号的顺序必须与被匹配的符号相反。
这样做的一个结果是 回文 有一个上下文无关的语法——在两个方向上读起来相同的句子,这实际上意味着它们由一个短语组成其次是它的逆转。但是 duplications 没有上下文无关语法:一种由重复短语组成的语言。回文中,匹配词与匹配词的顺序相反;一式两份,它们的顺序相同。因此差异。
自然语言中的协议大多遵循这种模式,一些例外情况可以通过设定简单的规则来重新排序有限数量的短语 -- 乔姆斯基的转换语法来处理。但瑞士德语至少有一种情况,协议不是括号,而是顺序相同。 [注3] 这涉及到德语中很多句子都是主宾动词的特点,当动词有间接宾语时,可以引申为主宾宾宾宾...Verb Verb Verb...。 Shieber 展示了一些例子,其中宾语一致是有序的,即使有中间短语。
一般情况下,这样的“跨序列协议”是无法用上下文无关文法来表达的。但是有一个巨大的潜在假设:同意系列的长度实际上是无限的。另一方面,如果实际常用的模式数量有限,上面提到的“深度学习”模型肯定能够处理它。
(我想说的是,我在这里并不是在为深度学习背书。事实上,“人工智能”的“训练”方式涉及到培训师的使用,他们的文化偏见可能还没有被充分理解。这可能很容易导致我在第一个脚节点中提到的同样不幸的后果。)
备注
正如 Whorf 指出的那样,许多美国本土语言的情况并非如此。在那些语言中,使用带有复数名词的单数动词意味着该行为是集体采取的,而使用复数动词则意味着该行为是单独采取的。粗略地转录成英语,“The dogs 运行”将是关于一群独立地 运行 朝不同方向前进的狗,而“The dogs 运行s”将是关于一包狗狗都 运行 在一起。一些将自己的语言偏见强加于母语的欧洲“教师”未能正确理解这种区别,并得出结论认为美洲原住民一定是太原始了,连自己的语言都不会“正确”地讲;为了“纠正”这种“缺陷”,他们试图消除语言中的区别,在某些情况下取得了成功。
这些英语中没有的规则是一些说英语的人被学习德语折磨的原因之一。我说的是亲身经历。
有序协议,与括号协议相反,称为 cross-serial dependency。
我试图通过使用一些真实的语言作为模型来理解乔姆斯基层次结构的四个级别。他认为所有自然语言都可以通过上下文无关文法生成,但Schieber反驳了这一理论,证明瑞士德语等语言只能通过上下文生成-敏感语法。由于乔姆斯基来自美国,我猜美国语言是上下文无关语法的一个例子。我的问题是:
- 是否有可以通过常规文法(类型 3)生成的语言?
- 既然递归可枚举语法可以生成所有语言,为什么不使用它呢?它们是否太复杂且线性度较低?
- 瑞士德语有什么特点无法通过上下文无关文法生成?
我认为这不是适合编程问题网站 Whosebug 的问题。但我会尽力解决它。
我不相信乔姆斯基曾经有过自然语言可以用 Type 2 文法来描述的印象。名词-动词一致(singular/plural)用 Type 2 文法表示也不是不可能,因为格数是有限的,但文法很别扭。但是自然语言还有更复杂的特征,通常涉及关于如何重新排列词序的特定规则,这些不能用简单的语法来捕捉。乔姆斯基希望第二层次的分析——“转换语法”——能够有用地捕捉这些重排规则,而不会使语法在计算上变得难以处理。这将需要找到适合类型 1 和类型 2 之间的某种系统化,因为类型 1 语法在计算上不易处理。
事实上,既然我们确实正确地解析了我们自己的语言,那么理所当然地需要一些计算算法。但这种推理实际上可能并不正确,因为我们可以解析的句子的复杂性是有限的。任何有限语言都是规则的(类型 3);只有具有无限数量的潜在句子的语言才需要更复杂的语法。因此,大量有限模式的集合足以理解自然语言。这些模式可能比正则表达式复杂得多,但只要每个模式仅适用于有限长度的句子,该模式就可以在数学上表示为正则表达式。 (最明显的是只列出所有可能的句子作为备选,如果可能的句子的数量是有限的,这就是一个正则表达式。但在很多情况下,这可能会被简化为更有用的东西。)
据我了解,现代使用所谓的“深度学习”处理自然语言的尝试本质上是基于通过神经网络进行的模式识别,尽管我没有深入研究该领域并且我确信在这个简单的描述中我跳过了很多并发症。
诺姆·乔姆斯基是美国人,但“美国人”不是一种语言 (y si fuera, podría ser castellano, hablado por la mayoría de los residentes de las Americas)。据我所知,他的第一语言是英语,但他不是by any means unilingual,虽然我不知道他会讲多少瑞士德语。当然,多年来一直有人批评他的理论带有印欧语系的偏见。当然,尽管我在瑞士生活了几年,但我并没有声称精通瑞士德语,但我确实阅读了 Shieber 的论文和一些后续文章,并与母语为瑞士德语的同事进行了讨论。 (意见分歧。)
基本问题与列表中的形态一致性有关。正如我前面提到的,许多语言(据我所知,所有印欧语系语言)都坚持动词形式与主语形式一致,因此单数主语需要单数动词,复数主语需要单数动词。复数动词。 [注1]
在许多语言中,形容词和名词之间也需要一致,这不仅是数量上的一致,还包括语法性别上的一致(如果适用)。此外,许多语言要求特定动词与动词宾语的冠词或形容词一致。 [注2]
简单的约定可以用context-free (Type 2)文法来处理,但是有很大的限制。简单来说,上下文无关文法只能处理括号结构。即使有不止一种类型的括号,这也可以工作,因此上下文无关文法可以坚持 [
与 ]
匹配,而不是 )
。但是语法必须具有这种“由内而外”的形式:匹配符号的顺序必须与被匹配的符号相反。
这样做的一个结果是 回文 有一个上下文无关的语法——在两个方向上读起来相同的句子,这实际上意味着它们由一个短语组成其次是它的逆转。但是 duplications 没有上下文无关语法:一种由重复短语组成的语言。回文中,匹配词与匹配词的顺序相反;一式两份,它们的顺序相同。因此差异。
自然语言中的协议大多遵循这种模式,一些例外情况可以通过设定简单的规则来重新排序有限数量的短语 -- 乔姆斯基的转换语法来处理。但瑞士德语至少有一种情况,协议不是括号,而是顺序相同。 [注3] 这涉及到德语中很多句子都是主宾动词的特点,当动词有间接宾语时,可以引申为主宾宾宾宾...Verb Verb Verb...。 Shieber 展示了一些例子,其中宾语一致是有序的,即使有中间短语。
一般情况下,这样的“跨序列协议”是无法用上下文无关文法来表达的。但是有一个巨大的潜在假设:同意系列的长度实际上是无限的。另一方面,如果实际常用的模式数量有限,上面提到的“深度学习”模型肯定能够处理它。
(我想说的是,我在这里并不是在为深度学习背书。事实上,“人工智能”的“训练”方式涉及到培训师的使用,他们的文化偏见可能还没有被充分理解。这可能很容易导致我在第一个脚节点中提到的同样不幸的后果。)
备注
正如 Whorf 指出的那样,许多美国本土语言的情况并非如此。在那些语言中,使用带有复数名词的单数动词意味着该行为是集体采取的,而使用复数动词则意味着该行为是单独采取的。粗略地转录成英语,“The dogs 运行”将是关于一群独立地 运行 朝不同方向前进的狗,而“The dogs 运行s”将是关于一包狗狗都 运行 在一起。一些将自己的语言偏见强加于母语的欧洲“教师”未能正确理解这种区别,并得出结论认为美洲原住民一定是太原始了,连自己的语言都不会“正确”地讲;为了“纠正”这种“缺陷”,他们试图消除语言中的区别,在某些情况下取得了成功。
这些英语中没有的规则是一些说英语的人被学习德语折磨的原因之一。我说的是亲身经历。
有序协议,与括号协议相反,称为 cross-serial dependency。