词汇量和复杂度之间的关系

Relationship between vocab size and complexity

我有 2 个语料库,如果一个的词汇量比另一个大,是否意味着它的语言更复杂?

除了语言的复杂性,还有什么会影响语料库中词汇量的大小?

没有。语言不仅仅包含词汇。如果语法结构复杂,那么即使是较小的词汇量也可能导致非常复杂的句子。

为了正确回答第二部分,您需要首先定义 'complexity' 的确切含义。这不是一个可以轻易量化的衡量标准(例如,句子长度)。

大多数阅读理解测量结合了单词和句子的长度,假设更长的单词和更长的句子更难理解;然而,较短的单词往往具有更多不同的含义,如果从上下文中不清楚它们的含义,则可能更难理解。

澄清后更新:词汇表的大小取决于多种因素,例如:

  1. 作者的活跃词汇量:如果我用我的母语(我的词汇量很大)写一篇文章,我在里面使用的不同单词的数量会更多。如果我用我不知道那么多单词的外语写,它当然会更小
  2. 语言本身:有点反常,但由于其历史,英语的词汇量比其他一些语言大得多。有很多near-synonyms,所以使用更多不同的词更容易。其他语言更受限制。
  3. 主题:这可能是最大的因素,因为非常有限的技术主题会导致词汇量更加有限。维基百科一般使用的词范围很广,但如果只拿动物的文章,词汇会比较局限。
  4. 风格:与(1)类似,我的写作方式对词汇量有影响。通过限制我的词汇量,我可以使文本更 'plain'(并留给 reader 的想象力)。

除了 Oliver 提到的以外,根据我的专业经验,语料库中词汇量的大小通常取决于以下因素:

  1. 您究竟如何对语料库中的词汇进行分词和计数? 例如,如果您将复合名词计为多个单独的标记,则与将每个复合名词计为一个标记相比,您的数字会略有不同。
  2. (详细说明上面 Oliver 提到的“主题”问题):每个特定主题都有自己的一套术语(编织 vs 空域工程),但总的术语密度将取决于作者的词汇量。
  3. 包含外来词

关于你的第一个语言复杂性问题,每种语言的复杂性都与手头的问题有关。如果我们正在开发一个 English-Japanese 翻译器——日语非常复杂,如果一个中国人正在学习日语,它会适度复杂。如果我们比较屈折形态:俄语和德语比英语更复杂。基本上,根据参与者的观点,有很多看待语言复杂性问题的方式。