如何计算 Zipf 定律中单词的频率?

How to calculate the frequency of word in Zipf's law?

一个集合中有4个不同的词a,b,c,d,它们出现的频率顺序是a > b > c > d。此集合中的标记总数为 1500。使用 Zipf's law,这四个词的频率是多少?

齐普夫定律有公式吗?

我研究过,在 Zipf 定律中,最频繁出现的单词的出现频率大约是第二频繁出现的单词的两倍。

我谦虚地引导你到 the wikipedia article on Zipf's Law,

正式地,让:

  • N为元素个数;
  • k 是他们的排名;
  • s 是值 表征分布的指数。

Zipf 定律然后预测在 N 个元素的总体中,第 k 个元素 f(k;s,N) 的频率为:

给你。有一个单词出现频率的公式。