在计算两个词的共现时,我们是将句子分开还是将所有句子连接起来?

when calculating the cooccurance of two words, do we sepate the sentences or linking all sentences?

例如,我得到包含 2 个句子的 I 文档:I am a person。他也喜欢苹果。 我们需要计算 "person" 和 "He" 的共现吗?

每个文档都用换行符分隔。共现的上下文 windows 仅限于每个文档。

基于the implementation here.

A newline is taken as indicating a new document (contexts won't cross newline).

因此,根据您准备句子的方式,您可能会得到不同的结果:

设置 1:('He', 'person') 同时发生

...
I am a person. He also likes apples.
...

设置 2:('He', 'person')未同时发生

...
I am a person. 
He also likes apples.
...