在计算两个词的共现时,我们是将句子分开还是将所有句子连接起来?
when calculating the cooccurance of two words, do we sepate the sentences or linking all sentences?
例如,我得到包含 2 个句子的 I 文档:I am a person。他也喜欢苹果。
我们需要计算 "person" 和 "He" 的共现吗?
每个文档都用换行符分隔。共现的上下文 windows 仅限于每个文档。
A newline is taken as indicating a new document (contexts won't cross newline).
因此,根据您准备句子的方式,您可能会得到不同的结果:
设置 1:('He', 'person')
同时发生
...
I am a person. He also likes apples.
...
设置 2:('He', 'person')
未同时发生
...
I am a person.
He also likes apples.
...
例如,我得到包含 2 个句子的 I 文档:I am a person。他也喜欢苹果。 我们需要计算 "person" 和 "He" 的共现吗?
每个文档都用换行符分隔。共现的上下文 windows 仅限于每个文档。
A newline is taken as indicating a new document (contexts won't cross newline).
因此,根据您准备句子的方式,您可能会得到不同的结果:
设置 1:('He', 'person')
同时发生
...
I am a person. He also likes apples.
...
设置 2:('He', 'person')
未同时发生
...
I am a person.
He also likes apples.
...