R中的单词关联

Question

我正在搜索 solution/library 或任何可在段落中找到最频繁的单词关联的函数。例如：

This tree gives red apple. Bananas are yellow. The apple I ate was red.

在上面的文本中，我们应该能够得到每个单词与句子中所有其他单词的关联（在删除停用词和词干提取之后）。所以假设上面的文本给出了关联：

树 - 红色：0.41 树 - 苹果：0.46 香蕉 - 黄色：0.30 苹果 - 红色：0.8

文本中重复频率最高的两个词是 "apple - red" 组合，因为这两个词都出现在两个句子中。

我尝试过的两种解决方案是：

tm 库的 findAssoc():

      Word AssociatedWord Association  
1    apple            red           1
2    apple            ate         0.5
3    apple           tree         0.5
4      red          apple           1
5      red            ate         0.5
6      red           tree         0.5
7      ate          apple         0.5 
8      ate            red         0.5  
9  bananas         yellow           1  
10    tree          apple         0.5 
11    tree            red         0.5
12  yellow        bananas           1

上面显示的结果是上面给出的文本的输出。句子是单独输入的，因为它没有在单行文本上找到关联。

使用最频繁 n-gram 的定制解决方案：这是不可行的，因为它只检查连续出现的单词。

我只是在寻找一个给出最频繁的单词联想的解决方案。我不能将文本分成多行，所以会有这样的解决方案吗？任何帮助将不胜感激。

Answer 1

完全不清楚你想要什么。单行文本中的频繁单词关联是什么意思？关联值需要一个度量，在 findAssc() 中，度量反映了 2 个单词在同一文本中出现的次数。

当你在一个文档中有类似 "This tree gives red apple" 的东西时，你得到的信息是树苹果都在同一个文档中，仅此而已，也许它们被 2 个单词分隔，或者类似的东西那，你想要什么作为这里的度量标准？定义一个。

R中的单词关联

Word Association In R

nlp

r

text-mining

tm