R中的单词关联

Word Association In R

我正在搜索 solution/library 或任何可在段落中找到最频繁的单词关联的函数。例如:

This tree gives red apple. Bananas are yellow. The apple I ate was red.

在上面的文本中,我们应该能够得到每个单词与句子中所有其他单词的关联(在删除停用词和词干提取之后)。所以假设上面的文本给出了关联:

树 - 红色:0.41 树 - 苹果:0.46 香蕉 - 黄色:0.30 苹果 - 红色:0.8

文本中重复频率最高的两个词是 "apple - red" 组合,因为这两个词都出现在两个句子中。

我尝试过的两种解决方案是:

  1. tm 库的 findAssoc():

          Word AssociatedWord Association  
    1    apple            red           1
    2    apple            ate         0.5
    3    apple           tree         0.5
    4      red          apple           1
    5      red            ate         0.5
    6      red           tree         0.5
    7      ate          apple         0.5 
    8      ate            red         0.5  
    9  bananas         yellow           1  
    10    tree          apple         0.5 
    11    tree            red         0.5
    12  yellow        bananas           1
    

    上面显示的结果是上面给出的文本的输出。句子是单独输入的,因为它没有在单行文本上找到关联。

  2. 使用最频繁 n-gram 的定制解决方案:这是不可行的,因为它只检查连续出现的单词。

我只是在寻找一个给出最频繁的单词联想的解决方案。我不能将文本分成多行,所以会有这样的解决方案吗? 任何帮助将不胜感激。

完全不清楚你想要什么。单行文本中的频繁单词关联是什么意思?关联值需要一个度量,在 findAssc() 中,度量反映了 2 个单词在同一文本中出现的次数。

当你在一个文档中有类似 "This tree gives red apple" 的东西时,你得到的信息是树苹果都在同一个文档中,仅此而已,也许它们被 2 个单词分隔,或者类似的东西那,你想要什么作为这里的度量标准?定义一个。