R中的单词关联
Word Association In R
我正在搜索 solution/library 或任何可在段落中找到最频繁的单词关联的函数。例如:
This tree gives red apple. Bananas are yellow. The apple I ate was red.
在上面的文本中,我们应该能够得到每个单词与句子中所有其他单词的关联(在删除停用词和词干提取之后)。所以假设上面的文本给出了关联:
树 - 红色:0.41
树 - 苹果:0.46
香蕉 - 黄色:0.30
苹果 - 红色:0.8
文本中重复频率最高的两个词是 "apple - red" 组合,因为这两个词都出现在两个句子中。
我尝试过的两种解决方案是:
tm 库的 findAssoc():
Word AssociatedWord Association
1 apple red 1
2 apple ate 0.5
3 apple tree 0.5
4 red apple 1
5 red ate 0.5
6 red tree 0.5
7 ate apple 0.5
8 ate red 0.5
9 bananas yellow 1
10 tree apple 0.5
11 tree red 0.5
12 yellow bananas 1
上面显示的结果是上面给出的文本的输出。句子是单独输入的,因为它没有在单行文本上找到关联。
使用最频繁 n-gram 的定制解决方案:这是不可行的,因为它只检查连续出现的单词。
我只是在寻找一个给出最频繁的单词联想的解决方案。我不能将文本分成多行,所以会有这样的解决方案吗?
任何帮助将不胜感激。
完全不清楚你想要什么。单行文本中的频繁单词关联是什么意思?关联值需要一个度量,在 findAssc() 中,度量反映了 2 个单词在同一文本中出现的次数。
当你在一个文档中有类似 "This tree gives red apple" 的东西时,你得到的信息是树苹果都在同一个文档中,仅此而已,也许它们被 2 个单词分隔,或者类似的东西那,你想要什么作为这里的度量标准?定义一个。
我正在搜索 solution/library 或任何可在段落中找到最频繁的单词关联的函数。例如:
This tree gives red apple. Bananas are yellow. The apple I ate was red.
在上面的文本中,我们应该能够得到每个单词与句子中所有其他单词的关联(在删除停用词和词干提取之后)。所以假设上面的文本给出了关联:
树 - 红色:0.41 树 - 苹果:0.46 香蕉 - 黄色:0.30 苹果 - 红色:0.8
文本中重复频率最高的两个词是 "apple - red" 组合,因为这两个词都出现在两个句子中。
我尝试过的两种解决方案是:
tm 库的 findAssoc():
Word AssociatedWord Association 1 apple red 1 2 apple ate 0.5 3 apple tree 0.5 4 red apple 1 5 red ate 0.5 6 red tree 0.5 7 ate apple 0.5 8 ate red 0.5 9 bananas yellow 1 10 tree apple 0.5 11 tree red 0.5 12 yellow bananas 1
上面显示的结果是上面给出的文本的输出。句子是单独输入的,因为它没有在单行文本上找到关联。
使用最频繁 n-gram 的定制解决方案:这是不可行的,因为它只检查连续出现的单词。
我只是在寻找一个给出最频繁的单词联想的解决方案。我不能将文本分成多行,所以会有这样的解决方案吗? 任何帮助将不胜感激。
完全不清楚你想要什么。单行文本中的频繁单词关联是什么意思?关联值需要一个度量,在 findAssc() 中,度量反映了 2 个单词在同一文本中出现的次数。
当你在一个文档中有类似 "This tree gives red apple" 的东西时,你得到的信息是树苹果都在同一个文档中,仅此而已,也许它们被 2 个单词分隔,或者类似的东西那,你想要什么作为这里的度量标准?定义一个。