Bigram分析和Term文档矩阵

Bigram analysis and Term document Matrix

我 am.doing 对我的文本语料库进行了二元语法分析。我的特征向量是一组预定义的二元和一元标记。

特征向量 =（位置好，体验差，干净，不友好，整洁，优秀，漂亮的地方）

my text : 位置很好但员工不友好。

已清理文本： 位置不错，员工不友善。

我使用上面的字典创建了一个 tdf 并清理了文本，但是 "location good" 双字母组没有给出“1”。但是当我将清理后的文本更改为 "good location unfriendly staff" 时。在二元分析中，单词的顺序重要吗？为什么？还是我搞砸了代码？请澄清

"bad experience" "tidy" "clean" "good location" "excellent" "beautiful" "place" "unfriendly"

0 0 0 0 0 0 1 -- 位置不错但员工不友善。

0 0 0 1 0 0 1 -- 位置不错，但工作人员不友好。

就我的经验而言，n-gram 中的单词顺序很关键。您不希望将 n-gram 'Putin attacked' 和 "attacked Putin" 视为相同，因为它们具有非常不同的上下文含义。

所以不，你没有搞乱代码。您可能只是想对 n-gram 模型做更多的研究。 Chapter 4 in Speech and Language Processing by Jurafsky and Martin

可能是一个好的开始