Bigram分析和Term文档矩阵

Bigram analysis and Term document Matrix

我 am.doing 对我的文本语料库进行了二元语法分析。我的特征向量是一组预定义的二元和一元标记。

特征向量 =(位置好,体验差,干净,不友好,整洁,优秀,漂亮的地方)

my text : 位置很好但员工不友好。

已清理文本: 位置不错,员工不友善。

我使用上面的字典创建了一个 tdf 并清理了文本,但是 "location good" 双字母组没有给出“1”。 但是当我将清理后的文本更改为 "good location unfriendly staff" 时。 在二元分析中,单词的顺序重要吗?为什么?还是我搞砸了代码?请澄清

"bad experience" "tidy" "clean" "good location" "excellent" "beautiful" "place" "unfriendly"

0 0 0 0 0 0 1 -- 位置不错但员工不友善。

0 0 0 1 0 0 1 -- 位置不错,但工作人员不友好。

就我的经验而言,n-gram 中的单词顺序很关键。您不希望将 n-gram 'Putin attacked' 和 "attacked Putin" 视为相同,因为它们具有非常不同的上下文含义。

所以不,你没有搞乱代码。您可能只是想对 n-gram 模型做更多的研究。 Chapter 4 in Speech and Language Processing by Jurafsky and Martin

可能是一个好的开始