sentimentr - 不同文本分区的不同结果

sentimentr - different results for different text partitioning

使用sentimentr分析文本:

I haven’t been sad in a long time. I am extremely happy today. It’s a good day.

我首先使用了逐句分割文本

library(sentimentr)

ase1 <- c(
  "I haven't been sad in a long time.",
  "I am extremely happy today.",
  "It's a good day."
)

part1 <- get_sentences(ase1)
sentiment(part1)

   element_id sentence_id word_count sentiment
1:          1           1          8 0.1767767
2:          2           1          5 0.6037384
3:          3           1          4 0.3750000

然后用了一段文字

ase2 <- c(
  "I haven’t been sad in a long time. I am extremely happy today. It’s a good day.")

part2 <- get_sentences(ase2)
sentiment(part2)

   element_id sentence_id word_count   sentiment
1:          1           1          9 -0.03333333
2:          1           2          5  0.60373835
3:          1           3          5  0.33541020

相同的文本,字数和情感得分不同

请指教?

不完全相同的文字。在第一个示例中,您使用 ',但在第二个文本中,您使用 。这些是完全不同的引用,在文本挖掘中具有不同的含义。

下面的示例 returns 与第一个示例中的结果相同。

ase2 <- c(
  "I haven't been sad in a long time. I am extremely happy today. It's a good day.")

part2 <- get_sentences(ase2)
sentiment(part2)
   element_id sentence_id word_count sentiment
1:          1           1          8 0.1767767
2:          1           2          5 0.6037384
3:          1           3          4 0.3750000