基于文本列从R中的数据框中删除转推

Removing retweets from data frame in R based on text column

我使用 academictwitter 包从 Twitter 中提取推文。我现在想删除所有转推 = 在第一列“文本”(例如第三行)中以“RT”开头的推文。您可以从 github 下载类似的数据框,包括特朗普的推文:https://github.com/cbail/cbail.github.io/blob/master/Trump_Tweets.Rdata

除了我的数据框没有名为“is_retweet”的列,这使它变得更加困难。

我的数据框的输出如下所示(我删除了一些多余的列以使其更清晰):

提前感谢您的任何建议

您可以使用正则表达式找出哪些行以 'RT' 开头。如果您的数据位于名为 tweets 的数据框中,可能是这样的?

tweets[grepl("^(?!RT)", tweets$text, perl = TRUE),]

或者如果您使用的是 tidyverse:

tweets %>% 
  filter(grepl("^(?!RT)", text, perl = TRUE))