基于文本列从R中的数据框中删除转推
Removing retweets from data frame in R based on text column
我使用 academictwitter
包从 Twitter 中提取推文。我现在想删除所有转推 = 在第一列“文本”(例如第三行)中以“RT”开头的推文。您可以从 github 下载类似的数据框,包括特朗普的推文:https://github.com/cbail/cbail.github.io/blob/master/Trump_Tweets.Rdata
除了我的数据框没有名为“is_retweet”的列,这使它变得更加困难。
我的数据框的输出如下所示(我删除了一些多余的列以使其更清晰):
提前感谢您的任何建议
您可以使用正则表达式找出哪些行以 'RT' 开头。如果您的数据位于名为 tweets
的数据框中,可能是这样的?
tweets[grepl("^(?!RT)", tweets$text, perl = TRUE),]
或者如果您使用的是 tidyverse
:
tweets %>%
filter(grepl("^(?!RT)", text, perl = TRUE))
我使用 academictwitter
包从 Twitter 中提取推文。我现在想删除所有转推 = 在第一列“文本”(例如第三行)中以“RT”开头的推文。您可以从 github 下载类似的数据框,包括特朗普的推文:https://github.com/cbail/cbail.github.io/blob/master/Trump_Tweets.Rdata
除了我的数据框没有名为“is_retweet”的列,这使它变得更加困难。
我的数据框的输出如下所示(我删除了一些多余的列以使其更清晰):
提前感谢您的任何建议
您可以使用正则表达式找出哪些行以 'RT' 开头。如果您的数据位于名为 tweets
的数据框中,可能是这样的?
tweets[grepl("^(?!RT)", tweets$text, perl = TRUE),]
或者如果您使用的是 tidyverse
:
tweets %>%
filter(grepl("^(?!RT)", text, perl = TRUE))