如何从推文中删除主题标签、用户提及和 URL。 Twitter4j 库(情感分析)不能正常处理这些干扰词

How to remove hashtag, user mentions & URLs from tweet. Twitter4j library(sentiment analysis) does not work properly with these noise words

如何从推文中删除主题标签、用户提及和 URL。 Twitter4j 库(情感分析)不能正常处理这些干扰词

示例: 推文:今天早上好#summermorning @evilpriest @holysinner https://goo.le/asxmo/dataload.......

应该看起来像 - 你好今天早上好 summermorning

twitter4J 本身是否有可用的方法或实用程序,或者我们需要自己编写?请指导。

在通过情感分析管道解析句子之前,使用正则表达式过滤掉#es! 使用这个:

String withoutHashTweet = originalTweet.replaceAll("[#]", "");

所以 "Hello great morning today #summermorning @evilpriest @holysinner " 应该 return : "Hello great morning today summermorning @evilpriest @holysinner"

同样将代码中的hash替换为@去掉相应的符号

类似的东西:

let tweet = "@arthurlacoste check this link : http://lit.ly/hugeLink ! so #nsfw";

tweet = tweet.replace(/(?:https?|ftp):\/\/[\n\S]+/g, '') // remove links
        //.replace(/\#\w\w+\s?/g, '') remove hashtags words
        .replace('#', '') // remove hashtags only
        .replace(/\@\w\w+\s?/g, '');  // remove mentions

console.log(tweet);

// output : "check this link :  ! so nsfw"