如何从推文中删除主题标签、用户提及和 URL。 Twitter4j 库(情感分析)不能正常处理这些干扰词
How to remove hashtag, user mentions & URLs from tweet. Twitter4j library(sentiment analysis) does not work properly with these noise words
如何从推文中删除主题标签、用户提及和 URL。 Twitter4j 库(情感分析)不能正常处理这些干扰词
示例:
推文:今天早上好#summermorning @evilpriest @holysinner https://goo.le/asxmo/dataload.......
应该看起来像 -
你好今天早上好 summermorning
twitter4J 本身是否有可用的方法或实用程序,或者我们需要自己编写?请指导。
在通过情感分析管道解析句子之前,使用正则表达式过滤掉#es!
使用这个:
String withoutHashTweet = originalTweet.replaceAll("[#]", "");
所以 "Hello great morning today #summermorning @evilpriest @holysinner " 应该 return : "Hello great morning today summermorning @evilpriest @holysinner"
同样将代码中的hash替换为@去掉相应的符号
类似的东西:
let tweet = "@arthurlacoste check this link : http://lit.ly/hugeLink ! so #nsfw";
tweet = tweet.replace(/(?:https?|ftp):\/\/[\n\S]+/g, '') // remove links
//.replace(/\#\w\w+\s?/g, '') remove hashtags words
.replace('#', '') // remove hashtags only
.replace(/\@\w\w+\s?/g, ''); // remove mentions
console.log(tweet);
// output : "check this link : ! so nsfw"
如何从推文中删除主题标签、用户提及和 URL。 Twitter4j 库(情感分析)不能正常处理这些干扰词
示例: 推文:今天早上好#summermorning @evilpriest @holysinner https://goo.le/asxmo/dataload.......
应该看起来像 - 你好今天早上好 summermorning
twitter4J 本身是否有可用的方法或实用程序,或者我们需要自己编写?请指导。
在通过情感分析管道解析句子之前,使用正则表达式过滤掉#es! 使用这个:
String withoutHashTweet = originalTweet.replaceAll("[#]", "");
所以 "Hello great morning today #summermorning @evilpriest @holysinner " 应该 return : "Hello great morning today summermorning @evilpriest @holysinner"
同样将代码中的hash替换为@去掉相应的符号
类似的东西:
let tweet = "@arthurlacoste check this link : http://lit.ly/hugeLink ! so #nsfw";
tweet = tweet.replace(/(?:https?|ftp):\/\/[\n\S]+/g, '') // remove links
//.replace(/\#\w\w+\s?/g, '') remove hashtags words
.replace('#', '') // remove hashtags only
.replace(/\@\w\w+\s?/g, ''); // remove mentions
console.log(tweet);
// output : "check this link : ! so nsfw"