这个带有正则表达式的 python 代码成功地删除了 URL 但如果 URL 在推文的开头找到,所有的句子也将被删除
This python code with regex successfully remove URL but if URL found in the beginning of tweets, all of the sentence will be remove as well
我需要删除推文评论中的任何 URL。如何只删除推文开头的 URL?
我已经尝试了一些代码,这个带有正则表达式的 python 代码成功删除了 URL 但是如果 URL 在推文的开头找到,所有的句子都将被删除为嗯
re.sub(r'https?:\/\/.*[\r\n]*\S+', '', verbatim, flags = re.MULTILINE)
如果URL在推文的开头发现,所有的句子也将被删除。
尝试通过添加 ?并匹配到最后的 space 个字符
此外,为反斜杠添加了转义
re.sub(r'https?://.?[\r\n][\s?]', '', verbatim, flags = re.MULTILINE)
模式 https?:\/\/.*[\r\n]*\S+
匹配 http(optional s)://
然后 .*
部分匹配到字符串的末尾,然后这部分 [\r\n]*
匹配 0+ 个换行符并且 \S+
将匹配 1+ 个非空白字符。
所以 url 匹配,然后是字符串的其余部分,换行符和下一行的 1+ 个非空白字符。
您可以将模式缩短为:
\bhttps?://\S+
我需要删除推文评论中的任何 URL。如何只删除推文开头的 URL?
我已经尝试了一些代码,这个带有正则表达式的 python 代码成功删除了 URL 但是如果 URL 在推文的开头找到,所有的句子都将被删除为嗯
re.sub(r'https?:\/\/.*[\r\n]*\S+', '', verbatim, flags = re.MULTILINE)
如果URL在推文的开头发现,所有的句子也将被删除。
尝试通过添加 ?并匹配到最后的 space 个字符
此外,为反斜杠添加了转义
re.sub(r'https?://.?[\r\n][\s?]', '', verbatim, flags = re.MULTILINE)
模式 https?:\/\/.*[\r\n]*\S+
匹配 http(optional s)://
然后 .*
部分匹配到字符串的末尾,然后这部分 [\r\n]*
匹配 0+ 个换行符并且 \S+
将匹配 1+ 个非空白字符。
所以 url 匹配,然后是字符串的其余部分,换行符和下一行的 1+ 个非空白字符。
您可以将模式缩短为:
\bhttps?://\S+