这个带有正则表达式的 python 代码成功地删除了 URL 但如果 URL 在推文的开头找到，所有的句子也将被删除

Question

我需要删除推文评论中的任何 URL。如何只删除推文开头的 URL？

我已经尝试了一些代码，这个带有正则表达式的 python 代码成功删除了 URL 但是如果 URL 在推文的开头找到，所有的句子都将被删除为嗯

re.sub(r'https?:\/\/.*[\r\n]*\S+', '', verbatim, flags = re.MULTILINE)

如果URL在推文的开头发现，所有的句子也将被删除。

Answer 1

尝试通过添加 ?并匹配到最后的 space 个字符

此外，为反斜杠添加了转义

re.sub(r'https?://.?[\r\n][\s?]', '', verbatim, flags = re.MULTILINE)

Answer 2

模式 https?:\/\/.*[\r\n]*\S+ 匹配 http(optional s)://

然后 .* 部分匹配到字符串的末尾，然后这部分 [\r\n]* 匹配 0+ 个换行符并且 \S+ 将匹配 1+ 个非空白字符。

所以 url 匹配，然后是字符串的其余部分，换行符和下一行的 1+ 个非空白字符。

您可以将模式缩短为：

\bhttps?://\S+

This python code with regex successfully remove URL but if URL found in the beginning of tweets, all of the sentence will be remove as well