使用正则表达式删除特定单词之间的单词

Question

我的数据包含如下内容：

→ muching :酋長在這個距離的時候，北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7／7

我希望我的数据如下所示：

酋長在這個距離的時候，北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7／7

我已经尝试了一些正则表达式 re.sub(r'^推:$', '', x) 但我很确定这种方式是错误的。

正则表达式是否适用于汉字或 → 符号？

Answer 1

您可以尝试这样的操作，它会删除在 : 和 → 之前的一行开始的所有内容，这些字符确实适用于汉字：

import re

txt = """
→ muching :酋長在這個距離的時候，北部山區都超過大豪雨標準了

推aitt :台東恆春間登陸不代表北台不會有強風.

→ teras: 7／7

"""

pattern = r'^.*:'
parsed_txt = re.sub(pattern, '', txt, flags=re.MULTILINE)

print(parsed_txt)
>>>"
酋長在這個距離的時候，北部山區都超過大豪雨標準了

台東恆春間登陸不代表北台不會有強風.

 7／7"

使用正则表达式删除特定单词之间的单词

Using regular expression to delete words in between specific words

python

nlp

data-cleaning

python-re