使用正则表达式将韩文文本解析为列表

Question

我将一些数据存储为 pandas 数据框，其中一列包含韩语文本字符串。我想按如下方式处理这些文本字符串中的每一个：

my_string = '모질상태불량(피부상태불량, 심하게 야윔), 치석심함, 양측 수정체 백탁, 좌측 화농성 눈곱심함(7/22), 코로나음성(활력저하)'

进入这样的列表：

parsed_text = '모질상태불량, 피부상태불량, 심하게 야윔, 치석심함, 양측 수정체 백탁, 좌측 화농성 눈곱심함(7/22), 코로나음성, 활력저하'

所以问题是识别一个单词（或几个单词）后跟括号的情况，只有文本（可以是一个单词或几个单词，用逗号分隔）并用所有单词替换它们（之前和里面括号）以逗号分隔（供以后处理）。如果一个单词后跟包含数字的括号（如本例中的 7/22），则应保持原样。如果一个词后面没有任何括号，它也应该保持原样。此外，我想保留单词的顺序（因为它们出现在原始字符串中）。

我可以使用正则表达式提取括号中的文本，如下所示：

corrected_string = re.findall(r'(\w+)\((\D.*?)\)', my_string)

产生这个：

[('모질상태불량', '피부상태불량, 심하게 야윔'), ('코로나음성', '활력저하')]

但是我在创建结果字符串时遇到了困难，即将我的原始文本替换为我匹配的模式。有什么建议么？谢谢。

Answer 1

有点笨拙，但你可以试试：

my_string_list = [x.strip() for x in re.split(r"\((?!\d)|(?<!\d)\)|,", my_string) if x]
# you can make string out of list then.

Answer 2

您可以将 re.findall 与可选择匹配括号中数字的模式一起使用：

corrected_string = re.findall(r'[^,()]+(?:\([^)]*\d[^)]*\))?', my_string)

使用正则表达式将韩文文本解析为列表

Parsing Korean text into a list using regex

python

regex

replace

pattern-matching

cjk