使用正则表达式将韩文文本解析为列表

Parsing Korean text into a list using regex

我将一些数据存储为 pandas 数据框,其中一列包含韩语文本字符串。我想按如下方式处理这些文本字符串中的每一个:

my_string = '모질상태불량(피부상태불량, 심하게 야윔), 치석심함, 양측 수정체 백탁, 좌측 화농성 눈곱심함(7/22), 코로나음성(활력저하)'

进入这样的列表:

parsed_text = '모질상태불량, 피부상태불량, 심하게 야윔, 치석심함, 양측 수정체 백탁, 좌측 화농성 눈곱심함(7/22), 코로나음성, 활력저하'

所以问题是识别一个单词(或几个单词)后跟括号的情况,只有文本(可以是一个单词或几个单词,用逗号分隔)并用所有单词替换它们(之前和里面括号)以逗号分隔(供以后处理)。如果一个单词后跟包含数字的括号(如本例中的 7/22),则应保持原样。如果一个词后面没有任何括号,它也应该保持原样。此外,我想保留单词的顺序(因为它们出现在原始字符串中)。

我可以使用正则表达式提取括号中的文本,如下所示:

corrected_string = re.findall(r'(\w+)\((\D.*?)\)', my_string)

产生这个:

[('모질상태불량', '피부상태불량, 심하게 야윔'), ('코로나음성', '활력저하')] 

但是我在创建结果字符串时遇到了困难,即将我的原始文本替换为我匹配的模式。有什么建议么?谢谢。

有点笨拙,但你可以试试:

my_string_list = [x.strip() for x in re.split(r"\((?!\d)|(?<!\d)\)|,", my_string) if x]
# you can make string out of list then.

您可以将 re.findall 与可选择匹配括号中数字的模式一起使用:

corrected_string = re.findall(r'[^,()]+(?:\([^)]*\d[^)]*\))?', my_string)