使用 Regex 删除括号和其中的所有内容
Removing parentheses and everything in them with Regex
我在处理一些代码时遇到了一些麻烦。基本上,我有一些日本动漫的文字记录(txt 文件),为了做一些 NLP 实验,我想删除其中除了台词(日语句子)以外的所有内容。
我已经成功地完成了一些清理工作,但卡住的地方是括号。我列表中的大部分元素都以括号内的角色名称开头(即 (Armin))。我想删除这些,但我在网上找到的所有正则表达式代码似乎都不起作用。
这是我正在使用的列表的片段:
['(アルミン)その日', '人類は思い出した', '(アルミン)奴らに', '支配されていた恐怖を', '(アルミン)鳥籠の中に', 'とらわれていた―', '屈辱を', '(キース)総員', '戦闘用意!', '目標は1体だ', '必ず仕留め―', 'ここを', '我々', '人類', '最初の壁外拠点とする!', '(エルヴィン)あっ…', '目標接近!', '(キース)訓練どおり5つに分かれろ!', '囮は我々が引き受ける!', '全攻撃班', '立体機動に移れ!', '(エルヴィン)全方向から', '同時に叩くぞ!', '(モーゼス)やあーっ!']
我已经尝试了以下代码(这是我所能得到的最接近的代码):
no_parentheses = []
for line in mylist:
if '(' in line:
line = re.sub('\(.*\)','', line)
no_parentheses.append(line)
else:
no_parentheses.append(line)
但是当我查看结果时,那些讨厌的括号仍然在我的列表中可笑。
有人可以提供解决此问题的建议吗?
再次感谢!
文中括号为全角括号。具体来说,U+FF08 全角左括号和 U+FF09 全角右括号。
您的正则表达式也应使用全角括号。
line = re.sub('(.*)','', line)
我在处理一些代码时遇到了一些麻烦。基本上,我有一些日本动漫的文字记录(txt 文件),为了做一些 NLP 实验,我想删除其中除了台词(日语句子)以外的所有内容。
我已经成功地完成了一些清理工作,但卡住的地方是括号。我列表中的大部分元素都以括号内的角色名称开头(即 (Armin))。我想删除这些,但我在网上找到的所有正则表达式代码似乎都不起作用。
这是我正在使用的列表的片段:
['(アルミン)その日', '人類は思い出した', '(アルミン)奴らに', '支配されていた恐怖を', '(アルミン)鳥籠の中に', 'とらわれていた―', '屈辱を', '(キース)総員', '戦闘用意!', '目標は1体だ', '必ず仕留め―', 'ここを', '我々', '人類', '最初の壁外拠点とする!', '(エルヴィン)あっ…', '目標接近!', '(キース)訓練どおり5つに分かれろ!', '囮は我々が引き受ける!', '全攻撃班', '立体機動に移れ!', '(エルヴィン)全方向から', '同時に叩くぞ!', '(モーゼス)やあーっ!']
我已经尝试了以下代码(这是我所能得到的最接近的代码):
no_parentheses = []
for line in mylist:
if '(' in line:
line = re.sub('\(.*\)','', line)
no_parentheses.append(line)
else:
no_parentheses.append(line)
但是当我查看结果时,那些讨厌的括号仍然在我的列表中可笑。
有人可以提供解决此问题的建议吗?
再次感谢!
文中括号为全角括号。具体来说,U+FF08 全角左括号和 U+FF09 全角右括号。
您的正则表达式也应使用全角括号。
line = re.sub('(.*)','', line)