如何在 Python 中解析或清理我的语料库

Question

所以我有这个包含荷兰语聊天消息的语料库，但我想删除 < > 括号内的用户名。我不太熟悉 python 中的解析。另外，我不确定解析是否是删除用户名的正确方法。我实际上是在寻求建议。如何删除 python.

中的用户名

.txt 文件如下所示：

<Chickaaa> Heeerlijk zo'n kopje warme chocolademelk
<ilmas-nador> 3ndak  chi  khtk
<Chickaaa> met een sultana derbij
<bellamafia> hahah
<bellamafia> welkom terug chika
<Chickaaa> dankjee
<bellamafia> ga je nog naar school
<Chickaaa> jazeker
<bellamafia> ok
<Chickaaa> ben op stage nu
<Chickaaa> nog 7 uurtjes
<Chickaaa> pff
<bellamafia> wat doe je dan
<Chickaaa> management assistent
<bellamafia> ok
<Chickaaa> jij?

如果我想标记它们，我需要将句子放在 [CLS] 和 [SEP] 之间。这样做的原因是使用词嵌入模型BERT。我正在阅读 .txt 如下：

df = pd.read_fwf('moroccorp.txt')

之后我想这样标记句子：

marked_text = "[CLS] " + df + " [SEP]"

并以这种方式对其进行标记化：

# Tokenize our sentence with the BERT tokenizer.
tokenized_text = tokenizer.tokenize(marked_text)

Answer 1

如果您的样本具有代表性，只需删除每行开头的 <...>。

import re

user = re.compile(r'^<[^<>]+>\s+')
with open(filename) as corpus:
  text = [user.sub('', line) for line in corpus]

如果您想在 Pandas 中执行此操作，不难找到一个类似的方法来将此转换作为您当前代码的一部分。

解析通常指的是拆解某种结构（比如将句子分为主语、动词和宾语），而这是一种简单的机械转换。

如何在 Python 中解析或清理我的语料库

How to parse or clean my corpus in Python

python

parsing

bert-language-model