如何在 Python 中解析或清理我的语料库
How to parse or clean my corpus in Python
所以我有这个包含荷兰语聊天消息的语料库,但我想删除 < > 括号内的用户名。我不太熟悉 python 中的解析。另外,我不确定解析是否是删除用户名的正确方法。我实际上是在寻求建议。如何删除 python.
中的用户名
.txt 文件如下所示:
<Chickaaa> Heeerlijk zo'n kopje warme chocolademelk
<ilmas-nador> 3ndak chi khtk
<Chickaaa> met een sultana derbij
<bellamafia> hahah
<bellamafia> welkom terug chika
<Chickaaa> dankjee
<bellamafia> ga je nog naar school
<Chickaaa> jazeker
<bellamafia> ok
<Chickaaa> ben op stage nu
<Chickaaa> nog 7 uurtjes
<Chickaaa> pff
<bellamafia> wat doe je dan
<Chickaaa> management assistent
<bellamafia> ok
<Chickaaa> jij?
如果我想标记它们,我需要将句子放在 [CLS] 和 [SEP] 之间。这样做的原因是使用词嵌入模型BERT。我正在阅读 .txt 如下:
df = pd.read_fwf('moroccorp.txt')
之后我想这样标记句子:
marked_text = "[CLS] " + df + " [SEP]"
并以这种方式对其进行标记化:
# Tokenize our sentence with the BERT tokenizer.
tokenized_text = tokenizer.tokenize(marked_text)
如果您的样本具有代表性,只需删除每行开头的 <...>
。
import re
user = re.compile(r'^<[^<>]+>\s+')
with open(filename) as corpus:
text = [user.sub('', line) for line in corpus]
如果您想在 Pandas 中执行此操作,不难找到一个类似的方法来将此转换作为您当前代码的一部分。
解析通常指的是拆解某种结构(比如将句子分为主语、动词和宾语),而这是一种简单的机械转换。
所以我有这个包含荷兰语聊天消息的语料库,但我想删除 < > 括号内的用户名。我不太熟悉 python 中的解析。另外,我不确定解析是否是删除用户名的正确方法。我实际上是在寻求建议。如何删除 python.
中的用户名.txt 文件如下所示:
<Chickaaa> Heeerlijk zo'n kopje warme chocolademelk
<ilmas-nador> 3ndak chi khtk
<Chickaaa> met een sultana derbij
<bellamafia> hahah
<bellamafia> welkom terug chika
<Chickaaa> dankjee
<bellamafia> ga je nog naar school
<Chickaaa> jazeker
<bellamafia> ok
<Chickaaa> ben op stage nu
<Chickaaa> nog 7 uurtjes
<Chickaaa> pff
<bellamafia> wat doe je dan
<Chickaaa> management assistent
<bellamafia> ok
<Chickaaa> jij?
如果我想标记它们,我需要将句子放在 [CLS] 和 [SEP] 之间。这样做的原因是使用词嵌入模型BERT。我正在阅读 .txt 如下:
df = pd.read_fwf('moroccorp.txt')
之后我想这样标记句子:
marked_text = "[CLS] " + df + " [SEP]"
并以这种方式对其进行标记化:
# Tokenize our sentence with the BERT tokenizer.
tokenized_text = tokenizer.tokenize(marked_text)
如果您的样本具有代表性,只需删除每行开头的 <...>
。
import re
user = re.compile(r'^<[^<>]+>\s+')
with open(filename) as corpus:
text = [user.sub('', line) for line in corpus]
如果您想在 Pandas 中执行此操作,不难找到一个类似的方法来将此转换作为您当前代码的一部分。
解析通常指的是拆解某种结构(比如将句子分为主语、动词和宾语),而这是一种简单的机械转换。