使用 Python 清理文本数据并以 csv 格式保存

Clean the text data and save in csv format using Python

我有一个包含大约 7000 个句子的文本文件。每个句子都换行。下面给出了我的文本文件数据的示例格式。我想更改格式并使用 python.

清理数据

(input.txt)

I\PP.sg.n.n am\VM.3.fut.sim.dcl.fin.n.n.n going\VER.0.gen.n.n to\NC.0.0.n.n school\JQ.n.n.crd .\PU
When\PPR.pl.1.0.n.n.n.n I\PP.0.y go\VM.0.0.0.0.nfn.n.n.n outside\NC.0.0.n.n ,\PU I\NST.0.n.n saw\NN.loc.n.n something\DAB.sg.y .\PU
I\PP.0.y eat\JQ.n.n.nnm rice\NC.0.loc.n.n .\PU

我想更改文本文件的上述数据格式,并希望在 CSV 中使用以下格式。

(input.csv)

Sentences Tags
I am going to school . PP VM VER NC JQ PU
When I go outside , I saw something . PPR PP VM NC PU NST NN DAB PU
I eat rice . PP JQ NC PU

我已经尝试了一些方法,但没有任何方法可以正常工作以获得我想要的格式。我真的很困惑。如果有好心人可以帮助我,那对我来说将是一个很大的帮助。 在此先感谢您的帮助。

Python代码:

txt = r"""
I\PP.sg.n.n am\VM.3.fut.sim.dcl.fin.n.n.n going\VER.0.gen.n.n to\NC.0.0.n.n school\JQ.n.n.crd .\PU
When\PPR.pl.1.0.n.n.n.n I\PP.0.y go\VM.0.0.0.0.nfn.n.n.n outside\NC.0.0.n.n ,\PU I\NST.0.n.n saw\NN.loc.n.n something\DAB.sg.y .\PU
I\PP.0.y eat\JQ.n.n.nnm rice\NC.0.loc.n.n .\PU
"""

for line in txt.strip().split('\n'):
    words, tags = [], []
    for wordtag in line.strip().split():
        splits = wordtag.split('\', 1)
        words.append(splits[0])
        tags.append(splits[1].split('.')[0])
    print(f"\"{' '.join(words)}\",\"{' '.join(tags)}\"")

输出:

"I am going to school .","PP VM VER NC JQ PU"
"When I go outside , I saw something .","PPR PP VM NC PU NST NN DAB PU"
"I eat rice .","PP JQ NC PU"