元组列表的文本

Question

我有一个文本数据集。文本内容如下所示。

.I 1\n.T\nPreliminary Report-International Algebraic Language\n.B\nCACM December,
 .I 2\n.T\nExtraction of Roots by,5\t3\n .I 3\n.T\nTechniquI 4\n.T\nGlossary of Computer

这是数据集的描述

.I 1, I.2, .I 3 -> 是文档 id，其余文本是文档的内容。任务是：创建元组列表-> [(doc_id, content)]。非常感谢任何帮助或建议！

Answer 1

FILENAME = "your filename"
f = open(FILENAME)
lst = []
lines = f.read().splitlines()
for i in range(0,len(lines),3):
    lst.append((lines[i],lines[i+1]))

print(lst)

->>>[('.i 1', 'lipsum lipsum lipsum lipsum B. lipsum lipsum '), ('.i 2', 'lipsum lipsum '), ('.i 3', 'lipsum lipsum lipsum lipsum' )]

元组列表的文本

text to list of tuples

python

search-engine

data-science