元组列表的文本
text to list of tuples
我有一个文本数据集。文本内容如下所示。
.I 1\n.T\nPreliminary Report-International Algebraic Language\n.B\nCACM December,
.I 2\n.T\nExtraction of Roots by,5\t3\n .I 3\n.T\nTechniquI 4\n.T\nGlossary of Computer
这是数据集的描述
.I 1, I.2, .I 3 -> 是文档 id,其余文本是文档的内容。
任务是:创建元组列表-> [(doc_id, content)]。非常感谢任何帮助或建议!
FILENAME = "your filename"
f = open(FILENAME)
lst = []
lines = f.read().splitlines()
for i in range(0,len(lines),3):
lst.append((lines[i],lines[i+1]))
print(lst)
->>>[('.i 1', 'lipsum lipsum lipsum lipsum B. lipsum lipsum '), ('.i 2', 'lipsum lipsum '), ('.i 3', 'lipsum lipsum lipsum lipsum' )]
我有一个文本数据集。文本内容如下所示。
.I 1\n.T\nPreliminary Report-International Algebraic Language\n.B\nCACM December,
.I 2\n.T\nExtraction of Roots by,5\t3\n .I 3\n.T\nTechniquI 4\n.T\nGlossary of Computer
这是数据集的描述
.I 1, I.2, .I 3 -> 是文档 id,其余文本是文档的内容。 任务是:创建元组列表-> [(doc_id, content)]。非常感谢任何帮助或建议!
FILENAME = "your filename"
f = open(FILENAME)
lst = []
lines = f.read().splitlines()
for i in range(0,len(lines),3):
lst.append((lines[i],lines[i+1]))
print(lst)
->>>[('.i 1', 'lipsum lipsum lipsum lipsum B. lipsum lipsum '), ('.i 2', 'lipsum lipsum '), ('.i 3', 'lipsum lipsum lipsum lipsum' )]