如何用一组文本文件创建语料库 - python?

How to create a corpus with a set of text files - python?

我有一组文档 IDs (keys.csv),我用它从文档源获取一组文本文档。我想将所有这些文本文档收集到一个语料库中以供进一步分析(如余弦相似度)。

我正在使用以下代码将每个文本文档附加到语料库中,但我不确定这是否可行。有没有更好的方法来创建这些文本文档的语料库?

keys = pandas.read_csv(keys.csv)
for i in keys:
    ID = i
    doc = function_to_get_document(ID)
    corpus = corpus.append(doc)

如果 csv 具有唯一的 IDIDcol 使用 list comprehension,输出为 list:

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]

样本:

print (pd.read_csv('keys.csv'))
   IDcol
0      1
1      2
2      3

def function_to_get_document(x):
    return x + 1

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]
print (corpus)
[2, 3, 4]