如何用一组文本文件创建语料库 - python？

Question

我有一组文档 IDs (keys.csv)，我用它从文档源获取一组文本文档。我想将所有这些文本文档收集到一个语料库中以供进一步分析（如余弦相似度）。

我正在使用以下代码将每个文本文档附加到语料库中，但我不确定这是否可行。有没有更好的方法来创建这些文本文档的语料库？

keys = pandas.read_csv(keys.csv)
for i in keys:
    ID = i
    doc = function_to_get_document(ID)
    corpus = corpus.append(doc)

Answer 1

如果 csv 具有唯一的 ID 列 IDcol 使用 list comprehension，输出为 list:

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]

样本：

print (pd.read_csv('keys.csv'))
   IDcol
0      1
1      2
2      3

def function_to_get_document(x):
    return x + 1

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]
print (corpus)
[2, 3, 4]

如何用一组文本文件创建语料库 - python？

How to create a corpus with a set of text files - python?

python

nlp

corpus

pandas

scikit-learn