如何用一组文本文件创建语料库 - python?
How to create a corpus with a set of text files - python?
我有一组文档 ID
s (keys.csv),我用它从文档源获取一组文本文档。我想将所有这些文本文档收集到一个语料库中以供进一步分析(如余弦相似度)。
我正在使用以下代码将每个文本文档附加到语料库中,但我不确定这是否可行。有没有更好的方法来创建这些文本文档的语料库?
keys = pandas.read_csv(keys.csv)
for i in keys:
ID = i
doc = function_to_get_document(ID)
corpus = corpus.append(doc)
如果 csv
具有唯一的 ID
列 IDcol
使用 list comprehension
,输出为 list
:
corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]
样本:
print (pd.read_csv('keys.csv'))
IDcol
0 1
1 2
2 3
def function_to_get_document(x):
return x + 1
corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]
print (corpus)
[2, 3, 4]
我有一组文档 ID
s (keys.csv),我用它从文档源获取一组文本文档。我想将所有这些文本文档收集到一个语料库中以供进一步分析(如余弦相似度)。
我正在使用以下代码将每个文本文档附加到语料库中,但我不确定这是否可行。有没有更好的方法来创建这些文本文档的语料库?
keys = pandas.read_csv(keys.csv)
for i in keys:
ID = i
doc = function_to_get_document(ID)
corpus = corpus.append(doc)
如果 csv
具有唯一的 ID
列 IDcol
使用 list comprehension
,输出为 list
:
corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]
样本:
print (pd.read_csv('keys.csv'))
IDcol
0 1
1 2
2 3
def function_to_get_document(x):
return x + 1
corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]
print (corpus)
[2, 3, 4]