Spacy v3 - 将 DocBin 读取到 json 或 pandas

Spacy v3 - reading DocBin to a json or pandas

是否可以按常规格式读取 .spacy 文件 - 例如pandas 或 dict 以便我们可以在例如sklearn?

假设我们有一个宽敞的 DocBin 对象:

nlp = spacy.blank("en")
doc_bin = DocBin()

df= pd.read_json("../data/data.jsonl", lines = True)
df.head()

doc_bin = DocBin()

for text, label in zip(df['text'], df['label']):
    doc = nlp(text)
    doc.cats[label] = True
    doc_bin.add(doc)

doc_bin.to_disk('train.spacy')

我们如何将 train.spacy 读入字典?

不,不可能以有意义的方式将 .spacy 文件目录读入字典或其他内容。它是一种专门用于 spaCy Doc 对象的序列化格式。

您始终可以阅读其中的文档,然后将它们转换成您想要放入字典中的任何内容。