Spacy v3 - 将 DocBin 读取到 json 或 pandas
Spacy v3 - reading DocBin to a json or pandas
是否可以按常规格式读取 .spacy
文件 - 例如pandas 或 dict 以便我们可以在例如sklearn?
假设我们有一个宽敞的 DocBin 对象:
nlp = spacy.blank("en")
doc_bin = DocBin()
df= pd.read_json("../data/data.jsonl", lines = True)
df.head()
doc_bin = DocBin()
for text, label in zip(df['text'], df['label']):
doc = nlp(text)
doc.cats[label] = True
doc_bin.add(doc)
doc_bin.to_disk('train.spacy')
我们如何将 train.spacy
读入字典?
不,不可能以有意义的方式将 .spacy
文件目录读入字典或其他内容。它是一种专门用于 spaCy Doc 对象的序列化格式。
您始终可以阅读其中的文档,然后将它们转换成您想要放入字典中的任何内容。
是否可以按常规格式读取 .spacy
文件 - 例如pandas 或 dict 以便我们可以在例如sklearn?
假设我们有一个宽敞的 DocBin 对象:
nlp = spacy.blank("en")
doc_bin = DocBin()
df= pd.read_json("../data/data.jsonl", lines = True)
df.head()
doc_bin = DocBin()
for text, label in zip(df['text'], df['label']):
doc = nlp(text)
doc.cats[label] = True
doc_bin.add(doc)
doc_bin.to_disk('train.spacy')
我们如何将 train.spacy
读入字典?
不,不可能以有意义的方式将 .spacy
文件目录读入字典或其他内容。它是一种专门用于 spaCy Doc 对象的序列化格式。
您始终可以阅读其中的文档,然后将它们转换成您想要放入字典中的任何内容。