如何使用 spacy tokenize/parse excel sheet 中的数据

How to tokenize/parse data in an excel sheet using spacy

我正在尝试使用 spacy 将 excel sheet 转换为 doc 对象,过去几天我一直在尝试绕过它,但它似乎有点挑战性。我在 openpyxl 和 pandas 中都打开了 sheet,我可以读取 excel sheet 并输出内容,但我无法集成 spacy 来创建 doc/token 对象。

是否可以在 spacy 的管道中处理 excel sheets?

谢谢!

Spacy 不支持 excel。 您可以使用 pandas 读取 csv(如果是 csv 格式) 或 excel 文件 喜欢

     import pandas as pd
     df = pd.read_csv(file)

     df  = pd.read_excel(file)

分别。 Select 需要文本列并迭代 df 'column' 值并将它们传递给 spacy

的 nlp()