使用 spacy 的表格数据

Tabular data using spacy

我正在使用 Spacy,需要一些帮助来使用 word/pdf 文档中以表格格式给出的自定义实体来训练我们的模型。

我可以使用基于 ANIMAL 示例的自定义实体对其进行训练,并且运行良好。在这种情况下,我们在给定文本中提供上述自定义实体的开始和结束索引。

("Horses are too tall and they pretend to care about your feelings", {
    'entities': [(0, 6, 'ANIMAL')]
}),

我的问题是表格格式:
我怎样才能给出像 ANIMAL 示例这样的索引?
谁能指导和协助?

经过大量的研究和文章,我找到了一种通过它的方法。

  1. 将此 table 转换为文本。
  2. 当您将其转换为文本时。这将添加很多空格等
  3. 将它们替换为空格。
  4. 这会将您 table 转换为段落。
  5. 现在您可以将索引作为句子给出,并训练您的模型。

此外,您可以使用依赖解析器算法找到与 head 链接的正确值(以防一个值属于多个键)

您也可以简单地使用 pd.read_html([[在此处传递您的 html]]),这将 return 您可以使用的数据帧列表。

谢谢。