有没有一种方法可以使用 ML 将合同文件和目标字符串作为输入和输出从合同中提取信息?
Is there a way to extract information from contracts using ML with including contract files and targeted strings as inputs and outputs?
我正在做一个与工作相关的项目,我应该研究是否可以从合同中自动提取某些信息字段(例如合同方、开始和结束日期)。
我对处理文本数据还很陌生,想知道是否可以通过将整个合同作为输入并将信息作为输出而不标记或注释整个文本来使用 ML 提取这些信息?
我知道应该运行 为每个目标字段单独提取。
谢谢!
第一个问题 - 合同是如何存储的?它们是 PDF 还是基于文本的?
如果它们是 PDF,则有一些包可以从 PDF 中提取文本(例如 pdftotext)。
第二个问题 - 您要查找的数据是否在每个文档中的相同位置?
如果是这样,您可以从合同中的已知位置提取您要查找的信息(例如开始日期和结束日期)。如果没有,您将不得不做一些更复杂的事情。例如,如果每个合同都使用相同的术语,您可能需要对 "start date" 进行文本搜索。如果不同合同使用不同的术语,您可能需要努力从文本中提取 含义 ,这可以使用一些复杂的自然语言处理 (NLP) 来完成。
在不了解您的问题或没有具体示例的情况下,很难说您的最佳选择是什么。
我正在做一个与工作相关的项目,我应该研究是否可以从合同中自动提取某些信息字段(例如合同方、开始和结束日期)。 我对处理文本数据还很陌生,想知道是否可以通过将整个合同作为输入并将信息作为输出而不标记或注释整个文本来使用 ML 提取这些信息?
我知道应该运行 为每个目标字段单独提取。
谢谢!
第一个问题 - 合同是如何存储的?它们是 PDF 还是基于文本的?
如果它们是 PDF,则有一些包可以从 PDF 中提取文本(例如 pdftotext)。
第二个问题 - 您要查找的数据是否在每个文档中的相同位置?
如果是这样,您可以从合同中的已知位置提取您要查找的信息(例如开始日期和结束日期)。如果没有,您将不得不做一些更复杂的事情。例如,如果每个合同都使用相同的术语,您可能需要对 "start date" 进行文本搜索。如果不同合同使用不同的术语,您可能需要努力从文本中提取 含义 ,这可以使用一些复杂的自然语言处理 (NLP) 来完成。
在不了解您的问题或没有具体示例的情况下,很难说您的最佳选择是什么。