Python: 如何从文本文件中获取包含给定关键字的段落
Python: How can I fetch passages containing given keywords from a text file
我正在尝试实现一个基于事实的问答系统。到目前为止,我已经检索到可能包含答案的候选文本文档。
但现在我被困在必须根据提供的关键字从文档中提取正确段落的地方。
我已经简要研究了 LCC 和 InsightSoft 等方法,但不知道如何前进。
考虑到我有一个包含很多段落(段落)的文档。我想根据某些关键字对这些段落进行排名。
示例:
关键词- 豹, 狮子
第 1 段:“..没有关于 leopard 或 leopard 的句子。”“
第 2 段:"..关于 lion.."的几句话
第 3 段:"..关于 lion 和 leopard.." 的句子
目标:对第 2 段和第 3 段进行排名(或获取)
我怎样才能实现(编程)相同的东西?
有没有办法根据词性标注器提供给关键词的标签对这些段落进行排名?
现有算法的任何代码或实现都将受到赞赏。请在解释时详细说明,因为我不是 Python.
方面的专家
看看关于堆栈溢出的 this 问题,它的思路是一样的。
您将想要标记您的段落和输入,您的输出可能只是包含查询中某个词的每个段落,或者结果可以使用 vector space model.[=12= 进行排名]
我正在尝试实现一个基于事实的问答系统。到目前为止,我已经检索到可能包含答案的候选文本文档。 但现在我被困在必须根据提供的关键字从文档中提取正确段落的地方。
我已经简要研究了 LCC 和 InsightSoft 等方法,但不知道如何前进。
考虑到我有一个包含很多段落(段落)的文档。我想根据某些关键字对这些段落进行排名。
示例:
关键词- 豹, 狮子
第 1 段:“..没有关于 leopard 或 leopard 的句子。”“
第 2 段:"..关于 lion.."的几句话
第 3 段:"..关于 lion 和 leopard.." 的句子
目标:对第 2 段和第 3 段进行排名(或获取)
我怎样才能实现(编程)相同的东西? 有没有办法根据词性标注器提供给关键词的标签对这些段落进行排名?
现有算法的任何代码或实现都将受到赞赏。请在解释时详细说明,因为我不是 Python.
方面的专家看看关于堆栈溢出的 this 问题,它的思路是一样的。
您将想要标记您的段落和输入,您的输出可能只是包含查询中某个词的每个段落,或者结果可以使用 vector space model.[=12= 进行排名]