使用 Trie 在标记化的句子中搜索短语
Using a Trie to search through tokenized sentences for phrases
我正在寻求有关我正在尝试开发的程序的一部分的帮助。我最近实现了一个简单版本的文本搜索程序,它将标记化的句子存储在列表中,并使用 if 语句搜索短语。此过程有效,但需要很长时间才能完成。我发现了 Trie 数据结构,根据我的研究,它能够大大减少我的 运行 时间。我想知道是否有人有关于使用 Trie 搜索标记化句子列表中的短语的想法。并在匹配之后,返回包含搜索关键词的整个句子。顺便说一下,所有文本都是字符串格式。
我为 python 使用了一个库,它允许您通过 Tries 创建和搜索,如果您只想导入数据结构,这里有一个 link 到您可以下载它的地方。
https://pypi.org/project/marisa-trie/
我正在寻求有关我正在尝试开发的程序的一部分的帮助。我最近实现了一个简单版本的文本搜索程序,它将标记化的句子存储在列表中,并使用 if 语句搜索短语。此过程有效,但需要很长时间才能完成。我发现了 Trie 数据结构,根据我的研究,它能够大大减少我的 运行 时间。我想知道是否有人有关于使用 Trie 搜索标记化句子列表中的短语的想法。并在匹配之后,返回包含搜索关键词的整个句子。顺便说一下,所有文本都是字符串格式。
我为 python 使用了一个库,它允许您通过 Tries 创建和搜索,如果您只想导入数据结构,这里有一个 link 到您可以下载它的地方。 https://pypi.org/project/marisa-trie/