PostgreSQL:将一组关键字(任意)与多语言文本匹配

PostgreSQL: match a group of keywords (any) with multilanguage text

在 Postgre 12.0 中,我需要检查包含文本的特定列(可以是多种语言,没有可靠指示文本实际使用的语言)是否包含一组关键字中的任何一个。 关键字可以是单个词或特定短语。 (然而,大小写匹配是不可取的)

如果有匹配项,我想 return 相应的行。

我有一个 table,它有文档的数字标识符 (id1)、文档部分的数字标识符 (id2) 和包含 HTML 中文本的 varchar 列(内容)

关键字存储在单独的 table 关键字中,简单地作为 id 和 varchar(包含关键字/“搜索词”)

我想我应该使用包含 to_tsvector()

的查询
SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', kw.keyword);

如您所见,这不会 运行,因为我需要获取该匹配项的关键字列表。

我唯一的想法是首先通过连接关键字 table 中的所有关键字来构造一个用于匹配的字符串 然后使用它,如

SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', 'kw1 | kw2 | kw3 ... | kwN');

但是为此,我仍在为如何解析它而苦苦挣扎,我唯一想出的是这样的东西:

SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', (SELECT 
string_agg(keyword, ' | ') AS keyword
FROM keywords) );

你能帮忙吗?

您可以使用短语搜索功能。因此,对于您评论中的示例,您可能希望使用 tsquery kw1 | specific <-> words。您可以将多词短语存储在 table 中,而 <-> 已经存在,或者可以使用 regexp_replace 将空格转换为 <->

SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', (SELECT 
string_agg(regexp_replace(keyword,' ',' <-> ','g'), ' | ') AS keyword
FROM keywords) );

如果您有带连字符的单词或短语,那就搞砸了。