PostgreSQL:将一组关键字(任意)与多语言文本匹配
PostgreSQL: match a group of keywords (any) with multilanguage text
在 Postgre 12.0 中,我需要检查包含文本的特定列(可以是多种语言,没有可靠指示文本实际使用的语言)是否包含一组关键字中的任何一个。
关键字可以是单个词或特定短语。 (然而,大小写匹配是不可取的)
如果有匹配项,我想 return 相应的行。
我有一个 table,它有文档的数字标识符 (id1)、文档部分的数字标识符 (id2) 和包含 HTML 中文本的 varchar 列(内容)
关键字存储在单独的 table 关键字中,简单地作为 id 和 varchar(包含关键字/“搜索词”)
我想我应该使用包含 to_tsvector()
的查询
SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', kw.keyword);
如您所见,这不会 运行,因为我需要获取该匹配项的关键字列表。
我唯一的想法是首先通过连接关键字 table 中的所有关键字来构造一个用于匹配的字符串
然后使用它,如
SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', 'kw1 | kw2 | kw3 ... | kwN');
但是为此,我仍在为如何解析它而苦苦挣扎,我唯一想出的是这样的东西:
SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', (SELECT
string_agg(keyword, ' | ') AS keyword
FROM keywords) );
你能帮忙吗?
您可以使用短语搜索功能。因此,对于您评论中的示例,您可能希望使用 tsquery kw1 | specific <-> words
。您可以将多词短语存储在 table 中,而 <->
已经存在,或者可以使用 regexp_replace 将空格转换为 <->
SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', (SELECT
string_agg(regexp_replace(keyword,' ',' <-> ','g'), ' | ') AS keyword
FROM keywords) );
如果您有带连字符的单词或短语,那就搞砸了。
在 Postgre 12.0 中,我需要检查包含文本的特定列(可以是多种语言,没有可靠指示文本实际使用的语言)是否包含一组关键字中的任何一个。 关键字可以是单个词或特定短语。 (然而,大小写匹配是不可取的)
如果有匹配项,我想 return 相应的行。
我有一个 table,它有文档的数字标识符 (id1)、文档部分的数字标识符 (id2) 和包含 HTML 中文本的 varchar 列(内容)
关键字存储在单独的 table 关键字中,简单地作为 id 和 varchar(包含关键字/“搜索词”)
我想我应该使用包含 to_tsvector()
的查询SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', kw.keyword);
如您所见,这不会 运行,因为我需要获取该匹配项的关键字列表。
我唯一的想法是首先通过连接关键字 table 中的所有关键字来构造一个用于匹配的字符串 然后使用它,如
SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', 'kw1 | kw2 | kw3 ... | kwN');
但是为此,我仍在为如何解析它而苦苦挣扎,我唯一想出的是这样的东西:
SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', (SELECT
string_agg(keyword, ' | ') AS keyword
FROM keywords) );
你能帮忙吗?
您可以使用短语搜索功能。因此,对于您评论中的示例,您可能希望使用 tsquery kw1 | specific <-> words
。您可以将多词短语存储在 table 中,而 <->
已经存在,或者可以使用 regexp_replace 将空格转换为 <->
SELECT
mt.*
FROM
mytable mt
WHERE
to_tsvector('simple', mt.contents) @@
to_tsquery('simple', (SELECT
string_agg(regexp_replace(keyword,' ',' <-> ','g'), ' | ') AS keyword
FROM keywords) );
如果您有带连字符的单词或短语,那就搞砸了。