弹性搜索正则表达式不起作用
elasticsearch regexp don't work
我需要在 elasticsearch 上做一个正则表达式来过滤一些数据。
我过滤的字段是人名。数据的格式并不总是正确的(有时,没有名字,有时,姓氏后跟句点或逗号或 'comma+first name' 或 'point+first name'...)。
例如,使用 "bouchard" 我得到以下匹配项:
"bouchard", "bouchard, m.", "bouchard, j.", "bouchard j.p.", "bouchard. j.p."
我还需要排除以 "bouchardat".
等相同前缀开头的名称
我尝试了很多正则表达式,最后发现排除可能会产生更好的结果:
"query" : { "regexp" : {
"RECORDEDBY" : "bouchard([^a-z].*)"
}}
这不起作用,因为它 returns "bouchard, m."、"bouchard, j."、"bouchard j.p." 而不是 "bouchard. j.p." 而不是 "bouchard".
我尝试了一些带有 + 和 .* 的正则表达式,但它们不起作用。
( "bouchard([^a-z].*.*)" "bouchard([^a-z]*+.*)")
为了说清楚,我想允许:
bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.
我要排除
bouchardat
欢迎任何建议。
在这种情况下,如果没有像“</code>”、“[=14=”这样的特殊字符,您可以使用 <a href="http://www.regular-expressions.info/conditional.html" rel="nofollow">conditional operator</a> 来排除每个 <code>[a-z]
后缀]' 或 ',
' 跟在您要查找的单词之后:
((bouchard)+?([ .,]+)[ ,.a-zA-Z]*)|(bouchard[^a-zA-Z]?)
条件的正则表达式 returns(必须有 [ .,]+
):
bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.
并忽略管道 |
之后没有 [ .,]+
的内容:
bouchardat
我需要在 elasticsearch 上做一个正则表达式来过滤一些数据。 我过滤的字段是人名。数据的格式并不总是正确的(有时,没有名字,有时,姓氏后跟句点或逗号或 'comma+first name' 或 'point+first name'...)。
例如,使用 "bouchard" 我得到以下匹配项:
"bouchard", "bouchard, m.", "bouchard, j.", "bouchard j.p.", "bouchard. j.p."
我还需要排除以 "bouchardat".
等相同前缀开头的名称我尝试了很多正则表达式,最后发现排除可能会产生更好的结果:
"query" : { "regexp" : {
"RECORDEDBY" : "bouchard([^a-z].*)"
}}
这不起作用,因为它 returns "bouchard, m."、"bouchard, j."、"bouchard j.p." 而不是 "bouchard. j.p." 而不是 "bouchard".
我尝试了一些带有 + 和 .* 的正则表达式,但它们不起作用。
( "bouchard([^a-z].*.*)" "bouchard([^a-z]*+.*)")
为了说清楚,我想允许:
bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.
我要排除
bouchardat
欢迎任何建议。
在这种情况下,如果没有像“</code>”、“[=14=”这样的特殊字符,您可以使用 <a href="http://www.regular-expressions.info/conditional.html" rel="nofollow">conditional operator</a> 来排除每个 <code>[a-z]
后缀]' 或 ',
' 跟在您要查找的单词之后:
((bouchard)+?([ .,]+)[ ,.a-zA-Z]*)|(bouchard[^a-zA-Z]?)
条件的正则表达式 returns(必须有 [ .,]+
):
bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.
并忽略管道 |
之后没有 [ .,]+
的内容:
bouchardat