将 Sql 之类的自定义 dsl 查询转换为 ElasticSearch?
Convert Sql like custom dsl queries to ElasticSearch?
我们正在使用 antlr4 构建我们自己的类似于 Mysql 的查询语言。除了我们只使用 where clause
,换句话说,用户不会输入 select/from
语句。
我能够为它创建语法并在 golang 中生成 lexers/parsers/listeners。
下面我们的语法文件EsDslQuery.g4:
grammar EsDslQuery;
options {
language = Go;
}
query
: leftBracket = '(' query rightBracket = ')' #bracketExp
| leftQuery=query op=OR rightQuery=query #orLogicalExp
| leftQuery=query op=AND rightQuery=query #andLogicalExp
| propertyName=attrPath op=COMPARISON_OPERATOR propertyValue=attrValue #compareExp
;
attrPath
: ATTRNAME ('.' attrPath)?
;
fragment ATTR_NAME_CHAR
: '-' | '_' | ':' | DIGIT | ALPHA
;
fragment DIGIT
: ('0'..'9')
;
fragment ALPHA
: ( 'A'..'Z' | 'a'..'z' )
;
attrValue
: BOOLEAN #boolean
| NULL #null
| STRING #string
| DOUBLE #double
| '-'? INT EXP? #long
;
...
查询示例:color="red" and price=20000 or model="hyundai" and (seats=4 or year=2001)
ElasticSearch 支持 sql 带有插件的查询:https://github.com/elastic/elasticsearch/tree/master/x-pack/plugin/sql.
很难理解 java 代码。
由于我们有逻辑运算符,所以我不太确定如何获取解析树并将其转换为 ES 查询。有人可以 help/suggest 出主意吗?
更新 1:添加了更多示例以及相应的 ES 查询
查询示例 1:color="red" AND price=2000
ES 查询 1:
{
"query": {
"bool": {
"must": [
{
"terms": {
"color": [
"red"
]
}
},
{
"terms": {
"price": [
2000
]
}
}
]
}
},
"size": 100
}
查询示例2:color="red" AND price=2000 AND (model="hyundai" OR model="bmw")
ES 查询 2:
{
"query": {
"bool": {
"must": [
{
"bool": {
"must": {
"terms": {
"color": ["red"]
}
}
}
},
{
"bool": {
"must": {
"terms": {
"price": [2000]
}
}
}
},
{
"bool": {
"should": [
{
"term": {
"model": "hyundai"
}
},
{
"term": {
"region": "bmw"
}
}
]
}
}
]
}
},
"size": 100
}
查询示例3:color="red" OR color="blue"
ES 查询 3:
{
"query": {
"bool": {
"should": [
{
"bool": {
"must": {
"terms": {
"color": ["red"]
}
}
}
},
{
"bool": {
"must": {
"terms": {
"color": ["blue"]
}
}
}
}
]
}
},
"size": 100
}
您是否考虑过将类似 sql 的语句转换为 query string queries?
curl -X GET "localhost:9200/_search?pretty" -H 'Content-Type: application/json' -d'
{
"query": {
"query_string" : {
"query" : "(new york city) OR (big apple)",
"default_field" : "content"
}
}
}
'
如果您的用例像 color="red" and price=20000 or model="hyundai" and (seats=4 or year=2001)
一样简单,我会采用上述方法。语法相当 powerful 但查询保证 运行 比原生的拼写 DSL 查询慢,因为 ES 解析器需要为您将它们转换为 DSL。
有一个叫Dremio的软件https://www.dremio.com/
它可以将 SQL 查询转换为弹性搜索查询
https://www.dremio.com/tutorials/unlocking-sql-on-elasticsearch/
工作演示 url:https://github.com/omurbekjk/convert-dsl-to-es-query-with-antlr,预计花费时间:~3 周
在研究了 antlr4 和几个示例之后,我找到了带有监听器和堆栈的简单解决方案。类似于使用堆栈计算表达式的方式。
我们需要用我们的覆盖默认基础侦听器以获得每个 enter/exit 语法规则的触发器。重要规则是:
- 比较表达式(价格=200,价格>190)
- 逻辑运算符(或、与)
- 括号(为了正确构建 es 查询,我们需要编写正确的语法文件并记住运算符的优先级,这就是为什么括号在语法文件中排在第一位的原因)
下面是我用 golang 编写的自定义监听器代码:
package parser
import (
"github.com/olivere/elastic"
"strings"
)
type MyDslQueryListener struct {
*BaseDslQueryListener
Stack []*elastic.BoolQuery
}
func (ql *MyDslQueryListener) ExitCompareExp(c *CompareExpContext) {
boolQuery := elastic.NewBoolQuery()
attrName := c.GetPropertyName().GetText()
attrValue := strings.Trim(c.GetPropertyValue().GetText(), `\"`)
// Based on operator type we build different queries, default is terms query(=)
termsQuery := elastic.NewTermQuery(attrName, attrValue)
boolQuery.Must(termsQuery)
ql.Stack = append(ql.Stack, boolQuery)
}
func (ql *MyDslQueryListener) ExitAndLogicalExp(c *AndLogicalExpContext) {
size := len(ql.Stack)
right := ql.Stack[size-1]
left := ql.Stack[size-2]
ql.Stack = ql.Stack[:size-2] // Pop last two elements
boolQuery := elastic.NewBoolQuery()
boolQuery.Must(right)
boolQuery.Must(left)
ql.Stack = append(ql.Stack, boolQuery)
}
func (ql *MyDslQueryListener) ExitOrLogicalExp(c *OrLogicalExpContext) {
size := len(ql.Stack)
right := ql.Stack[size-1]
left := ql.Stack[size-2]
ql.Stack = ql.Stack[:size-2] // Pop last two elements
boolQuery := elastic.NewBoolQuery()
boolQuery.Should(right)
boolQuery.Should(left)
ql.Stack = append(ql.Stack, boolQuery)
}
和主文件:
package main
import (
"encoding/json"
"fmt"
"github.com/antlr/antlr4/runtime/Go/antlr"
"github.com/omurbekjk/convert-dsl-to-es-query-with-antlr/parser"
)
func main() {
fmt.Println("Starting here")
query := "price=2000 OR model=\"hyundai\" AND (color=\"red\" OR color=\"blue\")"
stream := antlr.NewInputStream(query)
lexer := parser.NewDslQueryLexer(stream)
tokenStream := antlr.NewCommonTokenStream(lexer, antlr.TokenDefaultChannel)
dslParser := parser.NewDslQueryParser(tokenStream)
tree := dslParser.Start()
listener := &parser.MyDslQueryListener{}
antlr.ParseTreeWalkerDefault.Walk(listener, tree)
esQuery := listener.Stack[0]
src, err := esQuery.Source()
if err != nil {
panic(err)
}
data, err := json.MarshalIndent(src, "", " ")
if err != nil {
panic(err)
}
stringEsQuery := string(data)
fmt.Println(stringEsQuery)
}
/** Generated es query
{
"bool": {
"should": [
{
"bool": {
"must": [
{
"bool": {
"should": [
{
"bool": {
"must": {
"term": {
"color": "blue"
}
}
}
},
{
"bool": {
"must": {
"term": {
"color": "red"
}
}
}
}
]
}
},
{
"bool": {
"must": {
"term": {
"model": "hyundai"
}
}
}
}
]
}
},
{
"bool": {
"must": {
"term": {
"price": "2000"
}
}
}
}
]
}
}
*/
我们正在使用 antlr4 构建我们自己的类似于 Mysql 的查询语言。除了我们只使用 where clause
,换句话说,用户不会输入 select/from
语句。
我能够为它创建语法并在 golang 中生成 lexers/parsers/listeners。
下面我们的语法文件EsDslQuery.g4:
grammar EsDslQuery;
options {
language = Go;
}
query
: leftBracket = '(' query rightBracket = ')' #bracketExp
| leftQuery=query op=OR rightQuery=query #orLogicalExp
| leftQuery=query op=AND rightQuery=query #andLogicalExp
| propertyName=attrPath op=COMPARISON_OPERATOR propertyValue=attrValue #compareExp
;
attrPath
: ATTRNAME ('.' attrPath)?
;
fragment ATTR_NAME_CHAR
: '-' | '_' | ':' | DIGIT | ALPHA
;
fragment DIGIT
: ('0'..'9')
;
fragment ALPHA
: ( 'A'..'Z' | 'a'..'z' )
;
attrValue
: BOOLEAN #boolean
| NULL #null
| STRING #string
| DOUBLE #double
| '-'? INT EXP? #long
;
...
查询示例:color="red" and price=20000 or model="hyundai" and (seats=4 or year=2001)
ElasticSearch 支持 sql 带有插件的查询:https://github.com/elastic/elasticsearch/tree/master/x-pack/plugin/sql.
很难理解 java 代码。
由于我们有逻辑运算符,所以我不太确定如何获取解析树并将其转换为 ES 查询。有人可以 help/suggest 出主意吗?
更新 1:添加了更多示例以及相应的 ES 查询
查询示例 1:color="red" AND price=2000
ES 查询 1:
{
"query": {
"bool": {
"must": [
{
"terms": {
"color": [
"red"
]
}
},
{
"terms": {
"price": [
2000
]
}
}
]
}
},
"size": 100
}
查询示例2:color="red" AND price=2000 AND (model="hyundai" OR model="bmw")
ES 查询 2:
{
"query": {
"bool": {
"must": [
{
"bool": {
"must": {
"terms": {
"color": ["red"]
}
}
}
},
{
"bool": {
"must": {
"terms": {
"price": [2000]
}
}
}
},
{
"bool": {
"should": [
{
"term": {
"model": "hyundai"
}
},
{
"term": {
"region": "bmw"
}
}
]
}
}
]
}
},
"size": 100
}
查询示例3:color="red" OR color="blue"
ES 查询 3:
{
"query": {
"bool": {
"should": [
{
"bool": {
"must": {
"terms": {
"color": ["red"]
}
}
}
},
{
"bool": {
"must": {
"terms": {
"color": ["blue"]
}
}
}
}
]
}
},
"size": 100
}
您是否考虑过将类似 sql 的语句转换为 query string queries?
curl -X GET "localhost:9200/_search?pretty" -H 'Content-Type: application/json' -d'
{
"query": {
"query_string" : {
"query" : "(new york city) OR (big apple)",
"default_field" : "content"
}
}
}
'
如果您的用例像 color="red" and price=20000 or model="hyundai" and (seats=4 or year=2001)
一样简单,我会采用上述方法。语法相当 powerful 但查询保证 运行 比原生的拼写 DSL 查询慢,因为 ES 解析器需要为您将它们转换为 DSL。
有一个叫Dremio的软件https://www.dremio.com/
它可以将 SQL 查询转换为弹性搜索查询
https://www.dremio.com/tutorials/unlocking-sql-on-elasticsearch/
工作演示 url:https://github.com/omurbekjk/convert-dsl-to-es-query-with-antlr,预计花费时间:~3 周
在研究了 antlr4 和几个示例之后,我找到了带有监听器和堆栈的简单解决方案。类似于使用堆栈计算表达式的方式。
我们需要用我们的覆盖默认基础侦听器以获得每个 enter/exit 语法规则的触发器。重要规则是:
- 比较表达式(价格=200,价格>190)
- 逻辑运算符(或、与)
- 括号(为了正确构建 es 查询,我们需要编写正确的语法文件并记住运算符的优先级,这就是为什么括号在语法文件中排在第一位的原因)
下面是我用 golang 编写的自定义监听器代码:
package parser
import (
"github.com/olivere/elastic"
"strings"
)
type MyDslQueryListener struct {
*BaseDslQueryListener
Stack []*elastic.BoolQuery
}
func (ql *MyDslQueryListener) ExitCompareExp(c *CompareExpContext) {
boolQuery := elastic.NewBoolQuery()
attrName := c.GetPropertyName().GetText()
attrValue := strings.Trim(c.GetPropertyValue().GetText(), `\"`)
// Based on operator type we build different queries, default is terms query(=)
termsQuery := elastic.NewTermQuery(attrName, attrValue)
boolQuery.Must(termsQuery)
ql.Stack = append(ql.Stack, boolQuery)
}
func (ql *MyDslQueryListener) ExitAndLogicalExp(c *AndLogicalExpContext) {
size := len(ql.Stack)
right := ql.Stack[size-1]
left := ql.Stack[size-2]
ql.Stack = ql.Stack[:size-2] // Pop last two elements
boolQuery := elastic.NewBoolQuery()
boolQuery.Must(right)
boolQuery.Must(left)
ql.Stack = append(ql.Stack, boolQuery)
}
func (ql *MyDslQueryListener) ExitOrLogicalExp(c *OrLogicalExpContext) {
size := len(ql.Stack)
right := ql.Stack[size-1]
left := ql.Stack[size-2]
ql.Stack = ql.Stack[:size-2] // Pop last two elements
boolQuery := elastic.NewBoolQuery()
boolQuery.Should(right)
boolQuery.Should(left)
ql.Stack = append(ql.Stack, boolQuery)
}
和主文件:
package main
import (
"encoding/json"
"fmt"
"github.com/antlr/antlr4/runtime/Go/antlr"
"github.com/omurbekjk/convert-dsl-to-es-query-with-antlr/parser"
)
func main() {
fmt.Println("Starting here")
query := "price=2000 OR model=\"hyundai\" AND (color=\"red\" OR color=\"blue\")"
stream := antlr.NewInputStream(query)
lexer := parser.NewDslQueryLexer(stream)
tokenStream := antlr.NewCommonTokenStream(lexer, antlr.TokenDefaultChannel)
dslParser := parser.NewDslQueryParser(tokenStream)
tree := dslParser.Start()
listener := &parser.MyDslQueryListener{}
antlr.ParseTreeWalkerDefault.Walk(listener, tree)
esQuery := listener.Stack[0]
src, err := esQuery.Source()
if err != nil {
panic(err)
}
data, err := json.MarshalIndent(src, "", " ")
if err != nil {
panic(err)
}
stringEsQuery := string(data)
fmt.Println(stringEsQuery)
}
/** Generated es query
{
"bool": {
"should": [
{
"bool": {
"must": [
{
"bool": {
"should": [
{
"bool": {
"must": {
"term": {
"color": "blue"
}
}
}
},
{
"bool": {
"must": {
"term": {
"color": "red"
}
}
}
}
]
}
},
{
"bool": {
"must": {
"term": {
"model": "hyundai"
}
}
}
}
]
}
},
{
"bool": {
"must": {
"term": {
"price": "2000"
}
}
}
}
]
}
}
*/