如何标记从 Neo4j 复制到 Elastic search 的数据?
How do I tokenize data that is replicated from Neo4j to Elastic search?
在我的 Neo4j 图表中,我只需要一种特定类型的节点可供用户搜索。此节点有标签 "Synonym" 并且只有一个 属性、"alias"。
我正在使用 GraphAware Neo4j Elasticsearch Integration (Neo4j Module) 将图表复制到弹性搜索,即它为我创建了一个弹性搜索索引。然后我可以查询
CALL ga.es.queryNode('{\"query\":{\"match\":{\"alias\":\"mySynonym\"}}}')
YIELD node RETURN node
这可行,但我想对我的同义词使用 n gram tokenizer,即 "alias" 属性。目前,上面的查询只有 returns 在我输入全名后得到结果,即 "mySynonym",但当我只输入 "myS".
时则不会
在模块文档中我找不到任何关于分词器的信息。所以我尝试像这样更新由 Neo4J 模块创建的弹性搜索索引:
PUT neo4j-index-node/_settings
{
"analysis": {
"analyzer": {
"my_analyser": {
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {
"type": "edge_ngram",
"min_gram": 2,
"max_gram": 20,
"token_chars": [
"letter",
"digit",
"punctuation"
]
}
}
}
}
然后:
PUT neo4j-index-node/_mapping/Synonym?update_all_types
{
"properties": {
"alias": {
"type": "text",
"analyzer": "my_analyser",
"search_analyzer": "my_analyser"
}
}
}
第二条命令报错:
Mapper for [alias] conflicts with existing mapping in other
types:\n[mapper [alias] has different [analyzer]
我在某处读到,在创建索引后无法更改映射。但是我的索引是由 Neo4j 模块创建的,我不知道如何预先指定分词器。
有什么想法吗?谢谢!
您确实无法修改现有映射。删除所有现有索引。尝试先为 Neo4j 索引创建 ES 模板(在导入 Neo4j 数据之前)。
模板可以这样创建:
PUT _template/template_1
{
"template": "te*",
"settings": {
"number_of_shards": 1
},
"mappings": {
"type1": {
"_source": {
"enabled": false
},
"properties": {
"host_name": {
"type": "keyword"
},
"created_at": {
"type": "date",
"format": "EEE MMM dd HH:mm:ss Z YYYY"
}
}
}
}
}
.. 在 模板 中设置您的索引模式。然后在 settings 部分中添加您的自定义分析器,如下所示:
PUT my_index
{
"settings": {
"analysis": {
"analyzer": {
"my_custom_analyzer": {
"type": "custom",
"tokenizer": "standard",
"char_filter": [
"html_strip"
],
"filter": [
"lowercase",
"asciifolding"
]
}
}
}
}
}
.. 然后开始索引数据。我向您展示了 2 个示例查询,但您应该将它们组合成一个
在我的 Neo4j 图表中,我只需要一种特定类型的节点可供用户搜索。此节点有标签 "Synonym" 并且只有一个 属性、"alias"。
我正在使用 GraphAware Neo4j Elasticsearch Integration (Neo4j Module) 将图表复制到弹性搜索,即它为我创建了一个弹性搜索索引。然后我可以查询
CALL ga.es.queryNode('{\"query\":{\"match\":{\"alias\":\"mySynonym\"}}}')
YIELD node RETURN node
这可行,但我想对我的同义词使用 n gram tokenizer,即 "alias" 属性。目前,上面的查询只有 returns 在我输入全名后得到结果,即 "mySynonym",但当我只输入 "myS".
时则不会在模块文档中我找不到任何关于分词器的信息。所以我尝试像这样更新由 Neo4J 模块创建的弹性搜索索引:
PUT neo4j-index-node/_settings
{
"analysis": {
"analyzer": {
"my_analyser": {
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {
"type": "edge_ngram",
"min_gram": 2,
"max_gram": 20,
"token_chars": [
"letter",
"digit",
"punctuation"
]
}
}
}
}
然后:
PUT neo4j-index-node/_mapping/Synonym?update_all_types
{
"properties": {
"alias": {
"type": "text",
"analyzer": "my_analyser",
"search_analyzer": "my_analyser"
}
}
}
第二条命令报错:
Mapper for [alias] conflicts with existing mapping in other types:\n[mapper [alias] has different [analyzer]
我在某处读到,在创建索引后无法更改映射。但是我的索引是由 Neo4j 模块创建的,我不知道如何预先指定分词器。
有什么想法吗?谢谢!
您确实无法修改现有映射。删除所有现有索引。尝试先为 Neo4j 索引创建 ES 模板(在导入 Neo4j 数据之前)。
模板可以这样创建:
PUT _template/template_1
{
"template": "te*",
"settings": {
"number_of_shards": 1
},
"mappings": {
"type1": {
"_source": {
"enabled": false
},
"properties": {
"host_name": {
"type": "keyword"
},
"created_at": {
"type": "date",
"format": "EEE MMM dd HH:mm:ss Z YYYY"
}
}
}
}
}
.. 在 模板 中设置您的索引模式。然后在 settings 部分中添加您的自定义分析器,如下所示:
PUT my_index
{
"settings": {
"analysis": {
"analyzer": {
"my_custom_analyzer": {
"type": "custom",
"tokenizer": "standard",
"char_filter": [
"html_strip"
],
"filter": [
"lowercase",
"asciifolding"
]
}
}
}
}
}
.. 然后开始索引数据。我向您展示了 2 个示例查询,但您应该将它们组合成一个