如何标记从 Neo4j 复制到 Elastic search 的数据?

How do I tokenize data that is replicated from Neo4j to Elastic search?

在我的 Neo4j 图表中,我只需要一种特定类型的节点可供用户搜索。此节点有标签 "Synonym" 并且只有一个 属性、"alias"。

我正在使用 GraphAware Neo4j Elasticsearch Integration (Neo4j Module) 将图表复制到弹性搜索,即它为我创建了一个弹性搜索索引。然后我可以查询

CALL ga.es.queryNode('{\"query\":{\"match\":{\"alias\":\"mySynonym\"}}}')
YIELD node RETURN node

这可行,但我想对我的同义词使用 n gram tokenizer,即 "alias" 属性。目前,上面的查询只有 returns 在我输入全名后得到结果,即 "mySynonym",但当我只输入 "myS".

时则不会

在模块文档中我找不到任何关于分词器的信息。所以我尝试像这样更新由 Neo4J 模块创建的弹性搜索索引:

PUT neo4j-index-node/_settings
{

    "analysis": {
      "analyzer": {
        "my_analyser": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "edge_ngram",
          "min_gram": 2,
          "max_gram": 20,
          "token_chars": [
            "letter",
            "digit",
            "punctuation"
          ]
        }
      }
    }
}

然后:

    PUT neo4j-index-node/_mapping/Synonym?update_all_types 
{
  "properties": {
    "alias": {
      "type": "text",
      "analyzer": "my_analyser",
      "search_analyzer": "my_analyser"
    }
  }
}

第二条命令报错:

Mapper for [alias] conflicts with existing mapping in other types:\n[mapper [alias] has different [analyzer]

我在某处读到,在创建索引后无法更改映射。但是我的索引是由 Neo4j 模块创建的,我不知道如何预先指定分词器。

有什么想法吗?谢谢!

您确实无法修改现有映射。删除所有现有索引。尝试先为 Neo4j 索引创建 ES 模板(在导入 Neo4j 数据之前)。

模板可以这样创建:

PUT _template/template_1
{
  "template": "te*",
  "settings": {
    "number_of_shards": 1
  },
  "mappings": {
    "type1": {
      "_source": {
        "enabled": false
      },
      "properties": {
        "host_name": {
          "type": "keyword"
        },
        "created_at": {
          "type": "date",
          "format": "EEE MMM dd HH:mm:ss Z YYYY"
        }
      }
    }
  }
}

.. 在 模板 中设置您的索引模式。然后在 settings 部分中添加您的自定义分析器,如下所示:

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type":      "custom",
          "tokenizer": "standard",
          "char_filter": [
            "html_strip"
          ],
          "filter": [
            "lowercase",
            "asciifolding"
          ]
        }
      }
    }
  }
}

.. 然后开始索引数据。我向您展示了 2 个示例查询,但您应该将它们组合成一个