使用 Elastic Search Geo 功能查找最常见的位置?

Using Elastic Search Geo Functionality To Find Most Common Locations?

我有一个包含位置列表的 geojson 文件,每个位置都有经度、纬度和时间戳。注意经度和纬度乘以 10000000。

{
  "locations" : [ {
    "timestampMs" : "1461820561530",
    "latitudeE7" : -378107308,
    "longitudeE7" : 1449654070,
    "accuracy" : 35,
    "junk_i_want_to_save_but_ignore" : [ { .. } ]
  }, {
    "timestampMs" : "1461820455813",
    "latitudeE7" : -378107279,
    "longitudeE7" : 1449673809,
    "accuracy" : 33
  }, {
    "timestampMs" : "1461820281089",
    "latitudeE7" : -378105184,
    "longitudeE7" : 1449254023,
    "accuracy" : 35
  }, {
    "timestampMs" : "1461820155814",
    "latitudeE7" : -378177434,
    "longitudeE7" : 1429653949,
    "accuracy" : 34
  }
  ..

其中许多位置将是相同的物理位置(例如用户的家),但显然经度和纬度可能不完全相同。

我想使用 Elastic Search 及其 Geo 功能来生成最常见位置的排名列表,如果这些位置在例如 100 米以内,则它们被视为相同?

对于每个常见位置,如果可能的话,我还想要他们在该位置的所有时间戳的列表!

我非常感谢一个示例查询来帮助我入门!

非常感谢。

为了使其正常工作,您需要像这样修改您的映射:

PUT /locations
{
  "mappings": {
    "location": {
      "properties": {
        "location": {
          "type": "geo_point"
        },
        "timestampMs": {
          "type": "long"
        },
        "accuracy": {
          "type": "long"
        }
      }
    }
  }
}

然后,在索引文档时,需要将经纬度除以10000000,索引如下:

PUT /locations/location/1
{
  "timestampMs": "1461820561530",
  "location": {
    "lat": -37.8103308,
    "lon": 14.4967407
  },
  "accuracy": 35
}

最后,您的搜索查询如下...

POST /locations/location/_search
{
  "aggregations": {
    "zoomedInView": {
      "filter": {
        "geo_bounding_box": {
          "location": {
            "top_left": "-37, 14",
            "bottom_right": "-38, 15"
          }
        }
      },
      "aggregations": {
        "zoom1": {
          "geohash_grid": {
            "field": "location",
            "precision": 6
          },
          "aggs": {
            "ts": {
              "date_histogram": {
                "field": "timestampMs",
                "interval": "15m",
                "format": "DDD yyyy-MM-dd HH:mm"
              }
            }
          }
        }
      }
    }
  }
}

...将产生以下结果:

{
  "aggregations": {
    "zoomedInView": {
      "doc_count": 1,
      "zoom1": {
        "buckets": [
          {
            "key": "k362cu",
            "doc_count": 1,
            "ts": {
              "buckets": [
                {
                  "key_as_string": "Thu 2016-04-28 05:15",
                  "key": 1461820500000,
                  "doc_count": 1
                }
              ]
            }
          }
        ]
      }
    }
  }
}

更新

根据我们的讨论,这里有一个适合您的解决方案。使用 Logstash, you can call your API and retrieve the big JSON document (using the http_poller input), extract/transform all locations and sink them to Elasticsearch (with the elasticsearch output) 非常容易。

以下是如何按照我最初的回答中描述的那样格式化每个事件。

  1. 使用 http_poller 您可以检索 JSON 位置(请注意,我已将轮询间隔设置为 1 天,但您可以将其更改为其他值,或者只是 运行 每次要检索位置时手动 Logstash)
  2. 然后我们split将位置数组放入单个事件
  3. 然后我们将 latitude/longitude 字段除以 10,000,000 以获得正确的坐标
  4. 我们还需要通过移动和删除一些字段来稍微清理一下
  5. 最后,我们将每个事件发送到 Elasticsearch

Logstash 配置locations.conf:

input {
  http_poller {
    urls => {
      get_locations => {
        method => get
        url => "http://your_api.com/locations.json"
        headers => {
          Accept => "application/json"
        }
      }
    }
    request_timeout => 60
    interval => 86400000
    codec => "json"
  }
}
filter {
  split {
    field => "locations" 
  }
  ruby {
    code => "
      event['location'] = {
        'lat' => event['locations']['latitudeE7'] / 10000000.0,
        'lon' => event['locations']['longitudeE7'] / 10000000.0
      }
    "
  }
  mutate {
    add_field => {
      "timestampMs" => "%{[locations][timestampMs]}"
      "accuracy" => "%{[locations][accuracy]}"
      "junk_i_want_to_save_but_ignore" => "%{[locations][junk_i_want_to_save_but_ignore]}"
    }
    remove_field => [
      "locations", "@timestamp", "@version" 
    ]
  }
}
output {
  elasticsearch {
    hosts => ["localhost:9200"]
    index => "locations"
    document_type => "location"
  }
}

然后您可以 运行 使用以下命令:

bin/logstash -f locations.conf

当它有 运行 时,您可以启动搜索查询,您应该会得到您期望的结果。