优化与地理距离相关的 MySQL 查询

Optimizing a Geo-Distance Related MySQL Query

我有以下 MySQL 查询:

SELECT 
a.*, 
( 3959 * acos( cos( radians('47.3909') ) * cos( radians( a.lat ) ) * cos( radians( a.lng ) - radians('-122.2637') ) + sin( radians('47.3909') ) * sin( radians( a.lat ) ) ) ) AS distance 
FROM zip_codes AS a 
ORDER BY distance ASC 
LIMIT 1;

这将为我提供 zip_codes table 中最接近我指定坐标的邮政编码。

但是,这运行宁相当慢!大约 1 秒。所有类似的查询 运行 也都在 1 秒左右。我想知道我是否可以优化我的 table 结构或查询以缩短查询时间。

这是我的架构 zip_codes table:

CREATE TABLE `zip_codes` (
  `zip` varchar(10) COLLATE utf8_unicode_ci NOT NULL,
  `city` varchar(64) CHARACTER SET utf8 DEFAULT NULL,
  `state` char(2) CHARACTER SET utf8 DEFAULT NULL,
  `type` char(1) CHARACTER SET utf8 DEFAULT NULL,
  `timezone` int(11) DEFAULT NULL,
  `lat` varchar(255) CHARACTER SET utf8 DEFAULT NULL,
  `lng` varchar(255) CHARACTER SET utf8 DEFAULT NULL,
  `country` varchar(2) COLLATE utf8_unicode_ci DEFAULT '',
  PRIMARY KEY (`zip`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci ROW_FORMAT=COMPACT;

UPDATE 我将 latlng 的字段类型更改为 DECIMAL,现在查询实际上花费了更长的时间,令人惊讶!

好的,所以我必须警告你,这绝对不是一个完美的解决方案,并且有以下缺点:

  1. 它不适用于美国的所有点。例如,如果您 select 在阿拉斯加的某个地方,距离 table 中的每个邮政编码中心超过 50 公里,它将 return 什么都没有

  2. 需要MyISAM存储引擎

  3. in 包含硬编码值(请参阅第 1 点中的 ~50 公里)。它不完全是 50 公里,并且随经度变化。

先决条件:

鉴于您发送的转储,您应该启动以下查询:

ALTER TABLE `zip_codes` ENGINE=MYISAM; -- changing your storage engine to MyISAM. It supports spatial indexes in MySQL
ALTER TABLE `zip_codes` ADD `pt` POINT NOT NULL; -- adding POINT() spatial datatype for zip cetner. Eventually, you may remove the old lat/lng decimal columns
ALTER TABLE `zip_codes` ADD `region` POLYGON NOT NULL; -- adding a rectangle over the center of the zip code. See below, this is something to utilize spatial index later in ST_Intersects function

// update the new columns with respective values
UPDATE `zip_codes` SET `pt` = POINT(lat,lng);
UPDATE `zip_codes` SET `region` = GEOMFROMTEXT(CONCAT('POLYGON((',lat-0.5,' ',lng-0.5,', ',lat+0.5,' ',lng-0.5,', ',lat+0.5,' ',lng+0.5,', ',lat-0.5,' ',lng+0.5,', ',lat-0.5,' ',lng-0.5,'))')); -- 0.5 is 0.5 degrees hardcode. There is a better approach and it's better to write a MySQL function that will increase the MBR with certain step until there is intersection (see my point #1 above, this is the best solution)

// create indexes on the newly created columns
ALTER TABLE `zip_codes` ADD SPATIAL INDEX(`region`);
ALTER TABLE `zip_codes` ADD SPATIAL INDEX(`pt`);

新查询

SELECT SQL_NO_CACHE zip,ST_Distance(`pt`,POINT('47.3909','-122.2637')) AS dst
FROM `zip_codes`
WHERE ST_Intersects(POINT('47.3909','-122.2637'),`region`)
ORDER BY `dst`
LIMIT 1;

在我的机器上大约需要 0.011 秒,这要好得多。

但是,再次看到我在更新声明附近的评论,你应该考虑两件事:

  1. 编写一个函数,该函数将以 0.5 度(例如)的步长增加最小边界矩形,直到出现交点
  2. 转向 PostgreSQL + PostGIS 扩展。如果您处理需要空间扩展的记录数量,功能会更强大