【问题标题】:Searching the 5 closest locations to a zip code - what way should I go?搜索距离邮政编码最近的 5 个位置 - 我应该怎么走?
【发布时间】:2018-11-04 22:48:27
【问题描述】:

我想要什么:

  1. 用户输入邮政编码或城市名称
  2. 我在我的数据库中搜索最近的 5 个位置
  3. 向用户显示该位置附近最近的 5 个位置

我目前所拥有的:

假设一个包含以下内容的地点表:

(大约 16000 行)

CREATE TABLE `locations` (
 `locationID` int(11) NOT NULL AUTO_INCREMENT,
 `name` varchar(150) NOT NULL,
 `firstname` varchar(100) DEFAULT NULL,
 `lastname` varchar(100) DEFAULT NULL,
 `street` varchar(100) NOT NULL,
 `city` varchar(100) NOT NULL,
 `state` varchar(100) NOT NULL,
 `zipcode` varchar(10) NOT NULL,
 `phone` varchar(20) NOT NULL,
 `web` varchar(255) DEFAULT NULL,
 `machine` enum('Unbekannt','Foo','Bar') DEFAULT 'Unbekannt',
 `surface` enum('Unbekannt','Foo','Bar','') DEFAULT 'Unbekannt',
 PRIMARY KEY (`locationID`)
) ENGINE=InnoDB AUTO_INCREMENT=25 DEFAULT CHARSET=utf8
  1. 身份证
  2. 姓名
  3. 邮政编码
  4. 城市

现在我有了第二张桌子,里面有世界上所有的城镇:

(大约 340 万 行)

CREATE TABLE `geoData` (
 `geoID` int(11) NOT NULL AUTO_INCREMENT,
 `countryCode` char(2) NOT NULL,
 `zipCode` varchar(20) NOT NULL,
 `name` varchar(180) NOT NULL,
 `state` varchar(100) NOT NULL,
 `stateCode` varchar(20) NOT NULL,
 `county` varchar(100) NOT NULL,
 `countyCode` varchar(20) NOT NULL,
 `community` varchar(100) NOT NULL,
 `communityCode` varchar(20) NOT NULL,
 `lat` mediumint(6) NOT NULL,
 `lon` mediumint(6) NOT NULL,
 PRIMARY KEY (`lon`,`lat`,`geoID`) USING BTREE,
 KEY `geoID` (`geoID`)
) ENGINE=InnoDB AUTO_INCREMENT=16482 DEFAULT CHARSET=utf8
/*!50100 PARTITION BY RANGE (lat)
(PARTITION p0 VALUES LESS THAN (-880000) ENGINE = InnoDB,
PARTITION p1 VALUES LESS THAN (-860000) ENGINE = InnoDB,
PARTITION p2 VALUES LESS THAN (-840000) ENGINE = InnoDB,
PARTITION p3 VALUES LESS THAN (-820000) ENGINE = InnoDB,
PARTITION p4 VALUES LESS THAN (-800000) ENGINE = InnoDB,
PARTITION p5 VALUES LESS THAN (-780000) ENGINE = InnoDB,
PARTITION p6 VALUES LESS THAN (-760000) ENGINE = InnoDB,
PARTITION p7 VALUES LESS THAN (-740000) ENGINE = InnoDB,
PARTITION p8 VALUES LESS THAN (-720000) ENGINE = InnoDB,
PARTITION p9 VALUES LESS THAN (-700000) ENGINE = InnoDB,
PARTITION p10 VALUES LESS THAN (-680000) ENGINE = InnoDB,
PARTITION p11 VALUES LESS THAN (-660000) ENGINE = InnoDB,
PARTITION p12 VALUES LESS THAN (-640000) ENGINE = InnoDB,
PARTITION p13 VALUES LESS THAN (-620000) ENGINE = InnoDB,
PARTITION p14 VALUES LESS THAN (-600000) ENGINE = InnoDB,
PARTITION p15 VALUES LESS THAN (-580000) ENGINE = InnoDB,
PARTITION p16 VALUES LESS THAN (-560000) ENGINE = InnoDB,
PARTITION p17 VALUES LESS THAN (-540000) ENGINE = InnoDB,
PARTITION p18 VALUES LESS THAN (-520000) ENGINE = InnoDB,
PARTITION p19 VALUES LESS THAN (-500000) ENGINE = InnoDB,
PARTITION p20 VALUES LESS THAN (-480000) ENGINE = InnoDB,
PARTITION p21 VALUES LESS THAN (-460000) ENGINE = InnoDB,
PARTITION p22 VALUES LESS THAN (-440000) ENGINE = InnoDB,
PARTITION p23 VALUES LESS THAN (-420000) ENGINE = InnoDB,
PARTITION p24 VALUES LESS THAN (-400000) ENGINE = InnoDB,
PARTITION p25 VALUES LESS THAN (-380000) ENGINE = InnoDB,
PARTITION p26 VALUES LESS THAN (-360000) ENGINE = InnoDB,
PARTITION p27 VALUES LESS THAN (-340000) ENGINE = InnoDB,
PARTITION p28 VALUES LESS THAN (-320000) ENGINE = InnoDB,
PARTITION p29 VALUES LESS THAN (-300000) ENGINE = InnoDB,
PARTITION p30 VALUES LESS THAN (-280000) ENGINE = InnoDB,
PARTITION p31 VALUES LESS THAN (-260000) ENGINE = InnoDB,
PARTITION p32 VALUES LESS THAN (-240000) ENGINE = InnoDB,
PARTITION p33 VALUES LESS THAN (-220000) ENGINE = InnoDB,
PARTITION p34 VALUES LESS THAN (-200000) ENGINE = InnoDB,
PARTITION p35 VALUES LESS THAN (-180000) ENGINE = InnoDB,
PARTITION p36 VALUES LESS THAN (-160000) ENGINE = InnoDB,
PARTITION p37 VALUES LESS THAN (-140000) ENGINE = InnoDB,
PARTITION p38 VALUES LESS THAN (-120000) ENGINE = InnoDB,
PARTITION p39 VALUES LESS THAN (-100000) ENGINE = InnoDB,
PARTITION p40 VALUES LESS THAN (-80000) ENGINE = InnoDB,
PARTITION p41 VALUES LESS THAN (-60000) ENGINE = InnoDB,
PARTITION p42 VALUES LESS THAN (-40000) ENGINE = InnoDB,
PARTITION p43 VALUES LESS THAN (-20000) ENGINE = InnoDB,
PARTITION p44 VALUES LESS THAN (0) ENGINE = InnoDB,
PARTITION p45 VALUES LESS THAN (20000) ENGINE = InnoDB,
PARTITION p46 VALUES LESS THAN (40000) ENGINE = InnoDB,
PARTITION p47 VALUES LESS THAN (60000) ENGINE = InnoDB,
PARTITION p48 VALUES LESS THAN (80000) ENGINE = InnoDB,
PARTITION p49 VALUES LESS THAN (100000) ENGINE = InnoDB,
PARTITION p50 VALUES LESS THAN (120000) ENGINE = InnoDB,
PARTITION p51 VALUES LESS THAN (140000) ENGINE = InnoDB,
PARTITION p52 VALUES LESS THAN (160000) ENGINE = InnoDB,
PARTITION p53 VALUES LESS THAN (180000) ENGINE = InnoDB,
PARTITION p54 VALUES LESS THAN (200000) ENGINE = InnoDB,
PARTITION p55 VALUES LESS THAN (220000) ENGINE = InnoDB,
PARTITION p56 VALUES LESS THAN (240000) ENGINE = InnoDB,
PARTITION p57 VALUES LESS THAN (260000) ENGINE = InnoDB,
PARTITION p58 VALUES LESS THAN (280000) ENGINE = InnoDB,
PARTITION p59 VALUES LESS THAN (300000) ENGINE = InnoDB,
PARTITION p60 VALUES LESS THAN (320000) ENGINE = InnoDB,
PARTITION p61 VALUES LESS THAN (340000) ENGINE = InnoDB,
PARTITION p62 VALUES LESS THAN (360000) ENGINE = InnoDB,
PARTITION p63 VALUES LESS THAN (380000) ENGINE = InnoDB,
PARTITION p64 VALUES LESS THAN (400000) ENGINE = InnoDB,
PARTITION p65 VALUES LESS THAN (420000) ENGINE = InnoDB,
PARTITION p66 VALUES LESS THAN (440000) ENGINE = InnoDB,
PARTITION p67 VALUES LESS THAN (460000) ENGINE = InnoDB,
PARTITION p68 VALUES LESS THAN (480000) ENGINE = InnoDB,
PARTITION p69 VALUES LESS THAN (500000) ENGINE = InnoDB,
PARTITION p70 VALUES LESS THAN (520000) ENGINE = InnoDB,
PARTITION p71 VALUES LESS THAN (540000) ENGINE = InnoDB,
PARTITION p72 VALUES LESS THAN (560000) ENGINE = InnoDB,
PARTITION p73 VALUES LESS THAN (580000) ENGINE = InnoDB,
PARTITION p74 VALUES LESS THAN (600000) ENGINE = InnoDB,
PARTITION p75 VALUES LESS THAN (620000) ENGINE = InnoDB,
PARTITION p76 VALUES LESS THAN (640000) ENGINE = InnoDB,
PARTITION p77 VALUES LESS THAN (660000) ENGINE = InnoDB,
PARTITION p78 VALUES LESS THAN (680000) ENGINE = InnoDB,
PARTITION p79 VALUES LESS THAN (700000) ENGINE = InnoDB,
PARTITION p80 VALUES LESS THAN (720000) ENGINE = InnoDB,
PARTITION p81 VALUES LESS THAN (740000) ENGINE = InnoDB,
PARTITION p82 VALUES LESS THAN (760000) ENGINE = InnoDB,
PARTITION p83 VALUES LESS THAN (780000) ENGINE = InnoDB,
PARTITION p84 VALUES LESS THAN (800000) ENGINE = InnoDB,
PARTITION p85 VALUES LESS THAN (820000) ENGINE = InnoDB,
PARTITION p86 VALUES LESS THAN (840000) ENGINE = InnoDB,
PARTITION p87 VALUES LESS THAN (860000) ENGINE = InnoDB,
PARTITION p88 VALUES LESS THAN (880000) ENGINE = InnoDB,
PARTITION p89 VALUES LESS THAN MAXVALUE ENGINE = InnoDB) */
  1. 身份证
  2. 城市
  3. 邮政编码
  4. 纬度
  5. 经度

基于此article 和其他一些关于该问题的阅读,我有一个存储过程,它为我提供了一个点(纬度/经度)附近最近城镇的 n 个位置/邮政编码.

我的存储过程:

    BEGIN
    DECLARE _deg2rad DOUBLE DEFAULT PI()/1800000;

    SET @my_lat := _my_lat,
        @my_lon := _my_lon,
        @deg2dist := 0.0111325,  
        @start_deg := _start_dist / @deg2dist,  
        @max_deg := _max_dist / @deg2dist,
        @cutoff := @max_deg / SQRT(2),  
        @dlat := @start_deg,  
        @lon2lat := COS(_deg2rad * @my_lat),
        @iterations := 0;        

    SET @sql = CONCAT(
        "SELECT COUNT(*) INTO @near_ct
            FROM geoData
            WHERE lat    BETWEEN @my_lat - @dlat
                             AND @my_lat + @dlat   
              AND lon    BETWEEN @my_lon - @dlon
                             AND @my_lon + @dlon");
    PREPARE _sql FROM @sql;
    MainLoop: LOOP
        SET @iterations := @iterations + 1;
        SET @dlon := ABS(@dlat / @lon2lat);  
        SET @dlon := IF(ABS(@my_lat) + @dlat >= 900000, 3600001, @dlon);  
        EXECUTE _sql;
        IF ( @near_ct >= _limit OR         
             @dlat >= @cutoff ) THEN       
            LEAVE MainLoop;
        END IF;
        SET @dlat := LEAST(2 * @dlat, @cutoff);   
    END LOOP MainLoop;
    DEALLOCATE PREPARE _sql;

    SET @dlat := IF( @dlat >= @max_deg OR @dlon >= 1800000,
                @max_deg,
                GCDist(ABS(@my_lat), @my_lon,
                       ABS(@my_lat) - @dlat, @my_lon - @dlon) );
    SET @dlon := IFNULL(ASIN(SIN(_deg2rad * @dlat) /
                             COS(_deg2rad * @my_lat))
                            / _deg2rad 
                        , 3600001);    


    IF (ABS(@my_lon) + @dlon < 1800000 OR    
        ABS(@my_lat) + @dlat <  900000) THEN 
        SET @sql = CONCAT(
            "SELECT *,
                    @deg2dist * GCDist(@my_lat, @my_lon, lat, lon) AS dist
                FROM geoData
                WHERE lat BETWEEN @my_lat - @dlat
                              AND @my_lat + @dlat   
                  AND lon BETWEEN @my_lon - @dlon
                              AND @my_lon + @dlon   
                HAVING dist <= ", _max_dist, "
                ORDER BY dist
                LIMIT ", _limit
                        );
    ELSE
        SET @west_lon := IF(@my_lon < 0, @my_lon, @my_lon - 3600000);
        SET @east_lon := @west_lon + 3600000;
        SET @sql = CONCAT(
            "( SELECT *,
                    @deg2dist * GCDist(@my_lat, @west_lon, lat, lon) AS dist
                FROM geoData
                WHERE lat BETWEEN @my_lat - @dlat
                              AND @my_lat + @dlat 
                  AND lon BETWEEN @west_lon - @dlon
                              AND @west_lon + @dlon   
                HAVING dist <= ", _max_dist, " )
            UNION ALL
            ( SELECT *,
                    @deg2dist * GCDist(@my_lat, @east_lon, lat, lon) AS dist
                FROM geoData
                WHERE lat BETWEEN @my_lat - @dlat
                              AND @my_lat + @dlat   
                  AND lon BETWEEN @east_lon - @dlon
                              AND @east_lon + @dlon   
                HAVING dist <= ", _max_dist, " )
            ORDER BY dist
            LIMIT ", _limit
                        );
    END IF;

    PREPARE _sql FROM @sql;
    EXECUTE _sql;
    DEALLOCATE PREPARE _sql;
END

我的问题:

我想输入邮政编码或城镇名称,然后从那里开始搜索。所以我的想法是我请求这些信息并查找来自世界所有城镇/邮政编码的表格。之后,如果只找到一个结果,我就会得到纬度/经度的信息,或者在有多个结果的情况下我会要求用户选择正确的选择。

之后,我开始寻找离我当前位置最近的城镇。假设我想要一份 50 个城镇/城市的列表。有了这个,我会去查找并查看包含位置的表是否与那里的 5 个结果匹配。

转念一想,这听起来是个坏主意……

方法一:

我阅读了存储过程、sql 和怪物查询并尝试获得以下内容:

传入邮政编码/城市名称,我会查找它,从巨大的表格中获取我的纬度/经度(可能是 mysql 中的函数),然后我会寻找最近的城镇并加入那里有位置表并获得我最近的 5 个位置。

问题:

  • 如何避免同名城市/邮政编码出现多个匹配项?
  • 听起来是否可以通过简单的连接来获得最近的 5 个位置?

方法2:

获取我所在位置的所有纬度/经度值,然后在此表上运行该过程。并且只是使用巨大的表格来检索我当前的位置?

不过,我需要收集我所在位置的所有纬度/经度。但这可能是最好的方法。

但是拥有所有城市/邮政编码的庞大数据库只是为了获取位置似乎有点矫枉过正。我希望有一个替代方案然后也许......不知何故......

方法 3

老实说,我想要的这个函数好像已经写了一百万次了。那么我为什么要费心重新发明轮子呢?但我不知道如何找到合适的文章或书籍以实现我的目标。

你们中的其他人是否对此类事情的最佳实践有想法?

【问题讨论】:

  • 如果您使用的是邮政编码,那么我认为这比 lat/long 更容易使用。我不确定您是要使用这张桌子走向全球还是全国。但如果是在美国境内,您可以使用邮政编码并分为 3 组,第一组代表州,第二组代表市/县,第三组将给出该城市内的确切区域。因此,在您的情况下,前三位数字将是您获取最近 5 个位置的目标。 (我知道邮政编码在全球范围内使用,但我不知道美国以外的标准)
  • 您可以考虑对位置使用 geohash 方法 (en.wikipedia.org/wiki/Geohash) 而不是 lat/lon - geohash 中的共享前缀越长,两个位置越接近。
  • 请删除或改写您的最后一句话。要求场外资源会使您的问题偏离主题。
  • 感谢您指出这一点:)
  • 两张表各包含多少行?

标签: mysql sql stored-procedures innodb


【解决方案1】:

首先是一些 cmets...

我在这里和其他论坛上看到了数十个(不是数百万个)实施;你的比大多数都好。

根据一个数据源(我碰巧下载过),全世界大约有 320 万个城市。

为了提高性能,您需要避免检查所有 3M 行。您在不断增长的边界框方面​​取得了良好的开端。请注意,您应该有

INDEX(lat, lon),
INDEX(lon, lat)

优化器将在这些之间进行选择,第一个查询(使用COUNT(*))会将其视为“覆盖”。它将是环绕地球的条纹或楔形;对 3M 行的明显改进。最差的纬度(+34 度)有 96,000 个城市。 (1 度 = 69 英里/111 公里。)十分之一度,34.4 是最差的,有 10K 个城市。

(是的,我喜欢这种数据拼图。)

而且,我看到您处理日期变更线和两极。我不认为你可以改进将它们作为特例。

(我只看了一眼公式和常数。)

Geohash 和 Z 顺序索引帮助。但是它们有一个小问题,您需要检查目标周围最多 4 个区域——这就像没有意识到整数 199999 和 200000 非常接近,尽管它们的第一个数字不同。

“用户输入邮政编码或城市名称”——这是对两个简单表之一的点查询。 (除了可能有重复——“san jose”和“san antonio”各有 320 多个。排名靠后的是第一个非西班牙语名称:“victoria”,只有 144 个城市。)

其次,我的实现……(和你的有些相似。)

http://mysql.rjweb.org/doc.php/latlng

这通过使用PARTITIONing 将边界框保持在大致正方形而不是条纹或楔形来提高性能。如果您正在寻找最接近的 5 个,我的算法很少会触及超过几十行,并且这些行将“聚集”在少数块中,从而使磁盘命中数保持在非常低的水平。

我的设计中的一个关键是在一个表中包含所有必要的列。找到最近的 5 个后,您可以去其他桌子获取辅助物品(电话号码等)。

至于邮政编码,在开始搜索最近的 5 个之前将其转换为 lat/lon。

算法内部的连接很可能会破坏性能。

【讨论】:

  • 我所做的大部分工作都是基于您的文章。尤其是存储过程。我删除了条件,并且对于堆栈溢出的帖子,cmets 以使问题帖子更短。我确实喜欢阅读您的文章,这也是分区的原因。正如你在文章中提到的 90 个分区,到目前为止,我的 sql 的性能非常快(~0.03 秒)。我的第一个解决方案确实需要 5 秒以上才能找到最近的地方。那么我应该从城市表中请求纬度/经度并在我的位置表上使用存储过程吗?
  • 我为算法添加了 3 个段落——一个表; JOIN 可能会让你回到 5 秒以上。
  • 所以,如果我理解这一点:我使用一张表来查找作为用户输入的位置的纬度/经度(邮政编码/城市名称),然后在我的表上使用您的方法从那里获取最近的位置。我唯一需要得到的是我所在位置的纬度/经度信息。你有两张桌子,一张用于城市,另一张用于地点?或者只是一张大表和一些条件来过滤城市与地点?
  • @floGalen - 看起来像 1 张桌子。有更多详细信息,例如SHOW CREATE TABLE?
  • 我在上面的问题中添加了信息 :) 只有一张桌子的唯一问题是维护我的位置会更难
【解决方案2】:

16K 行并不算多。

我有一个有 310 万行的 cities 表(数据取自 https://www.maxmind.com/de/free-world-cities-database)。我创建了一个“假”locations 表,其中包含 16K 个不同的随机 cityId 和一些虚拟数据。我使用POINT 数据类型的一列而不是latitudelongitude。这就是我从 MySQL 5.7.18 上非常简单的查询中得到的结果:

select l.*, c.*, st_distance(point(-0.127758, 51.507351), c.geoPoint) dist
from locations l
join cities c using (cityId)
order by dist
limit 5

执行时间约为 70 毫秒。

这可以通过子查询来改进:

select l.*, c.*, x.dist
from (
    select l.locationId, st_distance(point(-0.127758, 51.507351), c.geoPoint) dist
    from locations l
    join cities c using (cityId)
    order by dist
    limit 5
) x
join locations l using(locationId)
join cities c using(cityId)

执行时间:~40ms

如果您将geoPoint(冗余)存储在locations 表中,则可以避免与cities 表的联接。

select l.*, st_distance(point(-0.127758, 51.507351), l.geoPoint) dist
from locations l
order by dist
limit 5

执行时间:~17ms

您仍然可以将cities 表加入子查询而不会损失性能。

请注意,所有这些查询都会计算所有 16K 行的距离并对它们进行排序。但是性能可能对您来说已经足够了。

如果这还不够快,或者locations 表会随着时间的推移而增长,或者如果您想在大表中搜索,您仍然可以使用@SPATIAL INDEX 对您的过程执行类似操作987654340@ 和 MBRWithin()MBRContains()

算法:

  • 在用户位置周围定义一个小的polygon
  • 循环增加多边形的大小,直到它包含至少 5 个位置。
  • 使用多边形内的位置选择最近的 5 个。

请注意,根据您使用的多边形类型,您可能需要在找到具有 5 个位置的多边形后再次增加尺寸。例如 - 如果您使用正方形(简单实现),您应该将尺寸加倍(将长度增加因子 sqrt(2)),以绝对确保您不会错过外面的位置广场,比广场内的第五个位置更近。这是因为正方形不是圆形。但如果你使用八角形,你可能会说——这已经够圆了——然后跳过最后一步。

这可能不是最好的算法。但它实现起来非常简单,并且应该可以很好地扩展。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-04-11
    • 1970-01-01
    • 1970-01-01
    • 2011-04-01
    相关资源
    最近更新 更多