计算两个数据帧之间的Haversine距离答案

【问题标题】：Calculating the Haversine distance between two dataframes计算两个数据帧之间的Haversine距离
【发布时间】：2017-10-02 20:49:36
【问题描述】：

我有两个数据框，df1 和 df2，每个都包含纬度和经度数据。对于df1 中的每个观察，我想使用haversine 函数来计算df2 中每个点之间的距离。我尝试了两种方法，但是对于较大的数据集，性能会成为问题。

In [1]: import pandas as pd
        import numpy as np
        from haversine import haversine

In [2]: df1 = pd.DataFrame({'lat_long': [(25.99550273, 179.18526021), (76.24387873, -34.21956936), (-51.43773064, -113.93795667)]})
        df2 = pd.DataFrame({'lat_long': [(22.89956242, 107.04009984), (-80.25375578, -92.05425401), (-0.81621289, -147.26962084), (0,0)]})

In [3]: # method 1: iterate through rows
        for i in df1['lat_long']:
            for j in df2['lat_long']:
                print(haversine(i,j))

7215.01729234
12830.1178484
4673.37638582
17123.1981646
8678.49300206
17721.004245
10690.0998826
8746.62635254
15294.1258757
3303.30690512
6434.34272913
11636.6462421

In [4]: # method 2: create one dataframe and then perform calculation
        df1_dup = df1.append([df1]*(len(df2)-1), ignore_index=True)
        df2_dup = df2.append([df2]*(len(df1)-1), ignore_index=True)
        df = pd.DataFrame({'lat_long_df1': df1_dup.sort_values('lat_long')['lat_long'],'lat_long_df2': df2_dup['lat_long']})
        print(df.apply(lambda x: haversine(x['lat_long_df1'], x['lat_long_df2']), axis=1))

0      7215.017292
1     17721.004245
2      6434.342729
3     17123.198165
4      8678.493002
5      3303.306905
6      4673.376386
7      8746.626353
8     15294.125876
9     12830.117848
10    10690.099883
11    11636.646242
dtype: float64

对于更大的数据帧可以更好地工作的替代方法有什么想法吗？

【问题讨论】：

我不清楚这一点：你想计算df1 中的每个点与df2 中的每个点之间的距离吗？又名成对计算df1 的元素和df2 的元素之间的距离？距离是否需要精确，或者至少对于某些元素，您可以使用比半正弦更简单的公式吗？你真的需要处理每一对吗？基本上，尽管您可以使用更简洁的语法来做到这一点，但我不希望有任何东西可以大大提高性能，除非您可以以某种方式跳过部分计算。
这是一个相关的问题：stackoverflow.com/questions/29545704/…
@DavidZ 是的，我需要成对距离。如果能显着提升性能，我可能会牺牲距离方面的精度。
@JonS 如果您的问题得到充分解决，请accept an answer。

标签： python pandas dataframe haversine

【解决方案1】：

如果您正在寻找更高性能的合并，您可以在代理列上进行交叉连接：

temp = df1.assign(A=1).merge(df2.assign(A=1), on='A').drop('A', 1) 
temp
                       lat_long_x                    lat_long_y
0     (25.99550273, 179.18526021)   (22.89956242, 107.04009984)
1     (25.99550273, 179.18526021)  (-80.25375578, -92.05425401)
2     (25.99550273, 179.18526021)  (-0.81621289, -147.26962084)
3     (25.99550273, 179.18526021)                        (0, 0)
4     (76.24387873, -34.21956936)   (22.89956242, 107.04009984)
5     (76.24387873, -34.21956936)  (-80.25375578, -92.05425401)
6     (76.24387873, -34.21956936)  (-0.81621289, -147.26962084)
7     (76.24387873, -34.21956936)                        (0, 0)
8   (-51.43773064, -113.93795667)   (22.89956242, 107.04009984)
9   (-51.43773064, -113.93795667)  (-80.25375578, -92.05425401)
10  (-51.43773064, -113.93795667)  (-0.81621289, -147.26962084)
11  (-51.43773064, -113.93795667)                        (0, 0)

temp.apply(lambda x: haversine(x['lat_long_x'], x['lat_long_y']), 1)
0      7215.017292
1     12830.117848
2      4673.376386
3     17123.198165
4      8678.493002
5     17721.004245
6     10690.099883
7      8746.626353
8     15294.125876
9      3303.306905
10     6434.342729
11    11636.646242
dtype: float64

您可以将性能合并与来自this question 的答案结合起来，以获得不错的速度提升。您还应该考虑将纬度/经度数据保存在单独的列中。

【讨论】：