【发布时间】:2017-10-02 20:49:36
【问题描述】:
我有两个数据框,df1 和 df2,每个都包含纬度和经度数据。对于df1 中的每个观察,我想使用haversine 函数来计算df2 中每个点之间的距离。我尝试了两种方法,但是对于较大的数据集,性能会成为问题。
In [1]: import pandas as pd
import numpy as np
from haversine import haversine
In [2]: df1 = pd.DataFrame({'lat_long': [(25.99550273, 179.18526021), (76.24387873, -34.21956936), (-51.43773064, -113.93795667)]})
df2 = pd.DataFrame({'lat_long': [(22.89956242, 107.04009984), (-80.25375578, -92.05425401), (-0.81621289, -147.26962084), (0,0)]})
In [3]: # method 1: iterate through rows
for i in df1['lat_long']:
for j in df2['lat_long']:
print(haversine(i,j))
7215.01729234
12830.1178484
4673.37638582
17123.1981646
8678.49300206
17721.004245
10690.0998826
8746.62635254
15294.1258757
3303.30690512
6434.34272913
11636.6462421
In [4]: # method 2: create one dataframe and then perform calculation
df1_dup = df1.append([df1]*(len(df2)-1), ignore_index=True)
df2_dup = df2.append([df2]*(len(df1)-1), ignore_index=True)
df = pd.DataFrame({'lat_long_df1': df1_dup.sort_values('lat_long')['lat_long'],'lat_long_df2': df2_dup['lat_long']})
print(df.apply(lambda x: haversine(x['lat_long_df1'], x['lat_long_df2']), axis=1))
0 7215.017292
1 17721.004245
2 6434.342729
3 17123.198165
4 8678.493002
5 3303.306905
6 4673.376386
7 8746.626353
8 15294.125876
9 12830.117848
10 10690.099883
11 11636.646242
dtype: float64
对于更大的数据帧可以更好地工作的替代方法有什么想法吗?
【问题讨论】:
-
我不清楚这一点:你想计算
df1中的每个点与df2中的每个点之间的距离吗?又名成对计算df1的元素和df2的元素之间的距离?距离是否需要精确,或者至少对于某些元素,您可以使用比半正弦更简单的公式吗?你真的需要处理每一对吗?基本上,尽管您可以使用更简洁的语法来做到这一点,但我不希望有任何东西可以大大提高 性能,除非您可以以某种方式跳过部分计算。 -
这是一个相关的问题:stackoverflow.com/questions/29545704/…
-
@DavidZ 是的,我需要成对距离。如果能显着提升性能,我可能会牺牲距离方面的精度。
-
@JonS 如果您的问题得到充分解决,请accept an answer。
标签: python pandas dataframe haversine