按组划分的地理距离 - 在每对行上应用一个函数答案

【问题标题】：Geographical distance by group - Applying a function on each pair of rows按组划分的地理距离 - 在每对行上应用一个函数
【发布时间】：2019-09-01 11:02:06
【问题描述】：

我想计算每个省的一些房屋之间的平均地理距离。

假设我有以下数据。

df1 <- data.frame(province = c(1, 1, 1, 2, 2, 2),
              house = c(1, 2, 3, 4, 5, 6),
              lat = c(-76.6, -76.5, -76.4, -75.4, -80.9, -85.7), 
              lon = c(39.2, 39.1, 39.3, 60.8, 53.3, 40.2))

使用geosphere 图书馆，我可以找到两所房子之间的距离。例如：

library(geosphere)
distm(c(df1$lon[1], df1$lat[1]), c(df1$lon[2], df1$lat[2]), fun = distHaversine)

#11429.1

我如何计算该省所有房屋之间的距离并收集每个省的平均距离？

原始数据集每个省有数百万个观测值，因此这里的性能也是一个问题。

【问题讨论】：

@Oka 它计算欧几里德距离。查看 functionbody 并对其进行调整以获得所需的输出。就性能而言，这是最好的。
@M-M 同意性能，但不确定dist 是否可以提供类似于问题中使用的“haversine”距离
dist 不能。您需要使用它的代码并编写自己的函数。
看functionbody(dist)
我倾向于将赏金授予@Alexis。 wake_wake，如果你愿意，请在一天结束前告诉我你的想法。

标签： r dataframe vectorization geospatial sapply

【解决方案1】：

我最初的想法是查看distHaversine 的源代码并将其复制到我将与proxy 一起使用的函数中。这将像这样工作（注意lon 应该是第一列）：

library(geosphere)
library(dplyr)
library(proxy)

df1 <- data.frame(province = as.integer(c(1, 1, 1, 2, 2, 2)),
                  house = as.integer(c(1, 2, 3, 4, 5, 6)),
                  lat = c(-76.6, -76.5, -76.4, -75.4, -80.9, -85.7), 
                  lon = c(39.2, 39.1, 39.3, 60.8, 53.3, 40.2))

custom_haversine <- function(x, y) {
  toRad <- pi / 180

  diff <- (y - x) * toRad
  dLon <- diff[1L]
  dLat <- diff[2L]

  a <- sin(dLat / 2) ^ 2 + cos(x[2L] * toRad) * cos(y[2L] * toRad) * sin(dLon / 2) ^ 2
  a <- min(a, 1)
  # return
  2 * atan2(sqrt(a), sqrt(1 - a)) * 6378137
}

pr_DB$set_entry(FUN=custom_haversine, names="haversine", loop=TRUE, distance=TRUE)

average_dist <- df1 %>%
  select(-house) %>%
  group_by(province) %>%
  group_map(~ data.frame(avg=mean(proxy::dist(.x[ , c("lon", "lat")], method="haversine"))))

但是，如果您预计每个省有数百万行， proxy 可能无法分配中间（下三角）矩阵。所以我将代码移植到 C++ 并添加了多线程作为奖励：

编辑：事实证明 s2d 助手远非最佳，这个版本现在使用给定的公式here。

EDIT2：我刚刚发现了RcppThread，并可用于检测用户中断。

// [[Rcpp::plugins(cpp11)]]
// [[Rcpp::depends(RcppParallel,RcppThread)]]

#include <cstddef> // size_t
#include <math.h> // sin, cos, sqrt, atan2, pow
#include <vector>

#include <RcppThread.h>
#include <Rcpp.h>
#include <RcppParallel.h>

using namespace std;
using namespace Rcpp;
using namespace RcppParallel;

// single to double indices for lower triangular of matrices without diagonal
void s2d(const size_t id, const size_t nrow, size_t& i, size_t& j) {
  j = nrow - 2 - static_cast<size_t>(sqrt(-8 * id + 4 * nrow * (nrow - 1) - 7) / 2 - 0.5);
  i = id + j + 1 - nrow * (nrow - 1) / 2 + (nrow - j) * ((nrow - j) - 1) / 2;
}

class HaversineCalculator : public Worker
{
public:
  HaversineCalculator(const NumericVector& lon,
                      const NumericVector& lat,
                      double& avg,
                      const int n)
    : lon_(lon)
    , lat_(lat)
    , avg_(avg)
    , n_(n)
    , cos_lat_(lon.length())
  {
    // terms for distance calculation
    for (size_t i = 0; i < cos_lat_.size(); i++) {
      cos_lat_[i] = cos(lat_[i] * 3.1415926535897 / 180);
    }
  }

  void operator()(size_t begin, size_t end) {
    // for Kahan summation
    double sum = 0;
    double c = 0;

    double to_rad = 3.1415926535897 / 180;

    size_t i, j;
    for (size_t ind = begin; ind < end; ind++) {
      if (RcppThread::isInterrupted(ind % static_cast<int>(1e5) == 0)) return;

      s2d(ind, lon_.length(), i, j);

      // haversine distance
      double d_lon = (lon_[j] - lon_[i]) * to_rad;
      double d_lat = (lat_[j] - lat_[i]) * to_rad;
      double d_hav = pow(sin(d_lat / 2), 2) + cos_lat_[i] * cos_lat_[j] * pow(sin(d_lon / 2), 2);
      if (d_hav > 1) d_hav = 1;
      d_hav = 2 * atan2(sqrt(d_hav), sqrt(1 - d_hav)) * 6378137;

      // the average part
      d_hav /= n_;

      // Kahan sum step
      double y = d_hav - c;
      double t = sum + y;
      c = (t - sum) - y;
      sum = t;
    }

    mutex_.lock();
    avg_ += sum;
    mutex_.unlock();
  }

private:
  const RVector<double> lon_;
  const RVector<double> lat_;
  double& avg_;
  const int n_;
  tthread::mutex mutex_;
  vector<double> cos_lat_;
};

// [[Rcpp::export]]
double avg_haversine(const DataFrame& input, const int nthreads) {
  NumericVector lon = input["lon"];
  NumericVector lat = input["lat"];

  double avg = 0;
  int size = lon.length() * (lon.length() - 1) / 2;
  HaversineCalculator hc(lon, lat, avg, size);

  int grain = size / nthreads / 10;
  RcppParallel::parallelFor(0, size, hc, grain);
  RcppThread::checkUserInterrupt();

  return avg;
}

这段代码不会分配任何中间矩阵，它会简单地计算每对下三角形的距离，并在最后累积平均值。 Kahan 求和部分见here。

如果您将该代码保存在 haversine.cpp 中，那么您可以执行以下操作：

library(dplyr)
library(Rcpp)
library(RcppParallel)
library(RcppThread)

sourceCpp("haversine.cpp")

df1 %>%
  group_by(province) %>%
  group_map(~ data.frame(avg=avg_haversine(.x, parallel::detectCores())))
# A tibble: 2 x 2
# Groups:   province [2]
  province     avg
     <int>   <dbl>
1        1  15379.
2        2 793612.

这里也是一个健全性检查：

pr_DB$set_entry(FUN=geosphere::distHaversine, names="distHaversine", loop=TRUE, distance=TRUE)

df1 %>%
  select(-house) %>%
  group_by(province) %>%
  group_map(~ data.frame(avg=mean(proxy::dist(.x[ , c("lon", "lat")], method="distHaversine"))))

请注意：

df <- data.frame(lon=runif(1e3, -90, 90), lat=runif(1e3, -90, 90))

system.time(proxy::dist(df, method="distHaversine"))
   user  system elapsed 
 34.353   0.005  34.394

system.time(proxy::dist(df, method="haversine"))
   user  system elapsed 
  0.789   0.020   0.809

system.time(avg_haversine(df, 4L))
   user  system elapsed 
  0.054   0.000   0.014

df <- data.frame(lon=runif(1e5, -90, 90), lat=runif(1e5, -90, 90))

system.time(avg_haversine(df, 4L))
   user  system elapsed 
 73.861   0.238  19.670

如果您有数百万行，您可能需要等待很长时间...

~~我还要提一下，在通过RcppParallel 创建的线程内无法检测到用户中断，所以如果你开始计算，你应该等到它完成，或完全重启 R/RStudio。~~ 请参阅上面的 EDIT2。

关于复杂性

根据您的实际数据和您的计算机有多少核心，您很可能最终要等待几天才能完成计算。这个问题具有二次复杂度（可以这么说，每个省）。这一行：

int size = lon.length() * (lon.length() - 1) / 2;

表示必须执行的（正弦）距离计算量。因此，如果行数增加了n 的系数，粗略地说，计算次数增加了n^2 / 2 的倍数。

没有办法对此进行优化；如果不先实际计算每个数字，您就无法计算 N 数字的平均值，而且你很难找到比多线程 C++ 代码更快的东西，所以你要么必须等待它，或在问题上投入更多核心，一台机器或多台机器一起工作。否则你无法解决这个问题。

【讨论】：

当行数增加幅度（1e3，1e4，...）时，它比我的解决方案快得多
@Alexis 在服务器上运行它我收到错误could not find function "group_map"，而我有dplyr 和所有其他软件包。任何想法为什么会弹出？
@Alexis Ah，dplyr 已经过时了。无法更新到新版本，因为它需要BH 的更新版本，这似乎不适用于Microsoft R Open。关于如何解决这个障碍的任何想法？
@wake_wake 我现在不在我的电脑旁，但do 是以前的方法，所以我猜在最后一步你可以使用类似do(data.frame(province=.$province[1L], avg=avg_haversine(., parallel::detectCores()))) 的东西。
@wake_wake 我找到了一种检测用户中断的方法，以防你发现它有用。查看编辑。

【解决方案2】：

鉴于您的数据有数百万行，这听起来像是一个“XY”问题。 IE。你真正需要的答案不是你所问问题的答案。

让我打个比方：如果您想知道森林中树木的平均高度，您不必测量每棵树。您只需测量足够大的样本，以确保您的估计有足够高的概率尽可能接近真实平均值。

使用从每个房子到每个其他房子的距离进行蛮力计算不仅会占用过多的资源（即使使用优化的代码），而且它会提供比您可能需要的多得多的小数位数，或者证明是合理的数据准确性（GPS 坐标通常最多只能在几米范围内正确）。

因此，我建议对样本量进行计算，该样本量仅与您的问题所需的准确度级别一样大。例如，以下将在几秒钟内提供 200 万行的估计值，该估计值可以达到 4 个有效数字。您可以通过增加样本量来提高准确性，但考虑到 GPS 坐标本身的不确定性，我怀疑这是有道理的。

sample.size=1e6    
lapply(split(df1[3:4], df1$province), 
  function(x) {
    s1 = x[sample(nrow(x), sample.size, T), ]
    s2 = x[sample(nrow(x), sample.size, T), ]
    mean(distHaversine(s1, s2))
  })

一些要测试的大数据：

N=1e6
df1 <- data.frame(
  province = c(rep(1,N),rep(2,N)),
  house = 1:(2*N),
  lat = c(rnorm(N,-76), rnorm(N,-85)), 
  lon = c(rnorm(N,39), rnorm(N,-55,2)))

要了解这种方法的准确性，我们可以使用自举。对于下面的演示，我只使用了 100,000 行数据，以便我们可以在短时间内执行 1000 次引导迭代：

N=1e5
df1 <- data.frame(lat = rnorm(N,-76,0.1), lon = rnorm(N,39,0.1))

dist.f = function(i) {
    s1 = df1[sample(N, replace = T), ]
    s2 = df1[sample(N, replace = T), ]
    mean(distHaversine(s1, s2))
    }

boot.dist = sapply(1:1000, dist.f)
mean(boot.dist)
# [1] 17580.63
sd(boot.dist)
# [1] 29.39302

hist(boot.dist, 20)

即对于这些测试数据，平均距离为 17,580 +/- 29 m。这是一个 0.1% 的变异系数，这对于大多数用途来说可能已经足够准确了。正如我所说，如果你真的需要，你可以通过增加样本量来获得更高的准确性。

【讨论】：

这是一个好点。您如何看待基于协调而非“无监督”抽样的房屋聚类？
我不确定您所说的“通过协调进行聚类”是什么意思。但是，如果目的是估计整个总体的平均距离，那么您应该对整个总体进行随机抽样。如果您有兴趣按某些分类对结果进行分解，请在感兴趣的类别中进行抽样。
假设计算相邻房屋的纬度/经度平均值！
我认为这不会起作用，因为集群会有不同数量的房屋，这会导致计算失败。我仍然认为对整个人群进行抽样是最好的。我在答案中添加了一些统计数据，以便更好地了解这种方法的效果。
这里不是对集群进行冗长讨论的地方（这不是原始问题的一部分）。如果您想进一步跟进，也许最好开始一个关于交叉验证的新问题。但是，我要在这里指出，我的示例没有缺陷，并且可以使用采样方法-您只需要有足够大的样本即可。如果您对 3 栋房屋进行 100 万次替换（类似于我的示例），您肯定会得到非常接近真实平均值的答案。

【解决方案3】：

解决方案：

lapply(split(df1, df1$province), function(df){
  df <- Expand.Grid(df[, c("lat", "lon")], df[, c("lat", "lon")])
  mean(distHaversine(df[, 1:2], df[, 3:4]))
})

其中Expand.Grid() 取自https://stackoverflow.com/a/30085602/3502164。

说明：

1.性能

我会避免使用distm()，因为它将vectorised 函数distHaversine() 转换为未矢量化的distm()。如果您查看您看到的源代码：

function (x, y, fun = distHaversine) 
{
   [...]
   for (i in 1:n) {
        dm[i, ] = fun(x[i, ], y)
    }
    return(dm)
}

distHaversine() 将“整个对象”发送到 C，distm() 将数据“逐行”发送到 distHaversine()，因此在 C 中执行代码时强制 distHaversine() 执行相同操作。因此，不应使用distm()。在性能方面，我看到使用包装函数 distm() 带来的危害更大，因为我看到了好处。

2.解释“解决方案”中的代码：

a) 分组：

您要按组分析数据：省。分组可以通过：split(df1, df1$province).

b) 对“列簇”进行分组

您想找到所有独特的纬度/经度组合。第一个猜测可能是expand.grid()，但这不适用于多列。幸运的是，弗里克先生处理了这个expand.grid function for data.frames in R。

那么你就有了所有可能组合的data.frame()，只需要使用 mean(distHaversine(...)).

【讨论】：

【解决方案4】：

参考这个thread，您的问题的矢量化解决方案如下所示；

toCheck <- sapply(split(df1, df1$province), function(x){
                                            combn(rownames(x), 2, simplify = FALSE)})

names(toCheck) <- sapply(toCheck, paste, collapse = " - ")


sapply(toCheck, function(x){
               distm(df1[x[1],c("lon","lat")], df1[x[2],c("lon","lat")], 
                     fun = distHaversine)
                           })


  #    1 - 2      1 - 3      2 - 3      4 - 5      4 - 6      5 - 6 
  # 11429.10   22415.04   12293.48  634549.20 1188925.65  557361.28

如果每个省的记录数相同，则此方法有效。如果不是这种情况，那么为toCheck 分配适当名称的第二部分以及我们最后使用它的方式应该随着toCheck 列表结构的变化而改变。但它并不关心数据集的顺序。

对于您的实际数据集，toCheck 将成为一个嵌套列表，因此您需要像下面这样调整函数；对于这个解决方案，我还没有让 toCheck 名称干净。（df2可以在答案末尾找到）。

df2 <- df2[order(df2$province),] #sorting may even improve performance
names(toCheck) <- paste("province", unique(df2$province))

toCheck <- sapply(split(df2, df2$province), function(x){
                                            combn(rownames(x), 2, simplify = FALSE)})

sapply(toCheck, function(x){ sapply(x, function(y){
  distm(df2[y[1],c("lon","lat")], df2[y[2],c("lon","lat")], fun = distHaversine)
})})

# $`province 1`
# [1]   11429.10   22415.04 1001964.84   12293.48 1013117.36 1024209.46
# 
# $`province 2`
# [1]  634549.2 1188925.7  557361.3
# 
# $`province 3`
# [1] 590083.2
# 
# $`province 4`
# [1] 557361.28 547589.19  11163.92

您可以进一步获取每个省的mean()。此外，如果需要，重命名嵌套列表的元素应该不难，这样您就可以知道每个距离对应于哪些房屋。

df2 <- data.frame(province = c(1, 1, 1, 2, 2, 2, 1, 3, 3, 4,4,4),
                  house = c(1, 2, 3, 4, 5, 6, 7, 10, 9, 8, 11, 12),
                  lat = c(-76.6, -76.5, -76.4, -75.4, -80.9, -85.7, -85.6, -76.4, -75.4, -80.9, -85.7, -85.6), 
                  lon = c(39.2, 39.1, 39.3, 60.8, 53.3, 40.2, 40.1, 39.3, 60.8, 53.3, 40.2, 40.1))

【讨论】：

有趣！每个省份的记录数量变化很大，所以确实需要稍微调整一下。
@wake_wake 我更新了我的答案。我不确定这是否是分支预测的示例，但无论如何我对数据帧进行了排序。除非有人提出优化 data.table 解决方案，否则这应该是最好的性能。祝你好运。
这适用于模拟数据和（部分）原始数据。然而，在某些时候toCheck 变得如此之大，它耗尽了我的 128GB 本地计算机的内存。
@wake_wake 处理大数据有其自身的挑战和技术，不属于本问题的范围。最好的办法是在不使用更高级别的解决方案的情况下将数据分解成更小的块，执行上面的解决方案，清除内存，然后移动到下一个块。

【解决方案5】：

我的 10 美分。你可以：

# subset the province
df1 <- df1[which(df1$province==1),]

# get all combinations
all <- combn(df1$house, 2, FUN = NULL, simplify = TRUE)

# run your function and get distances for all combinations
distances <- c()
for(col in 1:ncol(all)) {
  a <- all[1, col]
  b <- all[2, col]
  dist <- distm(c(df1$lon[a], df1$lat[a]), c(df1$lon[b], df1$lat[b]), fun = distHaversine)
  distances <- c(distances, dist)
  }

# calculate mean:
mean(distances)
# [1] 15379.21

这将为您提供该省的平均值，您可以将其与其他方法的结果进行比较。例如 cmets 中提到的sapply：

df1 <- df1[which(df1$province==1),]
mean(sapply(split(df1, df1$province), dist))
# [1] 1.349036

如您所见，它给出了不同的结果，因为 dist 函数可以计算不同类型的距离（如欧几里得），而不能计算半正弦或其他“测地线”距离。包geodist 似乎有一些选项可以让你更接近sapply：

library(geodist)
library(magrittr)

# defining the data
df1 <- data.frame(province = c(1, 1, 1, 2, 2, 2),
                  house = c(1, 2, 3, 4, 5, 6),
                  lat = c(-76.6, -76.5, -76.4, -75.4, -80.9, -85.7), 
                  lon = c(39.2, 39.1, 39.3, 60.8, 53.3, 40.2))

# defining the function 
give_distance <- function(resultofsplit){
  distances <- c()
  for (i in 1:length(resultofsplit)){
    sdf <- resultofsplit
    sdf <- sdf[[i]]
    sdf <- sdf[c("lon", "lat", "province", "house")]

    sdf2 <- as.matrix(sdf)
    sdf3 <- geodist(x=sdf2, measure="haversine")
    sdf4 <- unique(as.vector(sdf3))
    sdf4 <- sdf4[sdf4 != 0]        # this is to remove the 0-distances 
    mean_dist <- mean(sdf4)
    distances <- c(distances, mean_dist)
    }  
    return(distances)
}

split(df1, df1$province) %>% give_distance()
#[1]  15379.21 793612.04

例如该函数将为您提供每个省的平均距离值。现在，我没有设法让give_distance 与sapply 一起工作，但这应该已经更有效了。

【讨论】：

【解决方案6】：

您可以使用矢量化版本的半正弦距离，例如：

dist_haversine_for_dfs <- function (df_x, df_y, lat, r = 6378137) 
{
  if(!all(c("lat", "lon") %in% names(df_x))) {
    stop("parameter df_x does not have column 'lat' and 'lon'")
  }
  if(!all(c("lat", "lon") %in% names(df_y))) {
    stop("parameter df_x does not have column 'lat' and 'lon'")
  }
  toRad <- pi/180
  df_x <- df_x * toRad
  df_y <- df_y * toRad
  dLat <- df_y[["lat"]] - df_x[["lat"]]
  dLon <- df_y[["lon"]] - df_x[["lon"]]
  a <- sin(dLat/2) * sin(dLat/2) + cos(df_x[["lat"]]) * cos(df_y[["lat"]]) * 
    sin(dLon/2) * sin(dLon/2)
  a <- pmin(a, 1)
  dist <- 2 * atan2(sqrt(a), sqrt(1 - a)) * r
  return(dist)
}

然后使用data.table 和包arrangements（用于更快的组合生成）您可以执行以下操作：

library(data.table)
dt <- data.table(df1)
ids <- dt[, {
  comb_mat <- arrangements::combinations(x = house, k = 2)
  list(house_x = comb_mat[, 1],
       house_y = comb_mat[, 2])}, by = province]

jdt <- cbind(ids, 
             dt[ids$house_x, .(lon_x=lon, lat_x=lat)], 
             dt[ids$house_y, .(lon_y=lon, lat_y=lat)])

jdt[, dist := dist_haversine_for_dfs(df_x = jdt[, .(lon = lon.x, lat = lat.x)],
                                     df_y = jdt[, .(lon = lon.y, lat = lat.y)])]

jdt[, .(mean_dist = mean(dist)), by = province]

哪个输出

   province mean_dist
1:        1  15379.21
2:        2 793612.04

【讨论】：

【解决方案7】：

我在下面添加了一个使用 spatialrisk 包的解决方案。该包中的关键函数是用 C++ (Rcpp) 编写的，因此速度非常快。

library(data.table)
library(tidyverse)
library(spatialrisk)
library(optiRum)

# Expand grid
grid <- function(x){
  df <- x[, lat, lon]
  optiRum::CJ.dt(df, df)
}

由于输出的每个元素都是一个数据框，因此使用 purrr::map_dfr 将它们行绑定在一起：

data.table(df1) %>%
  split(.$province) %>%
  map_dfr(grid, .id = "province") %>%
  mutate(distm = spatialrisk::haversine(lat, lon, i.lat, i.lon)) %>%
  filter(distm > 0) %>%
  group_by(province) %>%
  summarize(distm_mean = mean(distm))

输出：

  province distm_mean
  <chr>         <dbl>
1 1            15379.
2 2           793612.

【讨论】：