【发布时间】:2017-01-15 13:34:26
【问题描述】:
我有大量的 AddressIds 数据集需要清理。最终用户可以自己输入属于某个 AddressId 的坐标,因此某些 AddressId 有许多 (> 20) 经度和纬度,它们略有不同(有时只有几米)。比如:
AddressID Longitude Latitude
1234 77.037692 38.89864
1234 77.037872 38.88775
1234 77.048522 38.78553
现在,我想在 R 的帮助下确定哪个经度和哪个纬度是最准确的。取中位数或类似的东西是不可能的,因为坐标略有不同,而且几乎从来没有输入完全相同的坐标。
我的想法是,与另一个经度(分别是纬度)的距离最短的经度(分别是纬度)应该是最准确的。现在我想知道我最适合使用哪种包和方法来回答这样的问题。
【问题讨论】:
-
如果一个AddressId只有两条记录,应该如何记录最准确?平均两条记录还是随机选择一条?
-
看一下ggmap包。函数 geocode 将根据谷歌返回地址的纬度和经度。当然,这是否是“真的”还有待商榷。
标签: r geocoding prediction