在机器学习中处理地理空间坐标答案

【问题标题】：Handling geospatial coordinates in machine learning在机器学习中处理地理空间坐标
【发布时间】：2016-10-05 01:24:51
【问题描述】：

我正在构建一个机器学习模型，其中一些列是物理地址（我可以将其转换为 X / Y 坐标），但我对 ML 算法如何处理这一点有点困惑。有没有一种特殊的方法可以将 GEO 位置转换为列以用于 ML（分类和/或回归）？

提前致谢！

【问题讨论】：

你能准确地说“列”是什么意思吗？机器学习可以用任何类型的数据来完成……你能准确地说出你的担忧吗？（也许会提供您的数据样本）
嗨@Eskapp，为了最大限度地简化它，让我们考虑一下我有一个源邮政编码、一个目的地邮政编码和一个运输时间（从源到目的地）。我想预测从源到目的地的运输时间。我担心的是邮政编码与另一个邮政编码无关（没有数学关系），所以我考虑使用坐标，但这会将数据分成两个不同的列，这些列应该与某些东西相关。最后，我想知道如何为 ML 算法处理这些地理空间数据。
我不会将其视为拆分，而只会将其视为多维数据（在您的情况下，维度将为 2）。机器学习算法适用于一维和多维数据。这两个维度可以相关或不相关，具体取决于您在之后选择的模型中如何定义参数。这是否回答了您的问题，还是我错过了什么？
“相关”部分是我所缺少的。我需要阅读如何让算法了解 X 和 Y 之间存在的相关性。谢谢您的提示。
在大多数情况下不必明确设置相关性。说，如果您通过高斯对数据建模，则在估计此高斯的参数时，协方差矩阵将具有非零的非对角项，这将表示数据相关性。您只需要假设 2 维不相关。如果这回答了您的问题，我将对此主题提交明确的答案。 :)

【解决方案1】：

一般来说，特征的选择取决于您预期的特征和目标变量之间的关系类型。您说得对，邮政编码本身与目标没有任何关系。这里的邮政编码只是一个字符串或一个类别。你打算使用什么样的模型？线性回归和决策树就是两个例子。这些模型以不同的方式捕捉关系。作为一个特征的例子，您可以计算源和目的地之间的直线距离，并在模型中使用它，因为直观地说，它们越远，传输时间可能就越高。运输时间还取决于什么？看看你能否以某种方式将影响旅行时间的因素与你所拥有的信息（即邮政编码/XY 坐标）联系起来。

【讨论】：

嗨@raghu，我将主要使用线性回归和兰德森林。距离的事情是我也来了，但没有推得更远。我从你的评论中学到的有趣的事情是我应该问自己的问题“什么将位置与运输时间相关联？”这是我使用的方法，但没有看到背后的真正问题。我想到了一些有趣的可能特征，比如天气（我有旅行的日期时间）、一年中的时间段（假期等......）。在以这种方式处理空间信息时，我会牢记这一点。
一些额外的功能确实很有用。但在很多情况下，我们通常也会使用 ML 来绕过这种手工建模。如果您有成对数据，例如 ({Coordinates_place1,Coordinates_place2},output)，您的模型将尝试推断自己某种相关性。但是，如果您希望输出是运输时间，那么坐标肯定是不够的。此外，可能不建议对此类复杂问题进行线性回归...对于复杂问题而言过于简单的模型...

【解决方案2】：

这总结了我们在问题的 cmets 中最终得到的答案：

这种从邮政编码到地理坐标的转换不应被视为“拆分”，而只是作为一种以多维方式表示数据的方式（在这种情况下，维度将为 2）。机器学习算法适用于一维和多维数据。这两个维度可以相关或不相关，具体取决于您如何定义您之后选择的模型的参数。

此外，在大多数情况下，不必明确设置相关性。只有一个初始值可能有用，但许多算法还依赖于随机初始化或其他从数据子集估计它的简单方法。因此，为了清楚起见，例如，如果您通过高斯对数据进行建模，则在估计此高斯的参数时，协方差矩阵将具有非零的非对角项，这将表示数据相关性。您只需要假设这两个维度不相关！

【讨论】：