【发布时间】:2020-09-25 09:33:17
【问题描述】:
我正在使用具有纬度和经度的加利福尼亚住房数据。在我继续训练我的模型之前删除它们(纬度和经度)是一种好习惯吗?
【问题讨论】:
-
你可以参考这个博客:medium.com/@khadijamahanga/…
标签: python database pandas data-science feature-engineering
我正在使用具有纬度和经度的加利福尼亚住房数据。在我继续训练我的模型之前删除它们(纬度和经度)是一种好习惯吗?
【问题讨论】:
标签: python database pandas data-science feature-engineering
如果您只是使用原始纬度/经度信息,那么是的,您应该删除它们。这是因为 lat/long 的值本身并没有意义,这取决于您的模型对 lat/long 的变化意味着什么没有任何“理解”。例如,就目标变量的变化而言,纬度变化 1 度意味着什么?如果没有任何相关的东西,那么你就会引入噪音或潜在的虚假关系。
纬度/经度更常用于计算对您的响应变量产生有意义影响的特征:点之间的距离、边界区域或任何您可以说“我在此特征中的变化”从空间信息计算与响应的变化相关”。
简而言之:要么将其取出,要么使用它来计算您确实想要包含的功能。
【讨论】: