【问题标题】:Latitude and Longitude data in dataset while training the model训练模型时数据集中的纬度和经度数据
【发布时间】:2020-09-25 09:33:17
【问题描述】:

我正在使用具有纬度和经度的加利福尼亚住房数据。在我继续训练我的模型之前删除它们(纬度和经度)是一种好习惯吗?

【问题讨论】:

标签: python database pandas data-science feature-engineering


【解决方案1】:

如果您只是使用原始纬度/经度信息,那么是的,您应该删除它们。这是因为 lat/long 的值本身并没有意义,这取决于您的模型对 lat/long 的变化意味着什么没有任何“理解”。例如,就目标变量的变化而言,纬度变化 1 度意味着什么?如果没有任何相关的东西,那么你就会引入噪音或潜在的虚假关系。

纬度/经度更常用于计算对您的响应变量产生有意义影响的特征:点之间的距离、边界区域或任何您可以说“我在此特征中的变化”从空间信息计算与响应的变化相关”。

简而言之:要么将其取出,要么使用它来计算您确实想要包含的功能。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-06-08
    • 1970-01-01
    • 2011-12-30
    • 2012-12-01
    • 2019-05-15
    • 2018-09-01
    • 2017-02-20
    • 1970-01-01
    相关资源
    最近更新 更多