【问题标题】:predict an average price for properties with python用python预测房产的平均价格
【发布时间】:2018-09-05 06:41:17
【问题描述】:

我需要预测建筑面积在 200 到 300 平方米之间的房产的平均价格。和海景** 在 2018 年 1 月、2 月、3 月、4 月和 5 月。使用 python 或 R。问题是,我在列中有一个用逗号分隔的视图变化,海景变化就是这样(变化: '海景','海景','海景','海景','水景','海景海滩','面朝大海','湖景','整个海湾','海景','海湾之上','海湾美景','大海之上',).

另一点是,一个房产在一年内就将其价格改变了 3 倍。我试图使用时间序列建模。但我已经重新考虑过了。谁能给我一些提示来解决这个问题?

【问题讨论】:

  • 请提出更具体的问题,并添加代码、示例输入和输出。
  • 这实际上是一个很好的问题,尽管是在错误的站点上。有人可以将此迁移到 Data Science Stack Exchange。

标签: python arrays string associative-array


【解决方案1】:

我建议使用以下功能

  • 区域
  • 作为分类特征的月份(1 月 = 1、2 月 = 2 等)
  • 一种用于向量化“海景”列的 n_gram 或词袋技术

我建议这样做,因为显然海景比湖景更令人向往。与海景相比,海滩景观也可能是不利的,因为它会吸引人群。因此,不能假定所有这些都是相同的。我猜人们会稍微不同地描述他们的属性,即使他们的意思是一样的。

n_grams

n-grams 是一种基于语言的数据的特征提取技术。它对字符串进行分段,以便可以找到词根,忽略动词结尾、复数等......

分割工作如下:

字符串:Hello World

2-gram:“He”、“el”、“ll”、“lo”、“o”、“W”、“W”、“or”、“rl”、“ld”
3-gram:“Hel”、“ell”、“llo”、“lo”、“o W”、“Wo”、“Wor”、“orl”、“rld”
4-gram:“Hell”、“ello”、“llo”、“lo W”、“o Wo”、“Wor”、“Worl”、“orld”

词袋

这会创建一个单词词典,例如,如果您的训练数据仅包含以下单词 {beach、sea、view、lake、park、garbage、dump}。然后为您创建包含每个单词出现频率的向量。然后您将训练此模型,该模型将了解哪些词最能描述您的输出分布。

然后在未来你以同样的方式向量化单词并将它们传递给模型,你就会得到你想要的输出。

【讨论】:

    猜你喜欢
    • 2017-10-18
    • 1970-01-01
    • 2019-04-18
    • 1970-01-01
    • 1970-01-01
    • 2021-12-26
    • 2021-11-02
    • 1970-01-01
    • 2018-11-29
    相关资源
    最近更新 更多