【问题标题】：predict an average price for properties with python用python预测房产的平均价格
【发布时间】：2018-09-05 06:41:17
【问题描述】：

我需要预测建筑面积在 200 到 300 平方米之间的房产的平均价格。和海景** 在 2018 年 1 月、2 月、3 月、4 月和 5 月。使用 python 或 R。问题是，我在列中有一个用逗号分隔的视图变化，海景变化就是这样（变化： '海景','海景','海景','海景','水景','海景海滩','面朝大海','湖景','整个海湾','海景','海湾之上','海湾美景','大海之上',).

另一点是，一个房产在一年内就将其价格改变了 3 倍。我试图使用时间序列建模。但我已经重新考虑过了。谁能给我一些提示来解决这个问题？

【问题讨论】：

请提出更具体的问题，并添加代码、示例输入和输出。
这实际上是一个很好的问题，尽管是在错误的站点上。有人可以将此迁移到 Data Science Stack Exchange。

标签： python arrays string associative-array

【解决方案1】：

我建议使用以下功能

区域
作为分类特征的月份（1 月 = 1、2 月 = 2 等）
一种用于向量化“海景”列的 n_gram 或词袋技术

我建议这样做，因为显然海景比湖景更令人向往。与海景相比，海滩景观也可能是不利的，因为它会吸引人群。因此，不能假定所有这些都是相同的。我猜人们会稍微不同地描述他们的属性，即使他们的意思是一样的。

n_grams

n-grams 是一种基于语言的数据的特征提取技术。它对字符串进行分段，以便可以找到词根，忽略动词结尾、复数等......

分割工作如下：

字符串：Hello World

2-gram：“He”、“el”、“ll”、“lo”、“o”、“W”、“W”、“or”、“rl”、“ld”
3-gram：“Hel”、“ell”、“llo”、“lo”、“o W”、“Wo”、“Wor”、“orl”、“rld”
4-gram：“Hell”、“ello”、“llo”、“lo W”、“o Wo”、“Wor”、“Worl”、“orld”

词袋

这会创建一个单词词典，例如，如果您的训练数据仅包含以下单词 {beach、sea、view、lake、park、garbage、dump}。然后为您创建包含每个单词出现频率的向量。然后您将训练此模型，该模型将了解哪些词最能描述您的输出分布。

然后在未来你以同样的方式向量化单词并将它们传递给模型，你就会得到你想要的输出。

【讨论】：