【发布时间】:2019-07-30 19:55:38
【问题描述】:
我正在处理由数字和分类特征组成的数据,其中每个输入都由一组可变大小的特征组成。 例如:通过使用房屋中每个房间的特征来预测房屋的价格,并且每个房屋可以有不同数量的房间。特征可以是米大小、类型(例如客厅/浴室/卧室)、颜色、地板...... 一些分类特征具有高基数,我可能正在使用许多特征。 我想使用 n 个房间的特征来预测每所房子的价格。 我将如何构建我的 inputs/nn 模型以接收可变大小的输入组?
我曾想过使用 one-hot 编码,但我最终会得到很大的输入向量,并且我会失去每个房间的特征之间的联系。 我也想过使用嵌入,但我不确定最好的方法是组合特征/样本以正确输入所有数据而不会丢失有关哪些特征来自哪些样本等的任何信息。
【问题讨论】:
标签: python machine-learning keras neural-network embedding