处理多个分类输入和可变大小的组作为神经网络的输入答案

【问题标题】：Dealing with multiple categorical inputs and variable-sized groups as inputs to neural network处理多个分类输入和可变大小的组作为神经网络的输入
【发布时间】：2019-07-30 19:55:38
【问题描述】：

我正在处理由数字和分类特征组成的数据，其中每个输入都由一组可变大小的特征组成。例如：通过使用房屋中每个房间的特征来预测房屋的价格，并且每个房屋可以有不同数量的房间。特征可以是米大小、类型（例如客厅/浴室/卧室）、颜色、地板...... 一些分类特征具有高基数，我可能正在使用许多特征。我想使用 n 个房间的特征来预测每所房子的价格。我将如何构建我的 inputs/nn 模型以接收可变大小的输入组？

我曾想过使用 one-hot 编码，但我最终会得到很大的输入向量，并且我会失去每个房间的特征之间的联系。我也想过使用嵌入，但我不确定最好的方法是组合特征/样本以正确输入所有数据而不会丢失有关哪些特征来自哪些样本等的任何信息。

【问题讨论】：

标签： python machine-learning keras neural-network embedding

【解决方案1】：

正如下面链接的文章所暗示的那样……您可以从三种路线中选择一种。

我认为序数编码不适合您的示例
一种您已有效排除的热编码。
差异编码，我觉得有点适合，因为有主卧室、次卧室、客人卧室和儿童卧室。所以，试试那个角度。

Link to the beautiful article

编码愉快:)

【讨论】：

谢谢，这篇文章内容丰富。我仍然不清楚如何处理每个样本的可变组大小，您对这个问题有什么想法吗？