使用深度学习在异构数据上匹配属性答案

【问题标题】：Matching Property on Heterogenous Data using Deep Learning使用深度学习在异构数据上匹配属性
【发布时间】：2020-02-21 19:08:56
【问题描述】：

我面临的问题是我想匹配彼此相似的属性（房屋/公寓等）（例如经度和纬度（数字）、卧室（数字）、地区（分类）、条件（分类）等） .) 使用深度学习。数据是异构的，因为我们混合了数值数据和分类数据，而问题是无监督的，因为我们不使用任何标签。

我的目标是衡量属性的相似程度，以便找到每个目标属性的最佳匹配项。我可以使用 KNN，但我想使用可以让我找到嵌入并使用深度学习的东西。

我想我可以确定一个混合距离度量，例如高尔距离作为损失函数，但是我将如何建立一个模型来确定样本中每个目标属性的前 10 个匹配项？

非常感谢您对类似问题集（Kaggle、notebooks、github）的任何帮助或指出。

谢谢

【问题讨论】：

【解决方案1】：

鉴于您想要一种无监督的方法，您可以尝试使用自动编码器。我发现变分自动编码器 (VAE) 非常适合解决其他问题。学习到的嵌入应该在一定程度上尊重输入空间中的距离，但如果您希望以特定方式分隔示例，则可能需要稍微修改损失函数。

要获得前 k 个，您只需对每个示例进行编码，计算一个距离矩阵并获取每行（或 col）中的前 k 个。

我在 Pytorch 中实现了 VAE（和其他）：here 供您参考，显然您将需要不同的网络架构来处理分类方面等。

希望这会有所帮助！

【讨论】：