【发布时间】:2018-12-18 18:57:37
【问题描述】:
我使用的所有模型都专门针对具有相同输入大小(图像或向量)的数据进行训练。
我最近遇到了一个我想使用深度学习方法解决的问题。
假设我们用特征来描述一个城市(有几百万个属性,固定大小但太多了),一个国家可能包含不同数量的城市,最后我们想验证这个国家来自哪个大陆。
所以输入是这样的:
country A :{<city_1 attributes: 1, 3, ...> ... <city_n attributes: 21, 11, 294,...>}
...
...
...
country N :{<city_x attributes: 55, 21, ...> ... <city_n attributes: 25, 2, ...>}
*index represents corresponding entry in characteristics database that has millions entries.
我可以将数据转换成类似的东西
< <1, 4, 32> <23, 55, 203123, ...> ... <2, 4 ,23 ...> >
...
...
...
< <21, 55, 87...> <5> ...>
有两个问题
城市特征太多,无法以one-hot编码形式表示。
每个条目中的城市数量不同,没有假设上限。
我不确定这是一个很好的例子,但你明白了。 我只能想到RNN,但是这种情况下的数据是完全独立的,每个城市之间没有顺序关系。
欢迎提出任何建议。
【问题讨论】:
标签: machine-learning deep-learning