了解嵌入向量维度答案

【问题标题】：Understanding embedding vectors dimension了解嵌入向量维度
【发布时间】：2019-05-10 10:38:38
【问题描述】：

在深度学习中，尤其是 NLP，单词被转换成向量表示形式，然后输入到神经网络中，例如 RNN。参考链接：

在Word Embeddings部分中，是这样说的：

一个词嵌入 W:words→Rn 是一个参数化的函数映射词在一些语言到高维向量（可能是 200 到 500 维）

我不明白向量维度的用途。 200 维向量与20 维向量相比意味着什么？

它是否提高了模型的整体准确性？谁能给我一个关于向量维度选择的简单例子。

【问题讨论】：

【解决方案1】：

这些词嵌入也称为分布式词嵌入，是基于

你知道它所拥有的公司的一个词

所以我们通过上下文知道一个词的含义。您可以认为（一个词的）向量中的每个标量都代表了它对一个概念的强度。这张来自Prof. Pawan Goyal 的幻灯片解释了一切。

因此，您需要良好的向量大小来捕获相当数量的概念，但您不想要太大的向量，因为它会成为使用这些嵌入的模型训练的瓶颈。

此外，向量大小大多是固定的，因为大多数人不训练自己的嵌入，而是使用公开可用的嵌入，因为他们在大量数据上训练了数小时。因此，使用它们将迫使我们使用嵌入层，其尺寸由您正在使用的公开可用嵌入（word2vec、glove 等）给出。

分布式词嵌入是 NLP 深度学习领域的一个重要里程碑。与基于 tfidf 的嵌入相比，它们提供了更好的准确性。

【讨论】：

所以顺便说一下，它表示 Royal 有一个 [0.99,0.99,0.02,0.98] 的向量，基于幻灯片，维度为 4？
king的向量代表0.99的royality、0.99的mulculinity、0.05的faminity等等。基本上，向量中的每个维度都代表了某个概念的强度（roality、mulculinity、faminity 等）。然而，这些概念是隐藏的，我们无法真正解释它们。但这就是他们隐藏的意义。