Spark MLlib word2vec 中的无穷向量答案

【问题标题】：infinity vectors in Spark MLlib word2vecSpark MLlib word2vec 中的无穷向量
【发布时间】：2018-09-19 09:13:03
【问题描述】：

我有一个关于运行 Spark MLlib 的 word2vec 的问题。我以~2.4M 的词汇量和~1.4B 的语料库运行它。获得某些单词的 +-infinity 向量的原因是什么？当我增加迭代次数时会发生这种情况，即通过 10 次迭代我得到一个合理的模型，并且通过 20 次迭代，我得到了一些 [Infinity,-Infinity,Infinity,-Infinity,...] 形式的向量。提前致谢。

【问题讨论】：

标签： apache-spark word2vec

【解决方案1】：

你可以对每个向量元素这样做：

  def input_data(data_input:Double):Double =  {
  var result = data_input
  if (data_input.isInfinity || data_input.isNaN){
    result =0
  }
  result
}

【讨论】：

这个答案修复了症状，但没有解决问题。 word2vec 模型首先不应包含 Infinities。