【问题标题】:infinity vectors in Spark MLlib word2vecSpark MLlib word2vec 中的无穷向量
【发布时间】:2018-09-19 09:13:03
【问题描述】:

我有一个关于运行 Spark MLlib 的 word2vec 的问题。 我以~2.4M 的词汇量和~1.4B 的语料库运行它。 获得某些单词的 +-infinity 向量的原因是什么? 当我增加迭代次数时会发生这种情况,即通过 10 次迭代我得到一个合理的模型, 并且通过 20 次迭代,我得到了一些 [Infinity,-Infinity,Infinity,-Infinity,...] 形式的向量。提前致谢。

【问题讨论】:

    标签: apache-spark word2vec


    【解决方案1】:

    你可以对每个向量元素这样做:

      def input_data(data_input:Double):Double =  {
      var result = data_input
      if (data_input.isInfinity || data_input.isNaN){
        result =0
      }
      result
    }
    

    【讨论】:

    • 这个答案修复了症状,但没有解决问题。 word2vec 模型首先不应包含 Infinities。
    猜你喜欢
    • 2018-06-13
    • 2016-03-14
    • 2016-01-26
    • 1970-01-01
    • 2018-02-13
    • 2019-04-15
    • 1970-01-01
    • 2017-02-02
    • 2017-03-08
    相关资源
    最近更新 更多