tfidf.transform() 函数没有返回正确的值答案

【问题标题】：tfidf.transform() function not returning correct valuestfidf.transform() 函数没有返回正确的值
【发布时间】：2017-08-22 19:21:46
【问题描述】：

我正在尝试在某个文本语料库上拟合 tfidf 矢量化器，然后使用相同的矢量化器来查找新文本的 tfidf 值的总和。但是，总和值与预期不符。下面是例子：

text = ["I am new to python and R , how can anyone help me","why is no one able to crack the python code without help"]
tf= TfidfVectorizer(stop_words='english',ngram_range =(1,1))
tf.fit_transform(text)
zip(tf.get_feature_names(),tf.idf_)

[(u'able', 1.4054651081081644),
 (u'code', 1.4054651081081644),
 (u'crack', 1.4054651081081644),
 (u'help', 1.0),
 (u'new', 1.4054651081081644),
 (u'python', 1.0)]

现在，当我尝试使用相同的 tf 新文本时：

new_text = "i am not able to code"
np.sum(tf.transform([new_text]))
1.4142135623730951

我预计输出在 2.80 左右。任何关于此处可能出现问题的建议都会非常有帮助。

【问题讨论】：

标签： python python-2.7 scikit-learn tf-idf

【解决方案1】：

这是因为“l2 标准化”（TfidfVectorizer 中的默认值）。如您所料，transform() 的第一个结果是：

array([[ 1.40546511,  1.40546511,  0.        ,  0.        ,  0.        ,
     0.        ]])

但是现在规范化已经完成。在此，上面的向量被除法器除：

dividor = sqrt(sqr(1.40546511)+sqr(1.40546511)+sqr(0)+sqr(0)+sqr(0)+sqr(0))
        = sqrt(1.975332175+1.975332175+0+0+0+0)
        = 1.98762782

所以最终得到的数组是：

array([[ 0.70710678,  0.70710678,  0.        ,  0.        ,  0.        ,
     0.        ]])

然后你应用 sum，它的结果是 = 1.4142135623730951。

希望现在很清楚。 TfidfVectorizer的完整工作可以参考my answer here。

【讨论】：

明确一点，如果你不想要这个 L2-norm，你可以在 TfidfVectorizer 构造函数中使用 norm=None。见here。
感谢您的清晰解释。一个后续问题 - 为什么当我们在新文本上使用 tfidfs 时，而不是在我们最初将其与原始文本相匹配时，它会被规范化？
@Apoorv 原始数据用于从整个语料库中查找词条的idf。它不计算基于单个文档的 tf-idf。 tf-idf 是标准化的，而不是 idf。如果您对原始文档使用转换，您将获得标准化的结果。不要混淆 tf 和 idf。在您的情况下，您会看到 idf=tf-idf ，因为每个术语的 tf =1 。见scikit-learn.org/stable/modules/…
@Vivek Kumar 知道了。感谢您的快速帮助和参考。 :)