【发布时间】:2017-07-15 09:39:35
【问题描述】:
为了理解这一点,我进行了很多搜索,但我无法做到。我了解默认情况下 TfidfVectorizer 将在词频上应用 l2 归一化。 This文章解释了它的方程式。我在用古吉拉特语写的文本上使用 TfidfVectorizer。以下是有关它的输出的详细信息:
我的两个文件是:
ખુબ વખાણ કરે છે
ખુબ વધારે છે
我使用的代码是:
vectorizer = TfidfVectorizer(tokenizer=tokenize_words, sublinear_tf=True, use_idf=True, smooth_idf=False)
这里,tokenize_words 是我用于标记单词的函数。
我的数据的TF-IDF列表是:
[[ 0.6088451 0.35959372 0.35959372 0.6088451 0. ]
[ 0. 0.45329466 0.45329466 0. 0.76749457]]
功能列表:
['કરે', 'ખુબ', 'છે.', 'વખાણ', 'વધારે']
idf的值:
{'વખાણ': 1.6931471805599454, 'છે.': 1.0, 'કરે': 1.6931471805599454, 'વધારે': 1.6931471805599454, 'ખુબ': 1.0}
请在这个例子中解释一下我的两个文档中每个术语的术语频率。
【问题讨论】:
-
我也提到过。归一化后取不到值。
-
在此处发布您已展示 TF-IDF 的原始数据...它有 2 个文档。
-
@VivekKumar 感谢您的及时回复。我通过添加两个文档文本更新了我的问题。
标签: python-3.x scikit-learn tf-idf