【发布时间】:2017-06-13 13:18:56
【问题描述】:
我有一个三列的数据框 df,如下所示:
DocumentID Words Region
1 ['A','B','C'] ['Canada']
2 ['A','X','D'] ['India', 'USA', 'Canada']
3 ['B','C','X'] ['Canada']
我想为“单词”列中的每个单词计算 IDF,即我想生成一个输出,其中每个单词(如 'A'、'B'、'C' 等)都有相应的 IDF 值。
【问题讨论】:
-
那里有几个记录良好、维护良好且使用过的 NLP 库。您可能已经安装了几个。老实说,为什么你使用这样的
DataFrame对我来说毫无意义。DataFrames的列表几乎总是表明您以错误的方式处理此问题。
标签: python pandas dataframe tf-idf