【发布时间】:2018-07-06 13:34:22
【问题描述】:
我正在努力计算词袋。我有一个带有文本列的 pandas 数据框,我正确地对其进行标记、删除停用词和词干。 最后,对于每个文档,我都有一个字符串列表。
我的最终目标是为本专栏计算词袋,我已经看到 scikit-learn 有一个功能可以做到这一点,但它适用于字符串,而不是字符串列表。
我正在使用 NLTK 自己进行预处理,并希望保持这种状态...
有没有办法根据标记列表计算词袋?例如,类似的东西:
["hello", "world"]
["hello", "stackoverflow", "hello"]
应该转换成
[1, 1, 0]
[2, 0, 1]
用词汇:
["hello", "world", "stackoverflow"]
【问题讨论】:
-
你找到解决办法了吗?
标签: python pandas scikit-learn nlp nltk