【发布时间】:2017-11-29 12:44:57
【问题描述】:
我有数千个带有相关标签信息的文档。但是我也有很多没有标签的文档。
我想在有标签的文档上训练一个模型,然后将训练好的分类器应用到 UNTAGGED 文档上;然后分类器将为每个 UNTAGGED 文档建议最合适的标签。
我做了很多研究,似乎没有一个 SUPERVISED 实现来记录标签分类。
我知道 NLTK、gensim、word2vec 和其他库将有助于解决这个问题。
我将用 Python 对项目进行编码。
任何帮助将不胜感激。
【问题讨论】:
-
受监督的文档标记并不少见,尽管它通常被称为“多类标签”。对于许多方法,它与单一标记相同,但您选择 N 最佳结果。有关虚构数据的 scikit 示例,请参见此处:scikit-learn.org/stable/auto_examples/plot_multilabel.html
标签: python machine-learning nlp text-classification