【发布时间】:2018-07-18 16:24:11
【问题描述】:
我正在构建一个多类文本分类器,其中包含工作门户的数据集。数据集由映射到实际名称的组织名称组成(见下文)。我想制作一个可以预测实际组织名称的机器学习模型。
我的数据集如下所示:
Flipkart.com Flipkart
FlipKart pvt ltd Flipkart
flipkart.com Flipkart
我的问题是这样的:
A.) 我可以提取哪些特征?
B.) 我的特征提取器也应该使用训练集的标签吗?
C.) 我的功能应该是什么样子,因为它们应该是 nbclassifier 的 dict。什么关键什么价值?
我是 NLP 新手,如有任何帮助,我们将不胜感激。 Source code on github
【问题讨论】:
-
我几乎可以肯定您来错地方了(您的问题中没有代码)。试试 Datascience Stackexchange 或 Cross Validated。而且,这是一个很笼统的问题,大家还是先自己研究一下吧。
-
@debzsud 感谢您的建议。
-
对于这些例子,正则表达式可以工作。类名总是输入的子字符串吗?因为那么正则表达式就是答案。
标签: python machine-learning nlp nltk naivebayes