【发布时间】:2013-03-22 08:45:22
【问题描述】:
scikit-learn 的新手,我正在处理一些类似以下的数据。
data[0] = {"string": "some arbitrary text", "label1": "orange", "value1" : False }
data[0] = {"string": "some other arbitrary text", "label1": "red", "value1" : True }
对于单行文本,TfidfTransformer 之前的管道中有 CountVectorizer 和 DictVectorizer。这些的输出可以连接起来,我希望有以下警告:我不希望任意文本与特定的、有限的和明确定义的参数同等重要。
最后,还有一些可能相关的问题
- 这个数据结构可能表明哪个 SVM 内核最好?
- 或者在这种情况下,随机森林/决策树、DBN 或贝叶斯分类器可能会做得更好吗?还是Ensemble method? (输出为multi-class)
- 我看到feature union 即将推出一个功能,但这是对相同数据运行不同的方法并将它们组合起来。
- 我应该使用feature selection吗?
另见:
【问题讨论】:
标签: python svm scikit-learn