【发布时间】:2019-05-29 00:09:21
【问题描述】:
我是机器学习的新手!
我尝试在 sci-kit learn 中对我的整个词汇进行标记编码。但是在生成决策树时,比较的形式是浮点型。 (例如: type
更新我的问题: 我的数据如下所示:
这些列是:
输入特征
column1:字符串(可以是大小为 200 的词汇表中的任何单词。注意:这些是函数调用名称,因此类似于颜色名称或国家名称)
同样,有 4 个类似 column1 的列。
输出特征(标签):
字符串类型。这可以是大小为 500 的词汇表中的任何单词。这些都是函数调用名称,因此类似于颜色名称或国家名称)
【问题讨论】:
-
我认为使用
CountVectorizer是最好的选择。分享一些输入数据可能有助于我们更具体 -
我建议你使用 tf-idf 矢量化器,scikit-learn.org/stable/modules/generated/…
-
@MohamedThasinah 不是用于文档比较的 tf-idf 吗?这里我的 javascript 函数名称作为特征给出?
标签: python-3.x pandas machine-learning scikit-learn decision-tree