【发布时间】:2017-11-06 09:34:03
【问题描述】:
我有一个很大的字符串列表。每个字符串都是训练数据集中的一个不同示例,并包含一个类别列表,其中每个类别用逗号分隔。例如。
mesh = ['aligator, dog, cat', 'cat, mouse, aligator', '']
某些示例可能不属于任何类别,因此将表示为空字符串。
我希望使用 one-hot 编码对这些类别进行编码以用于机器学习。
我该怎么做?我没有完整的类别列表,大约有 5,000 个可能的类别。
【问题讨论】:
-
你的
mesh不像1-dimensional numpy array of strings...你有字符串数组还是字符串数组的一维数组? -
@MaxU 已编辑
-
@MaxU 的回答有问题吗?它应该适用于空字符串
标签: python scikit-learn nltk one-hot-encoding