【发布时间】:2023-03-13 03:14:02
【问题描述】:
我正在处理包含 genre 作为特征的电影数据集。数据集中的示例可能同时属于多个流派。因此,它们包含流派标签列表。
数据看起来像这样-
movieId genres
0 1 [Adventure, Animation, Children, Comedy, Fantasy]
1 2 [Adventure, Children, Fantasy]
2 3 [Comedy, Romance]
3 4 [Comedy, Drama, Romance]
4 5 [Comedy]
我想对这个特征进行矢量化。我已经尝试过 LabelEncoder 和 OneHotEncoder,但它们似乎无法直接处理这些列表。
我可以手动对其进行矢量化,但我还有其他包含太多类别的类似功能。对于那些我更喜欢直接使用 FeatureHasher 类的方法。
有没有办法让这些编码器类在这样的功能上工作?或者有没有更好的方法来表示这样一个特征,这将使编码更容易?我很乐意欢迎任何建议。
【问题讨论】:
标签: pandas machine-learning scikit-learn feature-extraction categorical-data