【发布时间】:2019-12-13 17:36:34
【问题描述】:
如何对具有重复项的列表列进行 n-hot 编码?
类似于来自 sklearn 的 MultiLabelBinarizer 之类的东西,它计算重复类的实例数而不是二值化。
示例输入:
x = pd.Series([['a', 'b', 'a'], ['b', 'c'], ['c','c']])
预期输出:
a b c
0 2 1 0
1 0 1 1
2 0 0 2
【问题讨论】:
-
对于 pyspark,您可能可以使用
pyspark.ml.feature.CountVectorizer,请参阅我的示例之一(您需要使用默认值:binary=False):stackoverflow.com/questions/58010126/…跨度>
标签: python python-3.x scikit-learn pyspark apache-spark-mllib