【发布时间】:2019-02-06 14:20:19
【问题描述】:
我看到了这篇文章Label encoding across multiple columns in scikit-learn,其中一个 cmets https://stackoverflow.com/a/30267328/10058906 解释了如何在 0 到 (n-1) 的范围内对给定列的每个值进行编码,其中 n 是列的长度。
当我对red: 2、orange: 1 和green: 0 进行编码时,它提出了一个问题,这是否意味着绿色比红色更接近橙色,因为 0 更接近 1 而不是 2;这实际上不是真的?我之前想也许因为green 出现的次数最多,它得到了0 的值。但是,这不适用于fruit 列apple gets value 0,即使orange occurs the maximum number of times。
【问题讨论】:
标签: python encoding encode categorical-data