【发布时间】:2015-04-27 17:27:51
【问题描述】:
我是机器学习的新手,我正在尝试编写一个线性回归算法,其中我有一个分类特征 - 关键字。我的模型中可以有大约 1000 万个关键字。
按照此处给出的说明 - http://www.psychstat.missouristate.edu/multibook/mlt08m.html
看来我应该对分类特征进行二分法。这是否意味着我将有 23 个特征变量(10M 级别的虚拟编码)?
这是处理这种情况的最佳方法吗?
【问题讨论】:
标签: machine-learning linear-regression