【发布时间】:2021-02-11 23:45:32
【问题描述】:
我有以下数据集:
**organization** **university**
Facebook Harvard
Facebook Harvard
Facebook Harvard
Wetpaint UC Berkeley
Wetpaint LSE
这些是这些组织的创始人和联合创始人就读的大学。对于我的机器学习项目(使用随机森林和决策树),我希望每个组织都有 1 行。我相信我可以通过创建虚拟变量来轻松做到这一点,在这些变量中,如果存在组织,则为 1,否则为 0。
创建虚拟变量后,可以将虚拟变量相加并合并行。以下是我期望的结果:
**organization** **Harvard** **UC Berkeley** **LSE**
Facebook 3 0 0
Wetpaint 0 1 1
我想知道这在技术上对机器学习算法是否有意义。我还认为,因为我们有 3 行用于 Facebook,而只有 2 行用于 Wetpaint,这也会导致行不平衡。想知道这是否还会导致其他问题。
或者,是否可以为每个组织重复行并只运行算法?这会导致任何问题吗?
请告诉我。请留下对相关书籍或科学期刊的参考。
【问题讨论】:
标签: machine-learning dummy-variable