【发布时间】:2013-04-29 09:27:23
【问题描述】:
在scikit-learn tutorial here 之后,如果我们有一个Pandas.DataFrame 有一个名为colors 的列,我们如何创建一个循环来循环遍历DataFrame 的所有列(或包含所需列的列表),以便所有类别变量(例如,变量colors 可以具有值blue、red、purple)将被len(colors) 虚拟变量列数colors#blue、colors#red、colors#purple 替换?
刚学过python,所以我把我的想法写在一些伪代码中。
尝试(伪代码)
cols_to_process = ['colors']
# Create new columns for dummy variables
// if listings.keyname in cols_to_process:
// unique_values = list of unique values in listings[col]
// listings = listings.join(unique_values, axis=1)
# Populate dummy variable columns
# Remove old columns that have dummy variable columns created
【问题讨论】:
标签: python python-2.7 numpy pandas scikit-learn