【发布时间】:2017-11-18 10:34:44
【问题描述】:
我想对带有调查权重的调查数据进行线性回归。
调查数据来自欧盟,每个观察值都有权重。 (一位受访者为 0.4,另一位受访者为 1.5。)
这个权重被描述为:
“欧洲权重,变量 6,产生一个有代表性的样本 在分析中使用整个欧洲共同体。这个变量 根据每个国家的情况调整每个国家样本的大小 对欧洲共同体人口的贡献。”
我正在使用 sklearn 进行计算。
from sklearn import linear_model
regr = linear_model.LinearRegression()
regr.fit(X,y, sample_weight = weights)
X 是一个熊猫数据框。 y 是一个 numpy.ndarray。 weights 是熊猫系列。
我是否正确使用了“sample_weight”,这是在 scikit 中处理调查权重的正确方法吗?
【问题讨论】:
标签: python pandas numpy scikit-learn statsmodels