【发布时间】:2017-12-05 06:19:33
【问题描述】:
我正在努力对 60,000 个争议索赔做出预测响应概率(二进制:是或否 (1, 0)),每个争议索赔都有其唯一的参考 ID。使用数据的前 3/4 作为训练集 (X_train, y_train) 以逻辑回归作为分类器来预测后 1/4 作为测试集 (X_test) 的响应概率,我想将输出变成 60,000 索引系列,使得输出看起来像
reference_id
184932 0.531842
185362 0.401958
185361 0.105928
185338 0.018572
...
276499 0.208567
276500 0.818759
269851 0.018528
Name: response, dtype: float32
我实现了以下 Python 代码:
y_score_lr = LogisticRegression(C=10).fit(X_train, y_train).predict_proba(X_test)[:,1]
y_proba = y_score_lr
结果是一个像这样的numpy数组
array([ 0.05225495, 0.00522493, 0.07369773, ..., 0.06994582, 0.06995239, 0.12659022])
这是一个 numpy 数组。
但是我不确定这个数组是否真的匹配原始 X_test 数据帧中对应的 reference_id,我还没有想出如何将它转换成一个索引“系列”,就像我在本文开头提到的那样发帖。
如果有人能指出有用的快捷方式来实现这一点,我们将不胜感激。
我也尝试过使用
y_score_lr = LogisticRegression(C=10).fit(X_train, y_train).predict_proba(X_test)[:,1]
y_proba = y_score_lr.tolist()
将数组转换为列表,但仍无法将其转换为带有“reference_id”索引的所需系列类型输出。
谢谢。
此致,
【问题讨论】:
标签: python arrays dataframe indexing scikit-learn