【发布时间】:2023-03-13 02:24:01
【问题描述】:
我必须对一些太大而无法放入内存的数据训练分类模型,并且我正在使用 scikit learn 和 pandas 进行分析。所以这是我的问题,如何在在线学习管道中使用验证来调整超参数?
我正在使用带有chucksize 的pandas read_sql_query 和使用sklearn SGDClassifier partial_fit 从sql 数据库流式传输数据。这是一个例子:
clf = SGDCClassifier()
for chunk in pd.read_sql_query("""
select *
from table;
""",
con = conn,
chunksize = n):
preprocess chunk
.
.
.
clf.partial_fit(chunk)
我的问题是:在这样的环境中进行验证的最佳方法是什么?
【问题讨论】:
标签: python validation machine-learning scikit-learn