【发布时间】:2018-10-21 01:40:02
【问题描述】:
我目前有以下脚本,可帮助找到 doc2vec 模型的最佳模型。它的工作原理是这样的:首先根据给定的参数训练一些模型,然后针对分类器进行测试。最后,它输出最好的模型和分类器(我希望)。
数据
示例数据(data.csv)可以在这里下载:https://pastebin.com/takYp6T8 请注意,数据的结构应该构成一个准确率为 1.0 的理想分类器。
脚本
import sys
import os
from time import time
from operator import itemgetter
import pickle
import pandas as pd
import numpy as np
from argparse import ArgumentParser
from gensim.models.doc2vec import Doc2Vec
from gensim.models import Doc2Vec
import gensim.models.doc2vec
from gensim.models import KeyedVectors
from gensim.models.doc2vec import TaggedDocument, Doc2Vec
from sklearn.base import BaseEstimator
from gensim import corpora
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
dataset = pd.read_csv("data.csv")
class Doc2VecModel(BaseEstimator):
def __init__(self, dm=1, size=1, window=1):
self.d2v_model = None
self.size = size
self.window = window
self.dm = dm
def fit(self, raw_documents, y=None):
# Initialize model
self.d2v_model = Doc2Vec(size=self.size, window=self.window, dm=self.dm, iter=5, alpha=0.025, min_alpha=0.001)
# Tag docs
tagged_documents = []
for index, row in raw_documents.iteritems():
tag = '{}_{}'.format("type", index)
tokens = row.split()
tagged_documents.append(TaggedDocument(words=tokens, tags=[tag]))
# Build vocabulary
self.d2v_model.build_vocab(tagged_documents)
# Train model
self.d2v_model.train(tagged_documents, total_examples=len(tagged_documents), epochs=self.d2v_model.iter)
return self
def transform(self, raw_documents):
X = []
for index, row in raw_documents.iteritems():
X.append(self.d2v_model.infer_vector(row))
X = pd.DataFrame(X, index=raw_documents.index)
return X
def fit_transform(self, raw_documents, y=None):
self.fit(raw_documents)
return self.transform(raw_documents)
param_grid = {'doc2vec__window': [2, 3],
'doc2vec__dm': [0,1],
'doc2vec__size': [100,200],
'logreg__C': [0.1, 1],
}
pipe_log = Pipeline([('doc2vec', Doc2VecModel()), ('log', LogisticRegression())])
log_grid = GridSearchCV(pipe_log,
param_grid=param_grid,
scoring="accuracy",
verbose=3,
n_jobs=1)
fitted = log_grid.fit(dataset["posts"], dataset["type"])
# Best parameters
print("Best Parameters: {}\n".format(log_grid.best_params_))
print("Best accuracy: {}\n".format(log_grid.best_score_))
print("Finished.")
关于我的脚本,我确实有以下问题(我在这里将它们结合起来以避免三个帖子具有相同的代码 sn-p):
-
def __init__(self, dm=1, size=1, window=1):的用途是什么?我可以以某种方式删除这部分(尝试失败)吗? - 如何将
RandomForest分类器(或其他)添加到 GridSearch 工作流/管道? - 如何将训练/测试数据拆分添加到上述代码中,因为当前脚本仅在完整数据集上进行训练?
【问题讨论】:
-
关于第三点,通常最好的做法是使用 K-Fold 交叉验证,而不是仅仅在训练和测试集中分割数据集。请参阅:cross_val_predict 或 cross_validate
-
我可以得到这段代码的来源吗?你从哪里得到的?我需要做类似的事情,所以需要一些参考
标签: scikit-learn pipeline gensim grid-search