【发布时间】:2019-10-02 22:45:41
【问题描述】:
我需要一些帮助来解决我遇到的问题。我有一个大的 csv 文件 (6239292, 5) 并且想要执行无监督机器学习技术 (kmodes)。我的代码是这样的:
import numpy as np
import pandas as pd
print("initialising")
syms = np.genfromtxt('foo.csv', delimiter = ';', dtype=str, skip_header=1, invalid_raise=False)[:, 0:]
print(syms.shape)
X = np.genfromtxt('foo.csv',dtype=object, delimiter=';', invalid_raise=False, skip_header=1)[:, 1:]
X[1:, 0] = X[1:, 0].astype(float)
from kmodes.kprototypes import KPrototypes
print("Imported successfully")
kproto = KPrototypes(n_clusters=6, init='random', n_init=2, verbose=2)
clusters = kproto.fit_predict(X, categorical=[2,1,3,])
由于文件的大小,它需要很长时间。有什么技术可以用来减少时间吗?提前谢谢!
【问题讨论】:
标签: python numpy machine-learning unsupervised-learning