【发布时间】:2020-08-02 15:39:15
【问题描述】:
我有多个数据结构相同的 csv 文件
我想一次对每个 csv 文件进行聚类
import os
import pandas as pd
import numpy as np
from sklearn import metrics
import glob
df = pd.read_csv('File 000rejoice-19.csv')
can=df.drop(columns =['pat'])
from sklearn.cluster import DBSCAN
dbscan=DBSCAN(eps=3,min_samples=4)
X = can.iloc[:, [1,2,3,4]].values
X.shape
model=dbscan.fit(X)
labels=model.labels_
sample_cores=np.zeros_like(labels,dtype=bool)
sample_cores[dbscan.core_sample_indices_]=True
n_clusters=len(set(labels))- (1 if -1 in labels else 0)
n_clusters
此代码仅适用于一个 csv 文件,我想一次聚集多个 csv 文件
【问题讨论】:
-
在迭代每个文件并单独针对文件运行现有脚本时是否有任何问题?您是要合并所有 csv 文件并运行一次 DBSCAN 还是在每个单独的文件上运行它?
-
我不知道如何单独迭代每个文件。我想在每个单独的文件上运行它。
标签: python csv machine-learning cluster-analysis dbscan