【发布时间】:2020-04-21 21:51:39
【问题描述】:
我有以下代码,它显示来自 csv 文件的垃圾邮件/火腿邮件列表...
data = pd.read_csv('spam.csv', encoding='latin-1', delimiter='\t', header=None)
data
我想通过使用 PCA 来显示我的 csv 数据集的图(集群),类似这样(例如,绿色是垃圾邮件和蓝色火腿)
【问题讨论】:
标签: python jupyter-notebook pca
我有以下代码,它显示来自 csv 文件的垃圾邮件/火腿邮件列表...
data = pd.read_csv('spam.csv', encoding='latin-1', delimiter='\t', header=None)
data
我想通过使用 PCA 来显示我的 csv 数据集的图(集群),类似这样(例如,绿色是垃圾邮件和蓝色火腿)
【问题讨论】:
标签: python jupyter-notebook pca
您可以将您的“火腿”和“垃圾邮件”标签映射到类别,然后使用matplotlib.pyplot.scatter 进行散点图。这使得将来添加新标签也相对容易。
import matplotlib.pyplot as plt
# map 'ham' and 'spam' labels to numbers
df['label_num'] = df['ham/spam'].map({ 'ham': 0, 'spam': 1 })
# scatter plot
plt.scatter(df['x'], df['y'], cmap='rainbow', c=df['label_num'])
【讨论】: