【发布时间】:2016-03-05 12:56:51
【问题描述】:
我想在一些大数据上运行一些机器学习聚类算法。
问题是我很难在网络上为此目的找到有趣的数据。
此外,通常这些数据可能不方便使用,因为格式不适合我。
我需要一个 txt 文件,其中每一行代表一个数学向量,每个元素用空格分隔,例如:
1 2.2 3.1
1.12 0.13 4.46
1 2 54.44
因此,我决定首先在一些我自己创建的合成数据上运行这些算法。
如何使用 numpy 以智能的方式做到这一点?
聪明地,我的意思是它不会统一生成,因为它有点无聊。如何生成一些有趣的集群?
我现在想要 5GB / 10GB 的数据。
【问题讨论】:
标签: numpy machine-learning dataset