【发布时间】:2014-08-07 21:28:31
【问题描述】:
我正在尝试使用 Mahout 运行 K 均值集群算法。我不知道如何格式化输入文件。我在表中拥有的基本数据是一个用户 ID,后跟数百个值。我知道我需要将输入作为向量提供,有人可以分享这个格式吗?
例如:
User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count
A 20 $30 Male Owns a home Y 5
B 10 $400 Female Rents N 20
....
会不会是:
A:20,30,0,0,1,5
B:10,400,1,1,0,20
我正在编码:
- 男性为 0,女性为 1 和
- 拥有房屋为 0,租金为 1
- Y 为 1,N 为 0
【问题讨论】:
标签: hadoop format mahout k-means