【发布时间】:2016-04-11 07:17:34
【问题描述】:
我正在从事一个宠物项目,该项目涉及将原始数据(例如 csv)分组到一个更有条理、对我有用的具有 x 个嵌套级别的数据结构中。
原始数据,例如(从在线购物网站抓取的数据,比如 Kindle 书店):
Excel 2013
Excel 2015
Farming practices 101
Cooking 101
Photoshop Basics
进入:
Level 1 -> Level 2 -> Level 3 -> Raw Data Level 4
Office Tools -> Microsoft Products -> Excel -> Excel 2013
Office Tools -> Microsoft Products -> Excel -> Excel 2015
Farming -> Farming Practices -> Basics -> Farming Practices 101
Design -> Photoshop -> Basics -> Photoshop Basics
用户可以将原始数据生成为标签,我希望我的项目将它们分组到基本类别中(假设我有一个最顶层的基本列表)。
现在,我对抓取和分组有基本的了解,但我希望使用某种算法方式(也许是大数据)对它们进行分组。另外,我正在查看 AWS DynamoDB + Redshift,以便进行测试。我不希望这是完美的,因为它是一个 POC。有没有人试图做这种事情?如果是,我应该怎么做?我也可以在聊天/此处提供更多细节。
我不是在研究如何处理分组数据,而是在研究如何使用算法对数据进行分组。
【问题讨论】:
-
您的意思是您的程序应该自动推断 Excel 2013 属于 Excel,而 Excel 属于 Microsoft 产品吗?还是有人规定了这些先验关系?换句话说,程序应该使用什么知识库?
标签: amazon-web-services architecture data-mining bigdata