将原始数据分组为层次结构答案

【问题标题】：Grouping raw data into hierarchical structure将原始数据分组为层次结构
【发布时间】：2016-04-11 07:17:34
【问题描述】：

我正在从事一个宠物项目，该项目涉及将原始数据（例如 csv）分组到一个更有条理、对我有用的具有 x 个嵌套级别的数据结构中。

原始数据，例如（从在线购物网站抓取的数据，比如 Kindle 书店）：

Excel 2013
Excel 2015
Farming practices 101
Cooking 101
Photoshop Basics

进入：

Level 1 -> Level 2 -> Level 3 -> Raw Data Level 4
Office Tools -> Microsoft Products -> Excel -> Excel 2013
Office Tools -> Microsoft Products -> Excel -> Excel 2015
Farming -> Farming Practices -> Basics -> Farming Practices 101
Design -> Photoshop -> Basics -> Photoshop Basics

用户可以将原始数据生成为标签，我希望我的项目将它们分组到基本类别中（假设我有一个最顶层的基本列表）。

现在，我对抓取和分组有基本的了解，但我希望使用某种算法方式（也许是大数据）对它们进行分组。另外，我正在查看 AWS DynamoDB + Redshift，以便进行测试。我不希望这是完美的，因为它是一个 POC。有没有人试图做这种事情？如果是，我应该怎么做？我也可以在聊天/此处提供更多细节。

我不是在研究如何处理分组数据，而是在研究如何使用算法对数据进行分组。

【问题讨论】：

您的意思是您的程序应该自动推断 Excel 2013 属于 Excel，而 Excel 属于 Microsoft 产品吗？还是有人规定了这些先验关系？换句话说，程序应该使用什么知识库？

标签： amazon-web-services architecture data-mining bigdata

【解决方案1】：

统计算法无法从输入数据中推断出，例如Excel 来自 Microsoft，是一种 Office 工具。

这需要一个更大的知识库，因为该信息不在您的输入数据中。

因此，我们不能推荐算法，因为没有人能做到这一点。

【讨论】：