【问题标题】:Grouping raw data into hierarchical structure将原始数据分组为层次结构
【发布时间】:2016-04-11 07:17:34
【问题描述】:

我正在从事一个宠物项目,该项目涉及将原始数据(例如 csv)分组到一个更有条理、对我有用的具有 x 个嵌套级别的数据结构中。

原始数据,例如(从在线购物网站抓取的数据,比如 Kindle 书店):

Excel 2013
Excel 2015
Farming practices 101
Cooking 101
Photoshop Basics

进入:

Level 1 -> Level 2 -> Level 3 -> Raw Data Level 4
Office Tools -> Microsoft Products -> Excel -> Excel 2013
Office Tools -> Microsoft Products -> Excel -> Excel 2015
Farming -> Farming Practices -> Basics -> Farming Practices 101
Design -> Photoshop -> Basics -> Photoshop Basics

用户可以将原始数据生成为标签,我希望我的项目将它们分组到基本类别中(假设我有一个最顶层的基本列表)。

现在,我对抓取和分组有基本的了解,但我希望使用某种算法方式(也许是大数据)对它们进行分组。另外,我正在查看 AWS DynamoDB + Redshift,以便进行测试。我不希望这是完美的,因为它是一个 POC。有没有人试图做这种事情?如果是,我应该怎么做?我也可以在聊天/此处提供更多细节。

我不是在研究如何处理分组数据,而是在研究如何使用算法对数据进行分组。

【问题讨论】:

  • 您的意思是您的程序应该自动推断 Excel 2013 属于 Excel,而 Excel 属于 Microsoft 产品吗?还是有人规定了这些先验关系?换句话说,程序应该使用什么知识库?

标签: amazon-web-services architecture data-mining bigdata


【解决方案1】:

统计算法无法从输入数据中推断出,例如Excel 来自 Microsoft,是一种 Office 工具。

这需要一个更大的知识库,因为该信息不在您的输入数据中。

因此,我们不能推荐算法,因为没有人能做到这一点。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-12-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-15
    相关资源
    最近更新 更多