【发布时间】:2018-12-12 07:59:18
【问题描述】:
我计划使用带有大数据的机器学习对我的原始数据集(任何,如果是大数据)执行一些有用的任务。那么如何识别收集的数据集是结构化的、非结构化的等。为我的查询建议一些技术或步骤。提前致谢。
【问题讨论】:
标签: machine-learning data-structures dataset bigdata
我计划使用带有大数据的机器学习对我的原始数据集(任何,如果是大数据)执行一些有用的任务。那么如何识别收集的数据集是结构化的、非结构化的等。为我的查询建议一些技术或步骤。提前致谢。
【问题讨论】:
标签: machine-learning data-structures dataset bigdata
结构化数据是根据模型或架构进行组织的。查询或对数据执行任何其他操作都很简单(使用查询语言)。
如果 1.您的模型或架构没有帮助您执行基本操作。 2.你需要花更多的时间在基础分析上 您可以将它们归类为非结构化数据。
非结构化数据没有组织(并非总是如此),最好的例子是人类语言,您将需要使用 NLP、文本挖掘或任何其他处理工具对其执行操作。
【讨论】:
大数据几乎总是非结构化的。如果一个数据集足够干净整洁,可以使用传统的分析工具进行分析,比如 excel 中的开箱即用工具,那么它可能不是“大”的。大数据往往是一个巨大的、非结构化的混乱。这就是人们聘请分析师和数据科学家的原因。
【讨论】: