文章目录
本内容为整理自地理小子关于《深入浅出之—— 面向专业化高级空间数据分析师的八堂课》课程的学习笔记
1 传统数据处理与当下数据处理的困境
数据的特点
(1)薄数据+厚数据
薄数据:数据量大,属性少(比如仅有点的位置和状态)
厚数据:调研数据、访谈数据
(2)空间+时间+属性
时空数据
(3)二维+三维+多维
二维:x、y
三维:x、y、z(时间)
多维:x、y、z、时间、其他多个属性
(4)多来源+多类型+多结构
多来源:社会统计数据、调查访谈数据、通过传感器获取的大数据等等
多类型:
同一类别的不同类型,比如,交通(公交、出租车、汽车、共享单车)
不同类别的多种类型,比如,交通、天气、人口
多结构:矢量数据、栅格数据(tin、grid)
(5)多精度+多尺度+多密度
处理形式
产生大体量数据的两种方式
(1)从源数据中提取主要信息的过程
(2)从源数据中提取隐含信息的过程
传统空间数据与数据处理
(1)传统空间数据的特点
数据量小
数据类型少
时间密度小
(2)传统空间数据处理的特点
多个数据文件逐一操作
数据清洗要求低,难度较小
很多时候,批处理不是必需的
大数据及时空大数据处理
(1)大数据的特点
数量较少的单个大数据量文件
数量较多的多个小数据量文件
多种不同数据类型的多个数据文件
(2)空间大数据处理的特点
分布式计算与处理成为主要解决方案
自动流程化处理是必备的数据处理技能
数据清洗成为数据处理过程中的重要环节