【问题标题】:Which Clustering algorithm and data visualization tool should I use to locate and visualize geographical weather data我应该使用哪种聚类算法和数据可视化工具来定位和可视化地理天气数据
【发布时间】:2021-06-18 13:23:04
【问题描述】:

我正在努力寻找与天气相关的数据中的统计异常值。更具体地说,我有在特定时间记录温度的 10000 个数据点的温度和位置(经度和纬度)。什么是定位与地理天气相关的异常值并以异常值显着可见的方式可视化数据的最佳方法。对于可视化部分,python 工具将是最受赞赏的,而定位异常值部分的算法或技术将是最有用的。 (我在考虑集群)

【问题讨论】:

  • 这 10,000 个数据点分布在多少个位置?这些位置相距多远?
  • 嘿,@Tarik 这些地点大多位于美国,但在技术上分布在世界各地。他们之间没有明显的距离

标签: python data-visualization graph-data-science


【解决方案1】:

这真的取决于你将如何使用它。您确实提到了异常值,因此可以使用 DBSCAN(它本质上是创建集群,并且不在集群中的点被视为异常值)。

如果您只关心哪些点是异常值,而不是哪些点是聚类的,您可以使用例如 Isolation Forrest

【讨论】:

  • 感谢您的帮助。您如何建议以正常人查看图表的方式展示异常值,就像异常值就在地图上一样。我尝试了一个简单的散点图,它的颜色可以使用 Mapbox 等 Python 数据可视化工具直接转换为数据点的冷热度
  • 这取决于你想用图表显示什么。如果您只想显示异常值,则只需将该温度设置为 100 并将所有“正确”点设置为 0 - 然后热图会显示它们。但是,如果您想为所有点显示正确的温度,那么您需要以某种方式框住异常值(也许让它们变黑?)
猜你喜欢
  • 1970-01-01
  • 2011-03-14
  • 2016-07-03
  • 1970-01-01
  • 2018-10-23
  • 1970-01-01
  • 2018-10-01
  • 2013-01-13
  • 1970-01-01
相关资源
最近更新 更多