【问题标题】:Cluster rectangles on a grid在网格上聚类矩形
【发布时间】:2013-09-08 22:37:31
【问题描述】:

我正在尝试根据视觉接近度对网页内容进行聚类。 您可以在下面的链接上看到块的视觉显示 http://i.stack.imgur.com/qzGKE.png

我尝试使用带有以下功能的 DBSCAN 集群和 sckikit-learn,但没有取得多大成功: - 块的左 X 坐标(因为内容经常左对齐) - 块的右 X 坐标(因为内容经常右对齐) - 块的顶部 Y 坐标(进一步关闭块)

你知道更好的功能吗

【问题讨论】:

    标签: cluster-analysis scikit-learn dbscan


    【解决方案1】:

    看看 Generalized DBSCAN(虽然在 scipy 中不可用)。

    当对象重叠或几乎重叠(1 像素)时,如何将对象聚集在一起?

    请参阅:DBSCAN 并没有真正使用距离。它仅基于二进制“足够接近”的决定。

    另请注意,DBSCAN 不限于向量。 DBSCAN 可以处理任何可以定义“足够相似”谓词的东西。

    因此您可能不需要“提取特征”,而是考虑何时希望两个对象位于同一个集群中。

    【讨论】:

      猜你喜欢
      • 2020-12-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-10-08
      • 1970-01-01
      相关资源
      最近更新 更多