【发布时间】:2013-09-08 22:37:31
【问题描述】:
我正在尝试根据视觉接近度对网页内容进行聚类。 您可以在下面的链接上看到块的视觉显示 http://i.stack.imgur.com/qzGKE.png
我尝试使用带有以下功能的 DBSCAN 集群和 sckikit-learn,但没有取得多大成功: - 块的左 X 坐标(因为内容经常左对齐) - 块的右 X 坐标(因为内容经常右对齐) - 块的顶部 Y 坐标(进一步关闭块)
你知道更好的功能吗
【问题讨论】:
标签: cluster-analysis scikit-learn dbscan