【问题标题】:How to K-Means clustering of pdf raw data如何对pdf原始数据进行K-Means聚类
【发布时间】:2021-05-14 16:46:38
【问题描述】:

我想根据 pdf 文档的结构进行聚类,而不仅仅是文本内容。

纯文本方法的主要问题是,如果文档具有 pdf 表单结构,或者它只是一个普通文档或包含图片,它会丢失信息?

对于我们的进一步处理,这些信息是最重要的。 我现在的主要目标是能够主要根据其结构对文档进行分类,而不仅仅是文本内容。

要分类的文档以 byte[] (varbinary) 的形式存储在 SQL 数据库中,所以我现在的想法是使用这些原始数据进行分类,无需事先进行文本转换。

因为如果我查看这些数据的十六进制输出,我可以看到重复结构,这些结构似乎类似于我想要分离的不同文档类。 您可以在我附加的屏幕截图中看到一些与第一印象相似的字节模式。

所以我现在的想法是训练一个 K-Means 模型,例如十六进制输出字符串。 在下一步中,我将尝试使用肘部方法找到最佳的聚类数,应该在 350 - 500 左右。

pdf 数据的大小在 20 kByte 和 5 MB 之间变化,大部分在 150 kBytes 左右。为了训练模型,我有 +30.k 个文档。

当我对此进行研究时,结果很少。我只找到这篇文章,这让我不确定解决我的任务的最佳方法。 https://www.ibm.com/support/pages/clustering-binary-data-k-means-should-be-avoided

我的问题是:

  • K-Means 是实现我目标的最佳算法吗?
  • 您会推荐什么方法?
  • 如何规范化或转换数据以获得最佳结果?

【问题讨论】:

标签: machine-learning cluster-analysis k-means hierarchical-clustering


【解决方案1】:

就像 cmets 中的 Ian 所说,使用原始数据似乎是个坏主意。

通过进一步研究,我找到了首先阅读 PDF 文件结构的最佳解决方案,例如用这样的方法:

https://github.com/Uzi-Granot/PdfFileAnaylyzer

我用这些信息对数据进行了归一化和聚类,这给了我很好的结果。

【讨论】:

    猜你喜欢
    • 2015-06-22
    • 2016-04-04
    • 1970-01-01
    • 2019-05-03
    • 2016-07-28
    • 2011-06-06
    • 2013-02-07
    • 2011-03-31
    • 1970-01-01
    相关资源
    最近更新 更多