解析非均匀数据答案

【问题标题】：Parsing nonuniform data解析非均匀数据
【发布时间】：2013-03-09 22:16:31
【问题描述】：

我正在尝试解析包含两个（或一个）有用部分但可能以多种不同方式组织的数据集合：

V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.

我不想使用大量的正则表达式，因为没有办法预测事物的组织方式的所有组合（还有一些会有无关的文本）。我觉得机器学习的一个分支可能非常适合这一点，但我在这方面的经验不足。

【问题讨论】：

您说无法预测所有组合，但您希望它们预测。机器学习不是魔法。
ML 并不神奇，但这是人类可以轻松破译的数据。
如果您能更具体一些，将会有所帮助。例如，在您的示例中，您似乎正在寻找章节和卷号。采取一些假设，正则表达式可能很适合这里。但是，我认为您的问题更广泛，例如有很多类型的元素需要提取，或者大量的模板文本等。如果是这种情况，请详细说明。

标签： machine-learning information-retrieval data-processing

【解决方案1】：

这确实是一个有趣的问题，您可以尝试一些方法。

假设您的数据上没有标签，那么我会尝试做的第一件事是使用 k-means (http://en.wikipedia.org/wiki/K-means_clustering) 等聚类算法检查每个实例之间的连接，保持请记住，这不会解决您的问题，但会帮助您探索数据并希望找到一组特征来训练监督学习分类器。

如果您确实在您的数据上有标签，或者您可以手动标记您的数据集。然后，您将面临一个更易于管理的问题。乍一看，它看起来很像文本或文档分类问题（例如将电子邮件分类为垃圾邮件/非垃圾邮件），在这种情况下，朴素贝叶斯分类器可能是解决该问题的一个很好的第一次尝试，因为它是一种易于实现的算法并且可以提供合理的良好结果。

关于朴素贝叶斯分类器 (https://www.bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html)

我在这里做了一些假设，基于此我可能是错误的。也许如果您澄清一些要点（例如您是否能够手动标记数据），我们将能够为您提供进一步的帮助。

【讨论】：