【问题标题】:Parsing nonuniform data解析非均匀数据
【发布时间】:2013-03-09 22:16:31
【问题描述】:

我正在尝试解析包含两个(或一个)有用部分但可能以多种不同方式组织的数据集合:

V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.

我不想使用大量的正则表达式,因为没有办法预测事物的组织方式的所有组合(还有一些会有无关的文本)。我觉得机器学习的一个分支可能非常适合这一点,但我在这方面的经验不足。

【问题讨论】:

  • 您说无法预测所有组合,但您希望它们预测。机器学习不是魔法。
  • ML 并不神奇,但这是人类可以轻松破译的数据。
  • 如果您能更具体一些,将会有所帮助。例如,在您的示例中,您似乎正在寻找章节和卷号。采取一些假设,正则表达式可能很适合这里。但是,我认为您的问题更广泛,例如有很多类型的元素需要提取,或者大量的模板文本等。如果是这种情况,请详细说明。

标签: machine-learning information-retrieval data-processing


【解决方案1】:

这确实是一个有趣的问题,您可以尝试一些方法

假设您的数据上没有标签,那么我会尝试做的第一件事是使用 k-means (http://en.wikipedia.org/wiki/K-means_clustering) 等聚类算法检查每个实例之间的连接,保持请记住,这不会解决您的问题,但会帮助您探索数据并希望找到一组特征来训练监督学习分类器。

如果您确实在您的数据上有标签,或者您可以手动标记您的数据集。然后,您将面临一个更易于管理的问题。乍一看,它看起来很像文本或文档分类问题(例如将电子邮件分类为垃圾邮件/非垃圾邮件),在这种情况下,朴素贝叶斯分类器可能是解决该问题的一个很好的第一次尝试,因为它是一种易于实现的算法并且可以提供合理的良好结果。

关于朴素贝叶斯分类器 (https://www.bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html)

我在这里做了一些假设,基于此我可能是错误的。也许如果您澄清一些要点(例如您是否能够手动标记数据),我们将能够为您提供进一步的帮助。

【讨论】:

    猜你喜欢
    • 2014-01-24
    • 2011-07-16
    • 1970-01-01
    • 2018-02-06
    • 1970-01-01
    • 2011-07-05
    • 2016-12-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多