【发布时间】:2013-03-09 22:16:31
【问题描述】:
我正在尝试解析包含两个(或一个)有用部分但可能以多种不同方式组织的数据集合:
V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.
我不想使用大量的正则表达式,因为没有办法预测事物的组织方式的所有组合(还有一些会有无关的文本)。我觉得机器学习的一个分支可能非常适合这一点,但我在这方面的经验不足。
【问题讨论】:
-
您说无法预测所有组合,但您希望它们预测。机器学习不是魔法。
-
ML 并不神奇,但这是人类可以轻松破译的数据。
-
如果您能更具体一些,将会有所帮助。例如,在您的示例中,您似乎正在寻找章节和卷号。采取一些假设,正则表达式可能很适合这里。但是,我认为您的问题更广泛,例如有很多类型的元素需要提取,或者大量的模板文本等。如果是这种情况,请详细说明。
标签: machine-learning information-retrieval data-processing