【发布时间】:2012-11-06 10:49:25
【问题描述】:
我有一个文本数据列表,我想从中提取某些部分。我目前正在使用正则表达式来提取我想要的数据,但它开始变得非常复杂,因为每条记录都略有不同。有没有办法使用 Rapidminer 根据一些典型的例子来“学习”一个正则表达式?
例如,对于以下每条记录,我想将文本 24 和 18 提取到两个新属性中:
word 24 on line 18
Wrd 24 of Ln 18
Line 18, Word 24
Word 24 comes after word 22 on line 18 (not line 19)
我看过所有的文本处理视频,但没有一个显示如何做这种事情,我真的不知道从哪里开始。除了手动创建正则表达式之外,任何人都可以建议一种方法吗?
【问题讨论】:
标签: text full-text-search text-processing rapidminer