【发布时间】:2017-07-10 20:21:22
【问题描述】:
我尽量让我的问题更清楚,如果我使用了不正确的术语,我深表歉意。
我有N个如下形式的文本文档
“最好的数字是 200,因为 [...]”
“我喜欢 250 多于 120 [...]”
“[...]300 是我最喜欢的数字”
“没有什么比 450[...] 更好的了” 等等
鉴于这份新文件:
"顶部的顶部是 125[...]"
如何提取信息“125”?
我使用正则表达式对文本进行预处理,以将文档的维度从 50 页减少到 2-5 个句子。我不对文本做任何其他操作
请注意,Regexp 应该不是很有用,因为很难找到常规模式,而且我必须处理许多不同类型的信息(不仅仅是数字!)
我认为机器学习方法会很有用,因此我为我的 N 个文档分配了一个值(即“200”、“250”、“300”、“450”),并尝试预测使用 RTextTools 包中的 SVM、MAXENT 算法的“125”,但结果不佳。
我的机器学习方法是否正确?如何改进我的信息提取方法?
谢谢
【问题讨论】:
-
嗨!您对文本执行什么样的预处理?你把它分成字符还是单词?无论如何,您是否对源文本字符串进行标记?通常,您将其用作 ML 算法的输入 - 因为作为单个字符串的原始文本根本不起作用。请包括它以及一些具体的例子。
-
请阅读help center
-
我修改了指定示例并添加了有关文本预处理的信息
-
对不起,为什么不能使用只捕获数字的正则表达式?我觉得我误会了什么。
-
如果我理解正确,您想从每个文档中提取数字。正则表达式是这样做的方法。您可以尝试使用
rebus包,因为它提供了更易于阅读的代码。
标签: r machine-learning text-mining prediction information-extraction