【发布时间】:2010-11-11 12:03:37
【问题描述】:
我有一个简单的问题。我正在做一些轻微的爬行,所以每隔几天就会有新的内容出现。我编写了一个标记器,并希望将其用于某些文本挖掘目的。具体来说,我正在使用 Mallet 的主题建模工具,其中一个管道是将文本标记为标记,然后再进行进一步处理。由于我的数据库中有大量文本,标记文本需要花费大量时间(我在这里使用正则表达式)。
因此,将标记化的文本存储在数据库中是否是一种规范,以便标记化的数据可以随时可用并且如果我需要它们用于其他文本挖掘目的(例如主题建模、POS 标记)可以跳过标记化?这种方法有什么缺点?
【问题讨论】:
-
您的方法描述得不够清楚,无法得到有意义的答案。您能否举例说明分词器流程的输入和输出以及您认为它是瓶颈的原因。
-
@Terrel,我已经编辑了我的问题。希望现在更清楚。
-
根据您的其他问题,我对您要完成的工作有更好的了解。你问的那种正则表达式非常慢,所以我认为现有的标记器(如 dmcer 所建议的)会做得更快。 Feedparser 和 beautifulsoup 是最好的 python 解决方案,用于从博客中获取文本以输入到分词器中。是的,我会缓存这个阶段的输出。
-
@Terrel,感谢您的 cmets。我将看看现有的标记器,并仔细检查我现有的正则表达式。是的,我现在会使用 feedparser 和 beautifulsoup。
标签: python caching postgresql nlp tokenize