【发布时间】:2011-07-27 22:56:41
【问题描述】:
我正在从事一个数据挖掘项目,我需要为此分析论坛主题中的讨论进度。我有兴趣提取发布时间、帖子作者的统计信息(帖子数量、加入日期等)、帖子文本等信息。
但是,在使用标准抓取工具(如 python 中的 Scrapy)时,我需要编写正则表达式来检测页面 html 源代码中的这些字段。由于这些标签因论坛类型而异,因此处理每个论坛的正则表达式已成为一个主要问题。是否有可用的此类正则表达式的标准库,以便可以根据论坛类型使用它们?
或者是否有任何其他技术可以从论坛页面中提取这些字段。
【问题讨论】:
标签: python regex web-scraping scrapy forums