【发布时间】:2012-04-03 05:25:54
【问题描述】:
我有一个要从中提取日期的文件,它是一个 HTML 源文件,所以它充满了我不需要的代码和短语。我需要提取包含在特定 HTML 标记中的每个日期实例:
abbr title="((这是我需要的文字))" data-utime="
实现这一目标的最简单方法是什么?
【问题讨论】:
-
这不是数据挖掘。重新命名并重新标记为web-scraping。数据挖掘本质上是一种大规模的统计分析;这最多是数据挖掘的预处理。哦,为什么这被标记为“excel”?
标签: excel web-scraping extract analysis text-extraction