【发布时间】:2010-12-20 15:55:13
【问题描述】:
如果我需要促进从各种(非 API)互联网源中提取数据,是否有一种框架类型的解决方案可以简化让开发人员编写可重用但大规模源特定解析器的过程?
【问题讨论】:
-
需要解析 HTML 吗?
-
是的,在某些情况下,它也是文本,因此直接的 html 解析器不是一个完整的解决方案 - 理想情况下,它类似于 html 模板引擎,但反过来 - 所以你会有像这样的标签:高潮:{{时间}}但也可以使用html,以及更复杂的东西,比如循环。
标签: python data-mining text-parsing