【发布时间】:2012-12-23 09:14:40
【问题描述】:
我通过网站复印软件下载了一些网站。我想从所有页面中提取一些信息。
假设有很多产品页面,我想只收集所有页面中的产品信息并将其存储在一个 excel 文件中。
我想知道有哪些可能的方法来做到这一点。我的朋友告诉我,他可以编写一些脚本并实现它,但我不明白任何脚本如何解决整个目的。
是否有任何免费软件或任何代码可以完成这项工作。我对java很了解,如果我可以通过java编写代码实现它,那么请提供一些指导。
【问题讨论】:
标签: java html webpage html-content-extraction