【发布时间】:2011-03-09 18:29:25
【问题描述】:
我正在寻找一个好的 Java api 来进行网络抓取。我试过 WEB-Harvest api http://web-harvest.sourceforge.net/usage.php 但我认为它有点笨拙。 还有其他建议吗?
【问题讨论】:
-
“还有其他建议吗?”只有一个。请注意,在搜索信息时。在这个话题上,这个词是“scraping”(一个“p”),而不是“scrapping”(这是一个单独的词,意思是“fighting”或“dumping”)。
-
How to "scan" a website (or page) for info, and bring it into my program? 的可能重复项。另请参阅此recent question 以获取另一个示例。请注意,您基本上是在问“Java 中最好的 HTML 解析器是什么?”。
-
您可以关注[Web scraping with Java][1] [1]:stackoverflow.com/questions/3202305/web-scraping-with-java
-
比较库在这里通常是题外话。请参阅Software Recommendations Stack Exchange。
标签: java api screen-scraping web-mining