【问题标题】:Web scraping a webpage with Java using HtmlUnit使用 HtmlUnit 使用 Java 抓取网页
【发布时间】:2021-10-21 13:24:13
【问题描述】:

我刚刚开始涉足爬虫之类的东西,并编写了一个简单的代码。我正在尝试访问这个网站https://parimatch.com(这是一个博彩网站),我只想以字符串形式从中获取信息。但我没有从中得到任何东西。这是我的代码:

public static void main(String[] args) throws IOException {
    String url = "https://parimatch.com";
    WebClient webclient = new WebClient();
    webclient.getOptions().setCssEnabled(false);
    webclient.getOptions().setJavaScriptEnabled(false);

    HtmlPage page = webclient.getPage(url);
    System.out.println(page.asText());
}

作为输出,我得到的只是这个:

匹配 ... ... ... ... …… AccessDeniedAccess DeniedF9M61D7DJ91H4VV9/ZwxOdmTFgSBUqONvXN4N+NV5xPMsaZOgXXfD7P1bC/eLXBJRZ4bjiQZ33gXQUwFnjxcCr/1tw4= ... ... ... ...

请有人告诉我为什么我只得到这个或者是什么原因?在这种情况下我该怎么办?

【问题讨论】:

  • 您好,您可以通过浏览器访问该网站吗?
  • Yigit Yuskel,是的,我可以访问它

标签: java web-scraping htmlunit


【解决方案1】:

您正在抓取的页面没有太多静态“HTML 页面”。它由 Java 脚本严格加载。这个俄罗斯赌博网站上的 Java 脚本有一个安全框,要求您“单击图像”以防止网络抓取……他们知道这些东西! :)

在 Google Chrome 中访问您的网站,然后右键单击,然后从您看到的菜单中选择“查看源代码”。您将看到拒绝访问消息!

Contents produced by "View Source" Button

【讨论】:

  • 你有没有机会知道我该如何克服这个问题,或者如果这甚至可能做到这一点?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-08-20
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-03-18
  • 2011-03-13
相关资源
最近更新 更多