使用 HtmlUnit 使用 Java 抓取网页答案

【问题标题】：Web scraping a webpage with Java using HtmlUnit使用 HtmlUnit 使用 Java 抓取网页
【发布时间】：2021-10-21 13:24:13
【问题描述】：

我刚刚开始涉足爬虫之类的东西，并编写了一个简单的代码。我正在尝试访问这个网站https://parimatch.com（这是一个博彩网站），我只想以字符串形式从中获取信息。但我没有从中得到任何东西。这是我的代码：

public static void main(String[] args) throws IOException {
    String url = "https://parimatch.com";
    WebClient webclient = new WebClient();
    webclient.getOptions().setCssEnabled(false);
    webclient.getOptions().setJavaScriptEnabled(false);

    HtmlPage page = webclient.getPage(url);
    System.out.println(page.asText());
}

作为输出，我得到的只是这个：

匹配 ... ... ... ... …… AccessDeniedAccess DeniedF9M61D7DJ91H4VV9/ZwxOdmTFgSBUqONvXN4N+NV5xPMsaZOgXXfD7P1bC/eLXBJRZ4bjiQZ33gXQUwFnjxcCr/1tw4= ... ... ... ...

请有人告诉我为什么我只得到这个或者是什么原因？在这种情况下我该怎么办？

【问题讨论】：

您好，您可以通过浏览器访问该网站吗？
Yigit Yuskel，是的，我可以访问它

标签： java web-scraping htmlunit

【解决方案1】：

您正在抓取的页面没有太多静态“HTML 页面”。它由 Java 脚本严格加载。这个俄罗斯赌博网站上的 Java 脚本有一个安全框，要求您“单击图像”以防止网络抓取……他们知道这些东西！ :)

在 Google Chrome 中访问您的网站，然后右键单击，然后从您看到的菜单中选择“查看源代码”。您将看到拒绝访问消息！

Contents produced by "View Source" Button

【讨论】：

你有没有机会知道我该如何克服这个问题，或者如果这甚至可能做到这一点？