使用 HtmlUnit 使用 Java 抓取网页

Web scraping a webpage with Java using HtmlUnit

我刚开始接触数据抓取之类的东西,并编写了一个简单的代码。我正在尝试访问此网站 https://parimatch.com(这是一个博彩网站),我只想从中获取字符串形式的信息,仅此而已。但我没有从中得到任何东西。这是我的代码:

public static void main(String[] args) throws IOException {
    String url = "https://parimatch.com";
    WebClient webclient = new WebClient();
    webclient.getOptions().setCssEnabled(false);
    webclient.getOptions().setJavaScriptEnabled(false);

    HtmlPage page = webclient.getPage(url);
    System.out.println(page.asText());
}

作为输出,我只得到这个:

Parimatch ... ... ... ... …… 拒绝访问 DeniedF9M61D7DJ91H4VV9/ZwxOdmTFgSBUqONvXN4N+NV5xPMsaZOgXXfD7P1bC/eLXBJRZ4bjiQZ33gXQUwFnjxcCr/1tw4= ... ... ... ...

请有人告诉我为什么我只得到这个或者是什么原因?在这种情况下我该怎么办?

您抓取的页面没有太多静态“HTML 页面”。它由 Java-Script 严格加载。这个俄罗斯赌博网站上的 Java-Script 有一个安全框,要求您“单击图像”以防止 Web-Scraping...。他们知道这件事! :)

转到您在 Google Chrome 中的网站,然后右键单击,然后从您看到的菜单中选择“查看源代码”。您将看到您的访问被拒绝消息!

Contents produced by "View Source" Button