使用 HtmlUnit 使用 Java 抓取网页

Question

我刚开始接触数据抓取之类的东西，并编写了一个简单的代码。我正在尝试访问此网站 https://parimatch.com（这是一个博彩网站），我只想从中获取字符串形式的信息，仅此而已。但我没有从中得到任何东西。这是我的代码：

public static void main(String[] args) throws IOException {
    String url = "https://parimatch.com";
    WebClient webclient = new WebClient();
    webclient.getOptions().setCssEnabled(false);
    webclient.getOptions().setJavaScriptEnabled(false);

    HtmlPage page = webclient.getPage(url);
    System.out.println(page.asText());
}

作为输出，我只得到这个：

Parimatch ... ... ... ... …… 拒绝访问 DeniedF9M61D7DJ91H4VV9/ZwxOdmTFgSBUqONvXN4N+NV5xPMsaZOgXXfD7P1bC/eLXBJRZ4bjiQZ33gXQUwFnjxcCr/1tw4= ... ... ... ...

请有人告诉我为什么我只得到这个或者是什么原因？在这种情况下我该怎么办？

Answer 1

您抓取的页面没有太多静态“HTML 页面”。它由 Java-Script 严格加载。这个俄罗斯赌博网站上的 Java-Script 有一个安全框，要求您“单击图像”以防止 Web-Scraping...。他们知道这件事！ :)

转到您在 Google Chrome 中的网站，然后右键单击，然后从您看到的菜单中选择“查看源代码”。您将看到您的访问被拒绝消息！

Contents produced by "View Source" Button

使用 HtmlUnit 使用 Java 抓取网页

Web scraping a webpage with Java using HtmlUnit

java

htmlunit

web-scraping