使用 Jsoup 从 URL 中部分提取
Partial extraction with Jsoup from URL
我尝试使用 Jsoup 从 URL 中提取所有 HTML,但检查提取时,我的文档仅包含 HTML 的一部分。你能帮我解决这个问题吗?下面使用的代码:
Document doc = Jsoup.connect("https://www.diretta.it/").get();
System.out.println(doc);
结果开始于:
...
var leftMenuEnvironment = {"trans":{"TRANS_DC_INCIDENT_SUBTYPE_31":"ERS","TRANS_DC_INCIDENT_SUBTYPE_32":"Iniezione","TRANS_DC_INCIDENT_SUBTYPE_33":"
...
而不是来自:
<body class="responsive background-add-off isWide soccer _fs flat pid_400 mgc oneLineLayout isSportPage fcp-skeleton light-bg-1 v3 bg3 seoTopWrapperHidden theme--dark tablet_ad">
<div class="otPlaceholder otPlaceholder--hidden">
...
您的代码没问题,问题出在您的 IDE 上:html 的大小超过 170kb,当您使用 IDE 将它打印到屏幕上时,它会只显示它的结尾。尝试将其保存到文件,或打印其中的一部分:
String start = doc.html().substring(0, 500);
System.out.println(start);
你会看到 html 的开头。
我尝试使用 Jsoup 从 URL 中提取所有 HTML,但检查提取时,我的文档仅包含 HTML 的一部分。你能帮我解决这个问题吗?下面使用的代码:
Document doc = Jsoup.connect("https://www.diretta.it/").get();
System.out.println(doc);
结果开始于:
...
var leftMenuEnvironment = {"trans":{"TRANS_DC_INCIDENT_SUBTYPE_31":"ERS","TRANS_DC_INCIDENT_SUBTYPE_32":"Iniezione","TRANS_DC_INCIDENT_SUBTYPE_33":"
...
而不是来自:
<body class="responsive background-add-off isWide soccer _fs flat pid_400 mgc oneLineLayout isSportPage fcp-skeleton light-bg-1 v3 bg3 seoTopWrapperHidden theme--dark tablet_ad">
<div class="otPlaceholder otPlaceholder--hidden">
...
您的代码没问题,问题出在您的 IDE 上:html 的大小超过 170kb,当您使用 IDE 将它打印到屏幕上时,它会只显示它的结尾。尝试将其保存到文件,或打印其中的一部分:
String start = doc.html().substring(0, 500);
System.out.println(start);
你会看到 html 的开头。