Jsoup 未检索 HTML 文档的第一部分
Jsoup does not retrieve first part of HTML document
我想用 Jsoup 提取并打印 Vimeo page 的 HTML,但只有 HTML 的 第二部分 ] 被检索到。
我已经尝试设置 .maxBodySize(0)
但没有任何变化;这是我的代码:
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class PrintVimeoHTML {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://vimeo.com/categories/food/cooking/videos")
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36")
.maxBodySize(0)
.timeout(600000)
.get();
System.out.println(doc);
}
}
提取的内容从this highlighted <script>
tag开始。
我应该怎么做才能提取脚本前面的 <div>
?
使用 Selenium 代替 Jsoup 已解决。这是一个 JavaScript 问题:Jsoup 没有 运行 JavaScript,我的内容实际上是由脚本加载的。
Selenium 非常适合这个目的,因为它模拟了一个真实的浏览器,所以它可以生成整个 HTML。
我想用 Jsoup 提取并打印 Vimeo page 的 HTML,但只有 HTML 的 第二部分 ] 被检索到。
我已经尝试设置 .maxBodySize(0)
但没有任何变化;这是我的代码:
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class PrintVimeoHTML {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://vimeo.com/categories/food/cooking/videos")
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36")
.maxBodySize(0)
.timeout(600000)
.get();
System.out.println(doc);
}
}
提取的内容从this highlighted <script>
tag开始。
我应该怎么做才能提取脚本前面的 <div>
?
使用 Selenium 代替 Jsoup 已解决。这是一个 JavaScript 问题:Jsoup 没有 运行 JavaScript,我的内容实际上是由脚本加载的。 Selenium 非常适合这个目的,因为它模拟了一个真实的浏览器,所以它可以生成整个 HTML。