如何从 Apify Cheerio 爬虫中获取整个 html?
How do I get whole html from Apify Cheerio crawler?
我想获取整个 html 而不仅仅是文本。
Apify.main(async () => {
const requestQueue = await Apify.openRequestQueue();
await requestQueue.addRequest({
url: //adress,
uniqueKey: makeid(100)
});
const handlePageFunction = async ({ request, $ }) => {
var content_to = $('.class')
};
// Set up the crawler, passing a single options object as an argument.
const crawler = new Apify.CheerioCrawler({
requestQueue,
handlePageFunction,
});
await crawler.run();
});
当我尝试这个爬虫 returns 复杂对象时。我知道我可以使用 .text() 从 content_to 变量中提取文本,但我需要整个 html 带有像 .我该怎么办?
如果我没理解错的话 - 你可以使用 .html()
而不是 .text()
。这样您将获得内部 html 而不是元素的内部文本。
另一件事要提 - 你也可以把 body
到 handlePageFunction
arg 对象:
const handlePageFunction = async ({ request, body, $ }) => {
body
将拥有页面的整个原始 html。
我想获取整个 html 而不仅仅是文本。
Apify.main(async () => {
const requestQueue = await Apify.openRequestQueue();
await requestQueue.addRequest({
url: //adress,
uniqueKey: makeid(100)
});
const handlePageFunction = async ({ request, $ }) => {
var content_to = $('.class')
};
// Set up the crawler, passing a single options object as an argument.
const crawler = new Apify.CheerioCrawler({
requestQueue,
handlePageFunction,
});
await crawler.run();
});
当我尝试这个爬虫 returns 复杂对象时。我知道我可以使用 .text() 从 content_to 变量中提取文本,但我需要整个 html 带有像 .我该怎么办?
如果我没理解错的话 - 你可以使用 .html()
而不是 .text()
。这样您将获得内部 html 而不是元素的内部文本。
另一件事要提 - 你也可以把 body
到 handlePageFunction
arg 对象:
const handlePageFunction = async ({ request, body, $ }) => {
body
将拥有页面的整个原始 html。