我们如何在通过 HTML Agility 抓取页面时从页面源获取绝对值 URL？

Question

我正在使用此代码通过 HTMLAgility 抓取 HTML 页面。但是在抓取页面时，我无法将相对 url 转换为绝对 url。

我正在使用此代码：

HtmlAgilityPack.HtmlDocument doc = web.Load(serviceStatusHTMLURL);
data = doc.DocumentNode.SelectSingleNode("//div[@id='columnRight']").OuterHtml;

我需要用所有 HTML 标签抓取整个页面。

Answer 1

因为您需要在单个 page.You 中抓取所有 HTML 内容，可以将第二行修改为以下代码，其中包含该页面的所有内容。

数据=doc.DocumentNode.InnerText；

您的整个页面内容都将位于 DocumentNode

下

how can we get the absolute URL from page source while page scraping through HTML Agility?