我们如何在通过 HTML Agility 抓取页面时从页面源获取绝对值 URL?
how can we get the absolute URL from page source while page scraping through HTML Agility?
我正在使用此代码通过 HTMLAgility
抓取 HTML 页面。但是在抓取页面时,我无法将相对 url 转换为绝对 url。
我正在使用此代码:
HtmlAgilityPack.HtmlDocument doc = web.Load(serviceStatusHTMLURL);
data = doc.DocumentNode.SelectSingleNode("//div[@id='columnRight']").OuterHtml;
我需要用所有 HTML 标签抓取整个页面。
因为您需要在单个 page.You 中抓取所有 HTML 内容,可以将第二行修改为以下代码,其中包含该页面的所有内容。
数据=doc.DocumentNode.InnerText;
您的整个页面内容都将位于 DocumentNode
下
我正在使用此代码通过 HTMLAgility
抓取 HTML 页面。但是在抓取页面时,我无法将相对 url 转换为绝对 url。
我正在使用此代码:
HtmlAgilityPack.HtmlDocument doc = web.Load(serviceStatusHTMLURL);
data = doc.DocumentNode.SelectSingleNode("//div[@id='columnRight']").OuterHtml;
我需要用所有 HTML 标签抓取整个页面。
因为您需要在单个 page.You 中抓取所有 HTML 内容,可以将第二行修改为以下代码,其中包含该页面的所有内容。
数据=doc.DocumentNode.InnerText;
您的整个页面内容都将位于 DocumentNode
下