在 C# 中找到 HTML 的 XPath 内容

Question

我在 C# .net Core 中工作。

我可以在 C# 中使用哪个 library/nuget 包来提取我的数据？

我要：

extractedData = xpathLib.Extract(htmlContent, xpath)

我不想使用加载 html 浏览器进程的技术（如 selenium 驱动程序打开 chrome），因为我每天必须提取 10 000 个网页。

问候。 ps：我看到微软提供了 xpath 库，但它只针对 xml。

Answer 1

此 nuget 适用于 XPATH、XDocument 和 LINQ。并且易于使用。

这是来自 HTML Agility Pack 的示例：

var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");

Locate XPath content of HTML in C#