在 C# 中找到 HTML 的 XPath 内容

Locate XPath content of HTML in C#

我在 C# .net Core 中工作。

我可以在 C# 中使用哪个 library/nuget 包来提取我的数据?

我要:

extractedData = xpathLib.Extract(htmlContent, xpath)

我不想使用加载 html 浏览器进程的技术(如 selenium 驱动程序打开 chrome),因为我每天必须提取 10 000 个网页。

问候。 ps:我看到微软提供了 xpath 库,但它只针对 xml。

您可以使用HTML Agility Pack

此 nuget 适用于 XPATH、XDocument 和 LINQ。并且易于使用。

这是来自 HTML Agility Pack 的示例:

var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");