在 C# 中找到 HTML 的 XPath 内容
Locate XPath content of HTML in C#
我在 C# .net Core 中工作。
- 我有 HTML 个文件
- 对于每个文件,我都有一个 XPATH 指向页面的一部分
我可以在 C# 中使用哪个 library/nuget 包来提取我的数据?
我要:
extractedData = xpathLib.Extract(htmlContent, xpath)
我不想使用加载 html 浏览器进程的技术(如 selenium 驱动程序打开 chrome),因为我每天必须提取 10 000 个网页。
问候。
ps:我看到微软提供了 xpath 库,但它只针对 xml。
您可以使用HTML Agility Pack
此 nuget 适用于 XPATH、XDocument 和 LINQ。并且易于使用。
这是来自 HTML Agility Pack 的示例:
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");
我在 C# .net Core 中工作。
- 我有 HTML 个文件
- 对于每个文件,我都有一个 XPATH 指向页面的一部分
我可以在 C# 中使用哪个 library/nuget 包来提取我的数据?
我要:
extractedData = xpathLib.Extract(htmlContent, xpath)
我不想使用加载 html 浏览器进程的技术(如 selenium 驱动程序打开 chrome),因为我每天必须提取 10 000 个网页。
问候。 ps:我看到微软提供了 xpath 库,但它只针对 xml。
您可以使用HTML Agility Pack
此 nuget 适用于 XPATH、XDocument 和 LINQ。并且易于使用。
这是来自 HTML Agility Pack 的示例:
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");