HTML Agility Pack 找不到带有尾随空格的 类
HTML Agility Pack can't find classes with trailing spaces
我使用以下代码解析 HTML 文档:
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(pageStr);
HtmlAgilityPack.HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//h3[@class='the-title']");
但找不到以下字符串:
<h3 class="the-title ">
并且仅当从 class 中删除尾随 space 时才有效。
HTML敏捷包可以自己处理这种情况吗?
'the-title' != "the-title "
您可以通过在 Xpath 查询中使用 'contains' 函数来解决您的问题
尝试以下操作:
HtmlAgilityPack.HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//h3[contains(@class, 'the-title')]");
您可以尝试使用 XPath normalize-space()
在进行比较之前删除不必要的空格:
//h3[normalize-space(@class)='the-title']
工作演示示例:
var html = @"<div>
<h3 class='the-title '/>
</div>";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
var node = doc.DocumentNode.SelectSingleNode("//h3[normalize-space(@class)='the-title']");
Console.WriteLine(node.OuterHtml);
输出:
<h3 class='the-title '></h3>
我使用以下代码解析 HTML 文档:
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(pageStr);
HtmlAgilityPack.HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//h3[@class='the-title']");
但找不到以下字符串:
<h3 class="the-title ">
并且仅当从 class 中删除尾随 space 时才有效。
HTML敏捷包可以自己处理这种情况吗?
'the-title' != "the-title "
您可以通过在 Xpath 查询中使用 'contains' 函数来解决您的问题
尝试以下操作:
HtmlAgilityPack.HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//h3[contains(@class, 'the-title')]");
您可以尝试使用 XPath normalize-space()
在进行比较之前删除不必要的空格:
//h3[normalize-space(@class)='the-title']
工作演示示例:
var html = @"<div>
<h3 class='the-title '/>
</div>";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
var node = doc.DocumentNode.SelectSingleNode("//h3[normalize-space(@class)='the-title']");
Console.WriteLine(node.OuterHtml);
输出:
<h3 class='the-title '></h3>