使用 Html Agility Pack 抓取网络数据
Web scraping data using Html Agility Pack
使用 Html Agility Pack,如何从 html 代码中获取字符串 ABC:
<td><a data-quoteapi="$cur.symbol href=/asx/{$cur.symbol} (stockLink)" href="/asx/abc">ABC</a></td>
您需要做的就是获取元素的 InnerText。您正在搜索 TD 元素,因此只需向 HtmlAgilityPack 询问 select 这样您就会在其 InnerText
属性.
中找到 html 元素的文本
根据您的样本:
string html = @"<td><a data-quoteapi='$cur.symbol href=/asx/{$cur.symbol} (stockLink)' href='/asx/abc'>ABC</a></td>";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
var selectedElement = doc.DocumentNode.SelectSingleNode("td");
if (selectedElement != null)
Console.WriteLine(selectedElement.InnerText); //prints ABC
使用 Html Agility Pack,如何从 html 代码中获取字符串 ABC:
<td><a data-quoteapi="$cur.symbol href=/asx/{$cur.symbol} (stockLink)" href="/asx/abc">ABC</a></td>
您需要做的就是获取元素的 InnerText。您正在搜索 TD 元素,因此只需向 HtmlAgilityPack 询问 select 这样您就会在其 InnerText
属性.
根据您的样本:
string html = @"<td><a data-quoteapi='$cur.symbol href=/asx/{$cur.symbol} (stockLink)' href='/asx/abc'>ABC</a></td>";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
var selectedElement = doc.DocumentNode.SelectSingleNode("td");
if (selectedElement != null)
Console.WriteLine(selectedElement.InnerText); //prints ABC