htmlAgilityPack 将 table 解析为数据 table 或数组

htmlAgilityPack parse table to datatable or array

我有这些表:

<table>
<tbody>
<tr><th>Header 1</th></tr>
</tbody>
</table>

<table>
<tbody>
<tr>
<th>Header 1</th>
<th>Header 2</th>
<th>Header 3</th>
<th>Header 4</th>
<th>Header 5</th>
</tr>
<tr>
<td>text 1</td>
<td>text 2</td>
<td>text 3</td>
<td>text 4</td>
<td>text 5</td>
</tr>
</tbody>
</table>

我正在尝试使用以下代码转换为数组或列表:

var query = from table in doc.DocumentNode.SelectNodes("//table").Cast<HtmlNode>()
                         from row in table.SelectNodes("tr").Cast<HtmlNode>()
                         from header in row.SelectNodes("th").Cast<HtmlNode>()
                         from cell in row.SelectNodes("td").Cast<HtmlNode>()
                         select new { 
                             Table = table.Id, 
                             Row = row.InnerText, 
                             Header = header.InnerText,
                             CellText = cell.InnerText
                         };

但是没用。怎么了?

一些注意事项:

  • 您不需要强制转换
  • 你假设每一行有 headers
  • SelectNodes 需要接收 xpath 而您只传递名称

如果我是你,我会使用 foreach 并为我的数据建模,这样我可以获得更多的控制权和效率,但如果你仍然想按照自己的方式去做,这就是应该的方式

var query = from table in doc.DocumentNode.SelectNodes("//table")
            where table.Descendants("tr").Count() > 1 //make sure there are rows other than header row
            from row in table.SelectNodes(".//tr[position()>1]") //skip the header row
            from cell in row.SelectNodes("./td") 
            from header in table.SelectNodes(".//tr[1]/th") //select the header row cells which is the first tr
            select new
            {
              Table = table.Id,
              Row = row.InnerText,
              Header = header.InnerText,
              CellText = cell.InnerText
            };