使用 HtmlAgilityPack 从 table 中提取数据

Question

我掌握了 HtmlAgilityPack。我正在尝试从预加载页面获取数据。即：有一个页面 1.htm。我想从 "Operating system" 行对面的 table 中获取值。（附上文件本身）。我这样做：

private void simpleButton1_Click(object sender, EventArgs e)
        {
            // Создаю экземпляр класса
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            // Загружаю файл
            doc.Load(@"D:\(тут путь к файлу).htm");
            // Пытаюсь получить информацию из ноды, но получаю null
            HtmlAgilityPack.HtmlNode bodyNode = doc.DocumentNode.SelectSingleNode("//TD[@CLASS=pt]");
            ...

一般情况下，需要从文件中提取很多信息，但我认为如果得到一行，则进一步类推。

要求的行如下：

 private void simpleButton1_Click(object sender, EventArgs e)
        {
            // Создаю экземпляр класса
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            // Загружаю файл
            doc.Load(@"D:\(тут путь к файлу).htm");

            foreach (HtmlAgilityPack.HtmlNode node in doc.DocumentNode.SelectNodes("//body/table[2]/tr[8]/td[4]"))
            {
                string stroka = node.InnerText;
            }

但是这个选项是"on the forehead."如果你不改变我的文档结构。以及如何在搜索的帮助下成为可能还没有弄清楚。

File

Answer 1

这将 return 一个包含 table 个名字的字典。每个 table 都是一个字典，第一列作为键，第二列作为值。

var tables = new Dictionary<string, Dictionary<string, string>>();
var doc = new HtmlDocument();
doc.Load(@"D:\(тут путь к файлу).htm", Encoding.GetEncoding(1251), false);
var tableNames = doc.DocumentNode.SelectNodes("//td[@class='pt']/a").Select(a=>a.Attributes["name"].Value);
foreach(string name in tableNames)
{
    var table = doc.DocumentNode.SelectSingleNode("//table[.//a[@name='" + name + "']]/following-sibling::table[1]");
    int columns = table.SelectNodes(".//tr[1]/td").Count();

    string[] keys = table.SelectNodes(".//tr/td["+(columns-1)+"]").Select(n => n.InnerText.Replace("&nbsp;"," ").Trim()).ToArray();
    string[] values = table.SelectNodes(".//tr/td["+columns+"]").Select(n => n.InnerText.Replace("&nbsp;"," ").Trim()).ToArray();
    var body = new Dictionary<string, string>();
    for (int i = 0; i < keys.Count(); i++)
    {
        string key = keys[i];
        if (body.ContainsKey(key))
            body[key] += ", " + values[i];
        else if( key!="" && values[i]!="")
            body[key] = values[i];

    }
    tables.Add(name, body);

}

例如 tables["power management"] returns 4 个条目：

[0] {[Текущий источник питания, Электросеть]} System.Collections.Generic.KeyValuePair

[1] {[Состояние батарей, Нет батареи]} System.Collections.Generic.KeyValuePair

[2] {[Полное время работы от батарей, Неизвестно]} System.Collections.Generic.KeyValuePair

[3] {[Оставшееся время работы от батарей, Неизвестно]} System.Collections.Generic.KeyValuePair

和tables["power management"]["Текущий источник питания"] returns:

"Электросеть"

对于迭代你可以这样做：

foreach(var tableName in tables.Keys)
{
    var table = tables[tableName];
    foreach(var key in table.Keys)
    {
        string value = table[key];
        Debug.Print(tableName + "/" + key + "/" + value);
    }
}

使用 HtmlAgilityPack 从 table 中提取数据

Extract data from a table with HtmlAgilityPack

c#

html-agility-pack