使用 htmlagility 从网页中提取的过滤器 link - vb.net

filter extracted link from webpage using htmlagility - vb.net

问题一:

我有一个程序可以提取具有特定内容 (/articles/) 的网页 (WebSource)

Dim links As New List(Of String)()
Dim htmlDoc As New HtmlAgilityPack.HtmlDocument()
htmlDoc.LoadHtml(WebSource)
For Each link As HtmlNode In htmlDoc.DocumentNode.SelectNodes("//a[@href]")
    Dim att As HtmlAttribute = link.Attributes("href")
    If att.Value.Contains("/articles/") Then
        links.Add(att.Value)
    End If
Next

是否可以在 url 中搜索并按两个值过滤它们,例如在技术站点中我想找到所有包含 /articles/LG

的 url

问题二:

提取的 url 不是完整的 HTTP 地址,例如我的结果之一是

/articles/car

而不是完整的地址,例如

http://website.com/articles/car

我该如何解决这个问题?

您正在查看 ONE 内容。要检查 htmlagility 中的多个项目,您可以使用多个 if 语句,如下所示

If att.Value.Contains("content1") Then
    If att.Value.Contains("content2") Then
        If att.Value.Contains("content3") Then
            links.Add(att.Value)
        End If
    End If
End If