使用 htmlagility 从网页中提取的过滤器 link - vb.net
filter extracted link from webpage using htmlagility - vb.net
问题一:
我有一个程序可以提取具有特定内容 (/articles/
) 的网页 (WebSource
)
Dim links As New List(Of String)()
Dim htmlDoc As New HtmlAgilityPack.HtmlDocument()
htmlDoc.LoadHtml(WebSource)
For Each link As HtmlNode In htmlDoc.DocumentNode.SelectNodes("//a[@href]")
Dim att As HtmlAttribute = link.Attributes("href")
If att.Value.Contains("/articles/") Then
links.Add(att.Value)
End If
Next
是否可以在 url 中搜索并按两个值过滤它们,例如在技术站点中我想找到所有包含 /articles/
和 LG
的 url
问题二:
提取的 url 不是完整的 HTTP 地址,例如我的结果之一是
/articles/car
而不是完整的地址,例如
http://website.com/articles/car
我该如何解决这个问题?
您正在查看 ONE 内容。要检查 htmlagility 中的多个项目,您可以使用多个 if
语句,如下所示
If att.Value.Contains("content1") Then
If att.Value.Contains("content2") Then
If att.Value.Contains("content3") Then
links.Add(att.Value)
End If
End If
End If
问题一:
我有一个程序可以提取具有特定内容 (/articles/
) 的网页 (WebSource
)
Dim links As New List(Of String)()
Dim htmlDoc As New HtmlAgilityPack.HtmlDocument()
htmlDoc.LoadHtml(WebSource)
For Each link As HtmlNode In htmlDoc.DocumentNode.SelectNodes("//a[@href]")
Dim att As HtmlAttribute = link.Attributes("href")
If att.Value.Contains("/articles/") Then
links.Add(att.Value)
End If
Next
是否可以在 url 中搜索并按两个值过滤它们,例如在技术站点中我想找到所有包含 /articles/
和 LG
问题二:
提取的 url 不是完整的 HTTP 地址,例如我的结果之一是
/articles/car
而不是完整的地址,例如
http://website.com/articles/car
我该如何解决这个问题?
您正在查看 ONE 内容。要检查 htmlagility 中的多个项目,您可以使用多个 if
语句,如下所示
If att.Value.Contains("content1") Then
If att.Value.Contains("content2") Then
If att.Value.Contains("content3") Then
links.Add(att.Value)
End If
End If
End If