使用 gocolly 仅抓取某个 <div>
Scrape ONLY a certain <div> using gocolly
我正在尝试使用 gocolly 制作网络抓取工具。我只想在 https://wol.jw.org/en/wol/h/r1/lp-e
上抓取 ID 为 dailyText
的 <div>
元素。我该怎么做?
感谢 xarantolus 的回答。
这对我来说非常有用(如果域允许我使用它,那就是。)
func main() {
cly := colly.NewCollector(
colly.AllowedDomains("https://yourpage.site"),
)
cly.OnHTML("body", func(e *colly.HTMLElement) {
link := e.Attr("div")
fmt.Printf("Link found: %q -> %s\n", e.Text, link)
cly.Visit(e.Request.AbsoluteURL(link))
})
cly.OnRequest(func(r *colly.Request) {
fmt.Println("Visiting", r.URL.String())
})
page := cly.Visit("https://yourpage.site")
fmt.Print(page)
}
我正在尝试使用 gocolly 制作网络抓取工具。我只想在 https://wol.jw.org/en/wol/h/r1/lp-e
上抓取 ID 为 dailyText
的 <div>
元素。我该怎么做?
感谢 xarantolus 的回答。
这对我来说非常有用(如果域允许我使用它,那就是。)
func main() {
cly := colly.NewCollector(
colly.AllowedDomains("https://yourpage.site"),
)
cly.OnHTML("body", func(e *colly.HTMLElement) {
link := e.Attr("div")
fmt.Printf("Link found: %q -> %s\n", e.Text, link)
cly.Visit(e.Request.AbsoluteURL(link))
})
cly.OnRequest(func(r *colly.Request) {
fmt.Println("Visiting", r.URL.String())
})
page := cly.Visit("https://yourpage.site")
fmt.Print(page)
}