麻烦 crawling/scraping 使用 javascript 和 Perl 的网页
Trouble crawling/scraping webpages that use javascript with Perl
我一直在努力自学如何抓取和抓取不同的网站。我对 crawling/scraping 感觉不错,但仅限于主要使用 HTML 的网站。现在我正在使用这个 link https://intel.taleo.net/careersection/10000/jobsearch.ftl
我正在使用 Perl(带机械化)执行以下任务:我想编写一个 crawler/scraper 以单击左侧的 "United States" 复选框(过滤结果)然后收集所有职位的名称。但是,我找不到使用 Perl 导航到此单选按钮的方法。有人可以让我开始吗? (示例代码会有所帮助)。
您需要分析页面并查看此单选按钮是如何实现的,以便使用 WWW-Mechanize 模拟 Javascript 代码(如果那里有 JavaScript 代码)。
同样在 Perl 上,您可以在一些开箱即用地处理 javascript 的爬虫模块下面有更简单的选项来处理 JavaScript :
1.WWW-Mechanize-Firefox which automate FireFox
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium
4.WWW::HtmlUnit which based on Java HtmlUnit and can handle javascript
我一直在努力自学如何抓取和抓取不同的网站。我对 crawling/scraping 感觉不错,但仅限于主要使用 HTML 的网站。现在我正在使用这个 link https://intel.taleo.net/careersection/10000/jobsearch.ftl
我正在使用 Perl(带机械化)执行以下任务:我想编写一个 crawler/scraper 以单击左侧的 "United States" 复选框(过滤结果)然后收集所有职位的名称。但是,我找不到使用 Perl 导航到此单选按钮的方法。有人可以让我开始吗? (示例代码会有所帮助)。
您需要分析页面并查看此单选按钮是如何实现的,以便使用 WWW-Mechanize 模拟 Javascript 代码(如果那里有 JavaScript 代码)。
同样在 Perl 上,您可以在一些开箱即用地处理 javascript 的爬虫模块下面有更简单的选项来处理 JavaScript :
1.WWW-Mechanize-Firefox which automate FireFox
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium
4.WWW::HtmlUnit which based on Java HtmlUnit and can handle javascript