基于搜索引擎的数据抓取
Data screaping based on Search engines
是否可以使用 PHP 中的搜索引擎根据关键字抓取网页?
就像输入关键字一样,脚本会搜索 google 并呈现结果,然后呈现页面和 scrap/extract 包含匹配关键字的行?
有什么想法或库可以参考吗?
可以使用php函数调用
file_get_contents('web url goes here');
示例 file_get_contents('http://www.google.com');
那个函数会得到url返回的html,然后你可以使用xpath提取html的元素来得到你想要的数据。
您可以在下面查看示例和更多解释 url。
https://gist.github.com/anchetaWern/6150297
我个人已经对你的问题做了类似的事情,但是它在 rails 上的 ruby 中,你可以在这里探索这个项目。
https://github.com/dvarun/gextract
我用的xpath在这里:
https://github.com/dvarun/gextract/blob/master/app/jobs/fetch_keyword_job.rb
您可以使用 google api https://developers.google.com/custom-search/json-api/v1/overview and a related php client https://github.com/google/google-api-php-client 来做到这一点。
稍后您需要编写网络抓取工具来下载网站 (curl) 并解析 html 解析器(即 https://github.com/paquettg/php-html-parser)。
但是,我不建议 php 用于后一项任务。有更复杂的 scraping 工具可用于 python(即 BeautifulSoup 或 Scrapy),这将使您的生活比使用 php.[=12= 容易得多]
是否可以使用 PHP 中的搜索引擎根据关键字抓取网页?
就像输入关键字一样,脚本会搜索 google 并呈现结果,然后呈现页面和 scrap/extract 包含匹配关键字的行?
有什么想法或库可以参考吗?
可以使用php函数调用
file_get_contents('web url goes here');
示例 file_get_contents('http://www.google.com');
那个函数会得到url返回的html,然后你可以使用xpath提取html的元素来得到你想要的数据。
您可以在下面查看示例和更多解释 url。
https://gist.github.com/anchetaWern/6150297
我个人已经对你的问题做了类似的事情,但是它在 rails 上的 ruby 中,你可以在这里探索这个项目。
https://github.com/dvarun/gextract
我用的xpath在这里: https://github.com/dvarun/gextract/blob/master/app/jobs/fetch_keyword_job.rb
您可以使用 google api https://developers.google.com/custom-search/json-api/v1/overview and a related php client https://github.com/google/google-api-php-client 来做到这一点。
稍后您需要编写网络抓取工具来下载网站 (curl) 并解析 html 解析器(即 https://github.com/paquettg/php-html-parser)。
但是,我不建议 php 用于后一项任务。有更复杂的 scraping 工具可用于 python(即 BeautifulSoup 或 Scrapy),这将使您的生活比使用 php.[=12= 容易得多]