Scrapy

Question

This 是我正在抓取的网站的站点地图 url。我希望我的蜘蛛从以 /属性.

开头的页面中抓取数据

问题是，在没有 header 的情况下发送请求时，这些页面不会向我显示正确的响应。请求需要 user-agent header.

我想到了这样的解决方案。首先，/属性开头的url被parse方法抓取，这个方法得到一个空响应。 parse 方法连同 headers 一起发送相同的请求，parse_items 方法将抓取正确的响应。

从未调用 parse_items 方法，并且 shell 进程从未启动。我不明白为什么 parse_items 没有达到。有什么方法可以定义像 start_requests 这样的方法，这样我就可以为 SitemapSpider class.

覆盖 parse 方法的行为

class MySpider(SitemapSpider):

    name = 'myspider'

    sitemap_urls = [
        'https://www.iproperty.com.my/sitemap_index.xml',
    ]

    sitemap_rules = [
        ('/property', 'parse'),
    ]

    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
    }

    def parse(self, response):
        yield scrapy.Request(
            url=response.url,
            method='GET',
            headers=self.headers,
            callback=self.parse_items
        )


    def parse_items(self, response):
        from scrapy.shell import inspect_response
        inspect_response(response, self)

Answer 1

根据 SitemapSpider source code (v 1.6) 它不会调用 parse 函数作为回调（就像 Spider 那样）：

def start_requests(self):
    for url in self.sitemap_urls:
        yield Request(url, self._parse_sitemap)

如您所见，它没有添加任何特定的 headers。
你需要观察 SitemapSpider 源代码并覆盖其中的一些方法。

我注意到另一件事。我不记得蜘蛛有 headers 值。您是指 DEFAULT_REQUEST_HEADERS 设置吗？:

class MySpider(SitemapSpider):

    name = 'myspider'

    sitemap_urls = [
        'https://www.iproperty.com.my/sitemap_index.xml',
    ]

    sitemap_rules = [
        ('/property', 'parse'),
    ]
    CUSTOM_SETTINGS = {
        DEFAULT_REQUEST_HEADERS : {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
    }}
....

Answer 2

用稍微不同的方法来实现相同的效果如何？如果你尝试在 scrapy 中使用 BeautifulSoup 那么输出就是你所期望的。也许是解析器负责获取响应。

from bs4 import BeautifulSoup
import scrapy

class SitMapSpider(scrapy.Spider):
    name = 'sitemap'
    start_urls = ['https://www.iproperty.com.my/sitemap_index.xml']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, self.parse)

    def parse(self,response):
        soup = BeautifulSoup(response.text, 'xml')
        for item in soup.select('sitemap > loc'):
            yield scrapy.Request(item.text,self.parse_more_links)

    def parse_more_links(self,response):
        soup = BeautifulSoup(response.text, 'xml')
        for item in soup.select('url > loc'):
            if not "/property" in item.text:continue
            yield {"item": item.text}

Answer 3

您可以使用 DEFAULT_REQUEST_HEADERS setting, which you can set on your spider itself using the custom_settings class 属性。

如果这对您来说不够灵活，请使用或覆盖 SitemapSpider 或基于它从头开始编写您自己的蜘蛛。

Scrapy - SitemapSpider 相当于 start_requests 方法

Scrapy - SitemapSpider equivalent of start_requests method

python

sitemap

web-crawler

web-scraping