Scrapy 打印字段但不填充 XML 文件

Question

我在正确打印 XML 文件但未使用任何内容填充 XML 文件时遇到问题。

终端的输出是这样的：

[u'Tove'] [u'Jani'] [u'Reminder'] [u"Don't forget me this weekend!"]

但是输出 site_products.xml 结果是这样的（这是错误的，没有数据）：

<?xml version="1.0" encoding="utf-8"?>
<items></items>

spider.py

from scrapy.contrib.spiders import XMLFeedSpider
from crawler.items import CrawlerItem

class SiteSpider(XMLFeedSpider):
    name = 'site'
    allowed_domains = ['www.w3schools.com']
    start_urls = ['http://www.w3schools.com/xml/note.xml']
    itertag = 'note'

    def parse_node(self, response, selector):
        to = selector.xpath('//to/text()').extract()
        who = selector.xpath('//from/text()').extract()
        heading = selector.xpath('//heading/text()').extract()
        body = selector.xpath('//body/text()').extract()
        return item

pipelines.py

from scrapy import signals
from scrapy.contrib.exporter import XmlItemExporter

class XmlExportPipeline(object):

    def __init__(self):
        self.files = {}

    @classmethod
    def from_crawler(cls, crawler):
         pipeline = cls()
         crawler.signals.connect(pipeline.spider_opened, signals.spider_opened)
         crawler.signals.connect(pipeline.spider_closed, signals.spider_closed)
         return pipeline

    def spider_opened(self, spider):
        file = open('%s_products.xml' % spider.name, 'w+b')
        self.files[spider] = file
        self.exporter = XmlItemExporter(file)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        file = self.files.pop(spider)
        file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

items.py

import scrapy                                                                                           


class CrawlerItem(scrapy.Item):
    to = scrapy.Field()
    who = scrapy.Field()
    heading = scrapy.Field()
    body = scrapy.Field()
    pass

settings.py

BOT_NAME = 'crawler'                                                                                                                                                                                           
SPIDER_MODULES = ['crawler.spiders']                                                                    
NEWSPIDER_MODULE = 'crawler.spiders'
ITEM_PIPELINES = {'crawler.pipelines.XmlExportPipeline': 300,}

如能提供任何帮助，我们将不胜感激。

Answer 1

您需要在 parse_node() 方法中实例化一个 CrawlerItem 实例：

def parse_node(self, response, selector):
    item = CrawlerItem()
    item['to'] = selector.xpath('//to/text()').extract()
    item['who'] = selector.xpath('//from/text()').extract()
    item['heading'] = selector.xpath('//heading/text()').extract()
    item['body'] = selector.xpath('//body/text()').extract()
    return item

Scrapy 打印字段但不填充 XML 文件

Scrapy prints fields but doesn't populate XML file

python

xml

xpath

scrapy

scrapy-spider