scrapy 中的 TakeFirst() 获取所有数据

Question

我真的是初学者，有这个代码：

class ActivityItem(scrapy.Item):
Id = scrapy.Field(
output_processor=TakeFirst()
)
EconomicActivityDescription = scrapy.Field(
output_processor=TakeFirst()
)

怎么办，想把ActivityItem全部scrapy，不仅先不为null？ň

output_processor=TakeFirst()

Answer 1

您可以使用 docs 中所述的任何内置处理器。

如果你想 return 所有由给定分隔符连接的项目，你可以使用 Join 或使用 Identity 到 return 值作为所有的列表项目。

使用Join

from itemloaders.processors import Join
class ActivityItem(scrapy.Item):
  Id = scrapy.Field(output_processor=Join(","))
  EconomicActivityDescription = scrapy.Field(output_processor=Join(","))

使用Identity

from itemloaders.processors import Identity
class ActivityItem(scrapy.Item):
  Id = scrapy.Field(output_processor=Identity())
  EconomicActivityDescription = scrapy.Field(output_processor=Identity())

scrapy 中的 TakeFirst() 获取所有数据

TakeFirst() in scrapy to take all data

python

scrapy