我的 scrpay 文本结果不断返回“\n\n”

Question

我尝试从

中抓取一些搜索结果

https://www.companiesintheuk.co.uk/Company/Find?q=a

使用命令

response.css('div.search_result_title').extract()

这行得通，但是当我尝试使用

删除 html 标签时

response.css('div.search_result_title::text').extract()

但我不断得到，\n\n\n\n\n\n\n

[u'\n', u'\n(Dissolved)\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n', u'\n']

你们知道为什么吗？谢谢！

Answer 1

你想收到 headers 的短信吗？ div 里面有 a，所以是的，你得到了很多空数据。使用 div.search_result_title a::text.

关于获取整个块的文本的第二个问题：

for i in response.css('div.searchResult'): 
    print ' '.join([j.strip() for j in i.css('::text').extract() if j.strip()])

我的 scrpay 文本结果不断返回“\n\n”

My scrpay text results keep returning " \n \n"

python

scrapy

web-scraping

scrape