抓取 table 未提供任何结果
Scraping table provides no results
我以为我现在对这个问题有了一定的了解,但我又 运行 遇到了问题。
我没有得到这样的结果 - 但如果我将 yield 一个标签移回 - 我会得到可疑的前两项。
这是日志的一小段:
2019-01-07 20:00:16 [scrapy.extensions.logstats] INFO: Crawled 1 pages (at 1
pages/min), scraped 0 items (at 0 items/min)
2019-01-07 20:00:16 [scrapy.core.engine] DEBUG: Crawled (200) <GET
https://www.mysite.no.html?dest_id=-263870;checkin=2019-02-01;checkout=2019-
02-02;group_adults=1 via http://localhost:8050/render.html> (referer: None)
函数如下:
def parse(self, response):
item = klekkenItem()
item['skaptdato'] = datetime.datetime.now()
url_en = response.url # Henter urlen
resultat = urlparse(url_en).query.split('=')[-3] # Plukker ut deler av urlen
nytt_resultat = resultat.split(';',1)[0] # plukker ut første del av resultatet
fradatoen = ''.join(nytt_resultat) # gjør om datoen til en streng
item['fradato'] = datetime.datetime.strptime(fradatoen, '%Y-%m-%d') # Konverterer til datoformat
tabellen = response.css('td.hprt-table-cell-roomtype')
for room in tabellen:
romnavnet = room.css('span.hprt-roomtype-icon-link::text').get()
item['romnavn'] = romnavnet.strip()
yield item
这是[页面][1]
的link
顺便说一句:我已经四次检查了我的选项卡(五次)...
我错过了什么?任何人?我敢肯定这是一个盲点。
tabellen = response.css('td.hprt-table-cell-roomtype')
romnavnet = room.css('span.hprt-roomtype-icon-link::text').extract() #use extract function or `extract_first()`
这个给你 4 行,而第一行是多余的,其他三行有数据。
您不需要使用 splash 来获取这些数据。它在网页上静态可用。
尝试使用生成器:
def parse(self, response):
pass # your implementation
res = self.parse(some_response) # it's a generator, lazy..
for i in res:
print(i) # should consume the generator and print
我以为我现在对这个问题有了一定的了解,但我又 运行 遇到了问题。
我没有得到这样的结果 - 但如果我将 yield 一个标签移回 - 我会得到可疑的前两项。
这是日志的一小段:
2019-01-07 20:00:16 [scrapy.extensions.logstats] INFO: Crawled 1 pages (at 1
pages/min), scraped 0 items (at 0 items/min)
2019-01-07 20:00:16 [scrapy.core.engine] DEBUG: Crawled (200) <GET
https://www.mysite.no.html?dest_id=-263870;checkin=2019-02-01;checkout=2019-
02-02;group_adults=1 via http://localhost:8050/render.html> (referer: None)
函数如下:
def parse(self, response):
item = klekkenItem()
item['skaptdato'] = datetime.datetime.now()
url_en = response.url # Henter urlen
resultat = urlparse(url_en).query.split('=')[-3] # Plukker ut deler av urlen
nytt_resultat = resultat.split(';',1)[0] # plukker ut første del av resultatet
fradatoen = ''.join(nytt_resultat) # gjør om datoen til en streng
item['fradato'] = datetime.datetime.strptime(fradatoen, '%Y-%m-%d') # Konverterer til datoformat
tabellen = response.css('td.hprt-table-cell-roomtype')
for room in tabellen:
romnavnet = room.css('span.hprt-roomtype-icon-link::text').get()
item['romnavn'] = romnavnet.strip()
yield item
这是[页面][1]
的link顺便说一句:我已经四次检查了我的选项卡(五次)...
我错过了什么?任何人?我敢肯定这是一个盲点。
tabellen = response.css('td.hprt-table-cell-roomtype')
romnavnet = room.css('span.hprt-roomtype-icon-link::text').extract() #use extract function or `extract_first()`
这个给你 4 行,而第一行是多余的,其他三行有数据。
您不需要使用 splash 来获取这些数据。它在网页上静态可用。
尝试使用生成器:
def parse(self, response):
pass # your implementation
res = self.parse(some_response) # it's a generator, lazy..
for i in res:
print(i) # should consume the generator and print