Python XPATH 从表格中获取数据 table
Python XPATH get data from tabular table
我正在尝试从表格中获取数据 table。
我想从 table 获取所有数据,但出于某种原因,我什至无法显示标题。有人可以给我一些关于我在这里做错了什么的指示吗?谢谢
from lxml import html
import requests
page = requests.get("https://www150.statcan.gc.ca/t1/tbl1/en/tv.action?pid=1710000501")
tree = html.fromstring(page.content)
title = tree.xpath('//*[@id="1_1"]/text()')
print("title", title)
进行一些测试后,您需要在请求的 header 中传递一个 cookie 值。否则你将无法获取页面。代码:
from lxml import html
import requests
url = 'https://www150.statcan.gc.ca/t1/tbl1/en/tv.action?pid=1710000501'
headers = {'Cookie': 'TS011c6724=01bc1e93397eb3e6d45954baff82f1dc5a53f5c7c9d6e15b0e5924fa1271e6172d10ebdde1926759324799c768ddd4eb7c4fa9c487'}
r = requests.get(url,headers=headers)
tree = html.fromstring(r.content)
print(tree.xpath('//th[@id="1_1"]')[0].text)
for elm in tree.xpath('//tr[./th[contains(.,"years")]]/td[1]'):
print(elm.text)
输出(加拿大,以及 2015 年男女人口估计数):
Canada
1,928,878
1,969,492
1,895,463
2,092,961
2,395,623
...
我正在尝试从表格中获取数据 table。 我想从 table 获取所有数据,但出于某种原因,我什至无法显示标题。有人可以给我一些关于我在这里做错了什么的指示吗?谢谢
from lxml import html
import requests
page = requests.get("https://www150.statcan.gc.ca/t1/tbl1/en/tv.action?pid=1710000501")
tree = html.fromstring(page.content)
title = tree.xpath('//*[@id="1_1"]/text()')
print("title", title)
进行一些测试后,您需要在请求的 header 中传递一个 cookie 值。否则你将无法获取页面。代码:
from lxml import html
import requests
url = 'https://www150.statcan.gc.ca/t1/tbl1/en/tv.action?pid=1710000501'
headers = {'Cookie': 'TS011c6724=01bc1e93397eb3e6d45954baff82f1dc5a53f5c7c9d6e15b0e5924fa1271e6172d10ebdde1926759324799c768ddd4eb7c4fa9c487'}
r = requests.get(url,headers=headers)
tree = html.fromstring(r.content)
print(tree.xpath('//th[@id="1_1"]')[0].text)
for elm in tree.xpath('//tr[./th[contains(.,"years")]]/td[1]'):
print(elm.text)
输出(加拿大,以及 2015 年男女人口估计数):
Canada
1,928,878
1,969,492
1,895,463
2,092,961
2,395,623
...