我想解压缩 url 以进行抓取
I want to unzip the url for scraping
"https://www.tokopedia.com/sitemap/product/1.xml.gz" 这是我的 url 这个 url 包含产品数量 url 但它是压缩的 我不知道如何解压缩 url 以及如何从中获取数据,如何使用 scrapy 或 Beautiful soup 解压缩它以及其他一些 scrapy 库
看看gzip
import requests
from io import BytesIO
import gzip
r = requests.get('https://www.tokopedia.com/sitemap/product/1.xml.gz',stream=True)
g=gzip.GzipFile(fileobj=BytesIO(r.content))
content=g.read()
print(content)
输出内容太长,无法粘贴到此处。所以给出 g.read(1000)
的输出
输出:
b'<?xml version="1.0" encoding="UTF-8"?>\n\t<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"\n\txmlns:xhtml="http://www.w3.org/1999/xhtml">\n\t <url>\n\t <loc>https://www.tokopedia.com/tokoshishaonline/shisha-medium</loc>\n <xhtml:link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.tokopedia.com/tokoshishaonline/shisha-medium" />\n\t </url>\n\t <url>\n\t <loc>https://www.tokopedia.com/lighting/lampu-sorot-philips-hnf-207-flood-light-lampu-tembak-lampu-stadion</loc>\n <xhtml:link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.tokopedia.com/lighting/lampu-sorot-philips-hnf-207-flood-light-lampu-tembak-lampu-stadion" />\n\t </url>\n\t <url>\n\t <loc>https://www.tokopedia.com/agromedia/pop-supernasa</loc>\n <xhtml:link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.tokopedia.com/agromedia/pop-supernasa" />\n\t </url>\n\t <url>\n\t <loc>https://www.tokopedia.com/agromedia/aero-810</loc>\n <xhtml:l'
"https://www.tokopedia.com/sitemap/product/1.xml.gz" 这是我的 url 这个 url 包含产品数量 url 但它是压缩的 我不知道如何解压缩 url 以及如何从中获取数据,如何使用 scrapy 或 Beautiful soup 解压缩它以及其他一些 scrapy 库
看看gzip
import requests
from io import BytesIO
import gzip
r = requests.get('https://www.tokopedia.com/sitemap/product/1.xml.gz',stream=True)
g=gzip.GzipFile(fileobj=BytesIO(r.content))
content=g.read()
print(content)
输出内容太长,无法粘贴到此处。所以给出 g.read(1000)
输出:
b'<?xml version="1.0" encoding="UTF-8"?>\n\t<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"\n\txmlns:xhtml="http://www.w3.org/1999/xhtml">\n\t <url>\n\t <loc>https://www.tokopedia.com/tokoshishaonline/shisha-medium</loc>\n <xhtml:link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.tokopedia.com/tokoshishaonline/shisha-medium" />\n\t </url>\n\t <url>\n\t <loc>https://www.tokopedia.com/lighting/lampu-sorot-philips-hnf-207-flood-light-lampu-tembak-lampu-stadion</loc>\n <xhtml:link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.tokopedia.com/lighting/lampu-sorot-philips-hnf-207-flood-light-lampu-tembak-lampu-stadion" />\n\t </url>\n\t <url>\n\t <loc>https://www.tokopedia.com/agromedia/pop-supernasa</loc>\n <xhtml:link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.tokopedia.com/agromedia/pop-supernasa" />\n\t </url>\n\t <url>\n\t <loc>https://www.tokopedia.com/agromedia/aero-810</loc>\n <xhtml:l'