Python3 字符串变量一直在弄乱我的 urllib.request

Question

我正在使用 for 循环来抓取网站的某些目录。

for url in URL_list:

    for paged in range(1,99):
        fullURL=("%s/?count=96&paged=%s&p=&page_id="%(url,paged))

        print(fullURL)
        source= urllib.request.urlopen(fullURL)

我遇到错误 http.client.BadStatusLine: <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN"> 我很确定问题是由于 fullURL 字符串变量引起的，因为它被打印为 http://www.somesite.com/category/new-items /?count=96&paged=1&p=&page_id=

编辑 1 看起来列表中的 "url" 变量存储有空格。

Answer 1

所以我设法用以下代码修复了它。希望对以后的人有所帮助。

for url in URL_list:
       for paged in range(1,99):
            URLDirectory="/?count=96&paged=%s&p=&page_id="%paged
            fullURL=url+directoryURL
            fullURL=''.join(fullURL.split())

Python3 字符串变量一直在弄乱我的 urllib.request

Python3 string variable keeps messing my urllib.request

urllib

python-3.x

bs4