无法查看网站的页面源

Question

我写了一个简单的python脚本只是为了查看一个website.The网站的页面源是https://kissanime.to。我正在使用以下一小段代码。

    import urllib2
    url = 'https://kissanime.to'
    link = urllib2.urlopen(url)
    print link

但是上面的过程不起作用，并显示如下错误消息

HTTP Error 403 : Forbidden

我尝试在社区中找到上述问题的解决方案并想出了这个：-

     import urllib2
     url = 'https://kissanime.to'
     link1 = urllib2.Request(url,headers = {'User-Agent' : "Magic Browser"})
     link2 = urllib2.urlopen(link1)

但是上面的方法也失败了，现在我得到了错误：-

HTTP Error 503 : Service Temporarily Unavailable

这个问题有什么解决方法吗？我对 python 的网络爬虫功能完全陌生。请帮忙

Answer 1

查看该网站，它在显示任何主要内容之前让您等待 5 秒钟，同时它正在执行某些操作。

我使用了 requests 模块，以获取显示 "Wait 5 seconds":

的初始页面

import requests

r = requests.get("https://kissanime.to/")

# Throws an Insecure Platform warning on certain versions of python

print r.content

但是，根据您希望抓取的具体内容，您可以先深入了解网站的构建方式，然后制定抓取所需内容的策略。

我必须说，在查看了站点中进行的网络调用后，它非常顽固，因为每个调用都嵌入了大量参数和 cookie。

您具体希望从该网站抓取什么内容？

此外，服务器在显示初始页面 "Wait 5 seconds..."

时返回 503

无法查看网站的页面源

Unable to view the page source of a website

python

urllib2

http-error