无法查看网站的页面源
Unable to view the page source of a website
我写了一个简单的python脚本只是为了查看一个website.The网站的页面源是https://kissanime.to
。我正在使用以下一小段代码。
import urllib2
url = 'https://kissanime.to'
link = urllib2.urlopen(url)
print link
但是上面的过程不起作用,并显示如下错误消息
HTTP Error 403 : Forbidden
我尝试在社区中找到上述问题的解决方案并想出了这个:-
import urllib2
url = 'https://kissanime.to'
link1 = urllib2.Request(url,headers = {'User-Agent' : "Magic Browser"})
link2 = urllib2.urlopen(link1)
但是上面的方法也失败了,现在我得到了错误:-
HTTP Error 503 : Service Temporarily Unavailable
这个问题有什么解决方法吗?我对 python 的网络爬虫功能完全陌生。
请帮忙
查看该网站,它在显示任何主要内容之前让您等待 5 秒钟,同时它正在执行某些操作。
我使用了 requests
模块,以获取显示 "Wait 5 seconds":
的初始页面
import requests
r = requests.get("https://kissanime.to/")
# Throws an Insecure Platform warning on certain versions of python
print r.content
但是,根据您希望抓取的具体内容,您可以先深入了解网站的构建方式,然后制定抓取所需内容的策略。
我必须说,在查看了站点中进行的网络调用后,它非常顽固,因为每个调用都嵌入了大量参数和 cookie。
您具体希望从该网站抓取什么内容?
此外,服务器在显示初始页面 "Wait 5 seconds..."
时返回 503
我写了一个简单的python脚本只是为了查看一个website.The网站的页面源是https://kissanime.to
。我正在使用以下一小段代码。
import urllib2
url = 'https://kissanime.to'
link = urllib2.urlopen(url)
print link
但是上面的过程不起作用,并显示如下错误消息
HTTP Error 403 : Forbidden
我尝试在社区中找到上述问题的解决方案并想出了这个:-
import urllib2
url = 'https://kissanime.to'
link1 = urllib2.Request(url,headers = {'User-Agent' : "Magic Browser"})
link2 = urllib2.urlopen(link1)
但是上面的方法也失败了,现在我得到了错误:-
HTTP Error 503 : Service Temporarily Unavailable
这个问题有什么解决方法吗?我对 python 的网络爬虫功能完全陌生。 请帮忙
查看该网站,它在显示任何主要内容之前让您等待 5 秒钟,同时它正在执行某些操作。
我使用了 requests
模块,以获取显示 "Wait 5 seconds":
import requests
r = requests.get("https://kissanime.to/")
# Throws an Insecure Platform warning on certain versions of python
print r.content
但是,根据您希望抓取的具体内容,您可以先深入了解网站的构建方式,然后制定抓取所需内容的策略。
我必须说,在查看了站点中进行的网络调用后,它非常顽固,因为每个调用都嵌入了大量参数和 cookie。
您具体希望从该网站抓取什么内容?
此外,服务器在显示初始页面 "Wait 5 seconds..."
时返回 503