在 python 中从 html 抓取时，网站将我视为移动设备

Question

我正在尝试结合使用 urllib2 和 beautifulsoup 从网站上抓取数据。目前，这是我的代码：

site2='http://football.fantasysports.yahoo.com/archive/nfl/2008/619811/draftresults'
players=[]
teams=[]
response=urllib2.urlopen(site2)
html=response.read()
soup=BeautifulSoup(html)
playername = soup.find_all('a', class_="name")
teamname = soup.find_all('td', class_="last")

我的问题是，当我查看 Chrome 中的源代码时，这些标签随时可用并且可以正常工作，但是当我尝试运行程序时，标签不再存在.

一个提示可能是源代码的第一行是这样的： <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> 而如果我打印我的汤或 html 对象，第一行是 <!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd">。当我尝试使用 urllib2 抓取它时，url 似乎以移动形式出现。如果这不是这个意思，或者您确实知道如何让 urllib2 作为浏览器（最好是 chrome）打开 url，请告诉我！也请非常具体地说明我如何解决这个问题，因为我是一个新手编码员，而且我的知识深度充其量是肤浅的！

谢谢大家！

Answer 1

该网站试图找出来自 'User-agent' 的请求来源的浏览器。根据 urllib2 docs，默认用户代理是 Python-urllib/2.6。您可以尝试使用 OpenerDirector 将其设置为浏览器的设置。同样，来自文档：

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')

在 python 中从 html 抓取时，网站将我视为移动设备

Website Treating me as mobile when scraping from html in python

urllib2

beautifulsoup

python-2.7