python 爬虫提取 url 不工作
python crawler extract url not working
我试图用 imdb 包写一个简单的 python 程序从他们的数据库中提取电影信息,但我不知道为什么代码 returns 空列表。我的猜测是我从网站提取 url 信息(通过使用 (.*?))的方式是错误的。我想从网页中提取一个 url link。这是代码。谢谢!
import urllib
import re
import imdb
imdb_access = imdb.IMDb()
top_num = 5
movie_list = ["The Matrix","The Matrix","The Matrix","The Matrix","The Matrix"]
for x in xrange(0,top_num):
contain = imdb_access.search_movie(movie_list[x])
ID = contain[0].movieID #str type
htmltext = (urllib.urlopen("http://www.imdb.com/title/tt0133093/?ref_=nv_sr_1")).read()
# a pattern in the website
regex = regex = '<img alt="The Matrix Poster" title="The Matrix Poster" src="(.*?)" itemprop="image">'
pattern = re.compile(regex)
#print (str((pattern)))
result = re.findall(pattern,htmltext)
print result
#print type(htmltext)
我认为问题出在新行上,你可以 (.*\n*.*?)
我试图用 imdb 包写一个简单的 python 程序从他们的数据库中提取电影信息,但我不知道为什么代码 returns 空列表。我的猜测是我从网站提取 url 信息(通过使用 (.*?))的方式是错误的。我想从网页中提取一个 url link。这是代码。谢谢!
import urllib
import re
import imdb
imdb_access = imdb.IMDb()
top_num = 5
movie_list = ["The Matrix","The Matrix","The Matrix","The Matrix","The Matrix"]
for x in xrange(0,top_num):
contain = imdb_access.search_movie(movie_list[x])
ID = contain[0].movieID #str type
htmltext = (urllib.urlopen("http://www.imdb.com/title/tt0133093/?ref_=nv_sr_1")).read()
# a pattern in the website
regex = regex = '<img alt="The Matrix Poster" title="The Matrix Poster" src="(.*?)" itemprop="image">'
pattern = re.compile(regex)
#print (str((pattern)))
result = re.findall(pattern,htmltext)
print result
#print type(htmltext)
我认为问题出在新行上,你可以 (.*\n*.*?)