使用 python 进行网页抓取时出错
error during Web scraping using python
我试着抓取新闻中的回复。
我试了很多次。
但我只能看到 Traceback。
请帮助我。
我写了这样的代码:
import re
import urllib.request
import urllib
import requests
from bs4 import BeautifulSoup
url='http://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_week&oid=277&aid=0003773756&date=20160622&type=1&rankingSectionId=102&rankingSeq=1&m_view=1'
html=request.get(url)
#print(html.text)
a=html.text
bs=BeautifulSoup(a,'html.parser')
print(bs.prettify())
bs.find('span',class="u_cbox_contents")
当我 运行 这个:bs.find('span',class="u_cbox_contents")
我只能看到很多错误
错误是这样的。
SyntaxError: invalid syntax
如何将代码修复到 运行 好??
请帮助我。
i 运行 这个 python 3.4.4 版本,windows 8.1 64x
感谢阅读。
按照@AkshatMahajan 的建议,下面可以使用请求模块来完成。
此外,您还可以修改最后一行以找到所需的元素。
##import re
##import urllib.request
##import urllib
import requests
from bs4 import BeautifulSoup
url='http://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_week&oid=277&aid=0003773756&date=20160622&type=1&rankingSectionId=102&rankingSeq=1&m_view=1'
html=requests.get(url)
#print(html.text)
a=html.text
bs=BeautifulSoup(a,'html.parser')
print(bs.prettify())
print(bs.find('span',attrs={"class" : "u_cbox_contents"}))
感谢@DiogoMartins 指出正确的 Python 版本
我试着抓取新闻中的回复。
我试了很多次。
但我只能看到 Traceback。
请帮助我。
我写了这样的代码:
import re
import urllib.request
import urllib
import requests
from bs4 import BeautifulSoup
url='http://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_week&oid=277&aid=0003773756&date=20160622&type=1&rankingSectionId=102&rankingSeq=1&m_view=1'
html=request.get(url)
#print(html.text)
a=html.text
bs=BeautifulSoup(a,'html.parser')
print(bs.prettify())
bs.find('span',class="u_cbox_contents")
当我 运行 这个:bs.find('span',class="u_cbox_contents")
我只能看到很多错误
错误是这样的。
SyntaxError: invalid syntax
如何将代码修复到 运行 好??
请帮助我。
i 运行 这个 python 3.4.4 版本,windows 8.1 64x
感谢阅读。
按照@AkshatMahajan 的建议,下面可以使用请求模块来完成。 此外,您还可以修改最后一行以找到所需的元素。
##import re
##import urllib.request
##import urllib
import requests
from bs4 import BeautifulSoup
url='http://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_week&oid=277&aid=0003773756&date=20160622&type=1&rankingSectionId=102&rankingSeq=1&m_view=1'
html=requests.get(url)
#print(html.text)
a=html.text
bs=BeautifulSoup(a,'html.parser')
print(bs.prettify())
print(bs.find('span',attrs={"class" : "u_cbox_contents"}))
感谢@DiogoMartins 指出正确的 Python 版本