获取段落内容
Get Paragraph Content
我在获取段落标签的内容时有点困惑。
<div class="SomeID">
<p>What a voice! </p>
</div>
我到了这里
list = soup.find_all("div","SomeID")
但是如何获取段落内容(好大的声音!)
基本问题是从
获取所有段落标签的内容
import urllib
from bs4 import BeautifulSoup
html = urllib.urlopen('http://www.dawn.com/news/1267272/democracys-woes').read()
soup = BeautifulSoup(html, 'html.parser')
list = soup.find_all("div","comment__body cf")
print list
你可以用 CSS selector:
for p in soup.select("div.SomeID > p"):
print(p.get_text(strip=True))
或者,如果您需要单个 p
元素:
soup.select_one("div.SomeID > p").get_text(strip=True)
注意这里的>
是指直接的父子关系
我在获取段落标签的内容时有点困惑。
<div class="SomeID">
<p>What a voice! </p>
</div>
我到了这里
list = soup.find_all("div","SomeID")
但是如何获取段落内容(好大的声音!)
基本问题是从
获取所有段落标签的内容import urllib
from bs4 import BeautifulSoup
html = urllib.urlopen('http://www.dawn.com/news/1267272/democracys-woes').read()
soup = BeautifulSoup(html, 'html.parser')
list = soup.find_all("div","comment__body cf")
print list
你可以用 CSS selector:
for p in soup.select("div.SomeID > p"):
print(p.get_text(strip=True))
或者,如果您需要单个 p
元素:
soup.select_one("div.SomeID > p").get_text(strip=True)
注意这里的>
是指直接的父子关系