获取段落内容

Question

我在获取段落标签的内容时有点困惑。

<div class="SomeID">
<p>What a voice! </p>
</div>

我到了这里

list = soup.find_all("div","SomeID")

但是如何获取段落内容（好大的声音！）

基本问题是从

获取所有段落标签的内容

import urllib
from bs4 import BeautifulSoup

html = urllib.urlopen('http://www.dawn.com/news/1267272/democracys-woes').read()
soup = BeautifulSoup(html, 'html.parser')
list = soup.find_all("div","comment__body cf")
print list

Answer 1

你可以用 CSS selector:

for p in soup.select("div.SomeID > p"):
    print(p.get_text(strip=True))

或者，如果您需要单个 p 元素：

soup.select_one("div.SomeID > p").get_text(strip=True)

注意这里的>是指直接的父子关系

获取段落内容

Get Paragraph Content

python

beautifulsoup

pydev

python-2.7