如何通过维基百科页面的 BS4 过滤特定范围 class?

How to filter the particular span class by BS4 of a wikipedia page?

Wikipedia page 包含两个引用错误。您可以在 page.When 底部的上方找到红色句子(参考序列号 6 和 95)的参考错误,我检查了元素,我发现我应该提取特定的跨度 class 即 <span class="error mw-ext-cite-error"如何获取 <span class="error mw-ext-cite-error" 数据的外部 html 副本?

下面的代码给出了所有的<span class>数据。

from bs4 import BeautifulSoup
import requests
import csv

getUrl= 'https://ta.wikipedia.org/s/h6h' 
url = getUrl
content = requests.get(url).content
soup = BeautifulSoup(content,'lxml')
heading = soup.title
print(heading.text)
#to get the specific li-interwiki-ta tag<span class="error mw-ext-cite-error" 
refError = soup.findAll ('span')
print (refError)

我如何过滤并获取特定的 <span class="error mw-ext-cite-error 数据?

您可以过滤特定的 class 并通过以下方式迭代元素:

refError = soup.findAll('span', { 'class': 'mw-ext-cite-error'})
for error in refError:
    print error