在 Python 中抓取包含某些字符和名称的文本?

Scraping text containing certain caracters and names in Python?

我是 python 的新手,正在从事一个项目,我需要在一堆文章中引用某些人的所有引述。

这个问题我以这篇文章为例:https://www.theguardian.com/us-news/2021/oct/17/jeffrey-clark-scrutiny-trump-election-subversion-scheme

现在,借助 Lambda,我可以使用以下代码抓取包含我要查找的人员姓名的文本:

import requests
from bs4 import BeautifulSoup
url = 'https://www.theguardian.com/us-news/2021/oct/17/jeffrey-clark-scrutiny-trump-election-subversion-scheme'
response = requests.get(url)
data=response.text
soup=BeautifulSoup(data,'html.parser')
tags=soup.find_all('p')
words = ["Michael Bromwich"]
for tag in tags:
    quotes=soup.find("p",{"class":"dcr-s23rjr"}, text=lambda text: text and any(x in text for x in words)).text

print(quotes)

... 其中 returns 包含“Michael Bromwich”的文本块,在本例中实际上是文章中的引述。但是当抓取 100 多篇文章时,这不起作用,因为其他文本块也可能包含指示的名称而不包含引号。我只想要包含引号的文本字符串。

因此,我的问题: 是否可以根据以下条件打印所有 HTML 个字符串:

文本以字符“(引号)或 -(连字符)开头 并且包含名称“Michael Bromwich”或“John Johnson”等

谢谢!

首先,你不需要for tag in tags循环,你只需要在你的条件下使用soup.find_all

接下来,您可以在不使用任何正则表达式的情况下检查引号或连字符:

quotes = [x.text for x in  soup.find_all("p",{"class":"dcr-s23rjr"}, text=lambda t: t and (t.startswith("“") or t.startswith('"') or t.startswith("-")) and any(x in t for x in words))]

(t.startswith("“") or t.startswith('"') or t.startswith("-")) 部分将检查文本是否以 "-.

开头

或者,

quotes = [x.text for x in  soup.find_all("p",{"class":"dcr-s23rjr"}, text=lambda t: t and t.strip()[0] in '“"-' and any(x in t for x in words))]

t.strip()[0] in '“"-' 部分检查 “"- 是否包含剥离文本值的第一个字符。