如何使用 python 读取网站上的文本（简单说明）

Question

我正在寻找一个程序，可以在给定网站 URL 时从网站上获取文本。我希望能够获取

标签之间的所有文本。我在网上看到的所有地方似乎都过于复杂，它涉及一些我不太精通的 C 编码。总结一下我希望代码看起来像什么（最佳情况）。如果问题中有任何我可以澄清或不清楚的地方，请在评论中告诉我

import WebReader as WR

StringOfWebText = WR.getParagrahText("WebsiteURL")

Answer 1

您可能想要研究类似 BeautifulSoup paired with requests 的内容。然后，您可以使用如下简单的解决方案从页面中提取文本：

import requests
from bs4 import BeautifulSoup

r = requests.get("https://google.com")
soup = BeautifulSoup(r.text, "html.parser")
print(s.text)

BS4 中还内置了 tag-searching 和其他有用的功能，如果您需要能够处理的话。

How to read text off a website using python (Simple explanation)