Python beautiful soup 只获取主体内容,没有页眉或页脚数据
Python beautiful soup get only body content without header or footer data
在我的代码中,我只需要获取正文而不是页眉或页脚数据。我还想过滤掉随请求收到的任何 html/css/js 代码。我该怎么做?我试过用请求提出请求,用漂亮的汤查看数据,然后打印正文内容。这个问题是它也在获取页脚和页眉内容。感谢您提前回复!
使用浏览器开发者工具(通常为 F12)查找包含您要查找的内容的元素。通常,页眉和页脚以外的内容将在 <section>
或 <article>
元素中。
然后您可以使用 soup.article.get_text()
之类的东西从包含的元素中检索文本。
在我的代码中,我只需要获取正文而不是页眉或页脚数据。我还想过滤掉随请求收到的任何 html/css/js 代码。我该怎么做?我试过用请求提出请求,用漂亮的汤查看数据,然后打印正文内容。这个问题是它也在获取页脚和页眉内容。感谢您提前回复!
使用浏览器开发者工具(通常为 F12)查找包含您要查找的内容的元素。通常,页眉和页脚以外的内容将在 <section>
或 <article>
元素中。
然后您可以使用 soup.article.get_text()
之类的东西从包含的元素中检索文本。