美丽的汤解析文章在媒体上的发布日期 python

beautiful soup parse published date of article on medium python

我需要使用美汤解析媒体上文章的“发布日期”。 我在循环中成功解析了作者、标题、阅读时间,但出于某种原因“出版日期”对我不起作用。

示例如下:

https://medium.com/interlay/archive/2020

所以 prasing 的输出将是 Jun 18, 2020 ; Mar 5 , 2020 ; Feb 23, 2020 etc.

日期出现在每篇文章的 <time> 标签内 <div>

Select <time> 标记并打印它的文本。

这是代码。

import requests
from bs4 import BeautifulSoup
url = 'https://medium.com/interlay/archive/2020'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')

t = [x.text.strip() for x in soup.find_all('time')]
print(t)
['Jun 18, 2020', 'Mar 4, 2020', 'Feb 23, 2020', 'Nov 30, 2020', 'Apr 15, 2020', 'Aug 21, 2020', 'Oct 27, 2020']
import requests
from bs4 import BeautifulSoup
    
url='https://medium.com/interlay/archive/2020'
    
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

您可以从其 class 中找到 main_div 标签并循环遍历它以从 time 标签

中获取数据
main_div=soup.find_all("div",class_="streamItem streamItem--postPreview js-streamItem")
for div in main_div:
    print(div.find("time").text)

输出:

Jun 18, 2020
Mar 4, 2020
Feb 23, 2020
Nov 30, 2020
Apr 15, 2020
Aug 21, 2020
Oct 27, 2020