美丽的汤解析文章在媒体上的发布日期 python
beautiful soup parse published date of article on medium python
我需要使用美汤解析媒体上文章的“发布日期”。
我在循环中成功解析了作者、标题、阅读时间,但出于某种原因“出版日期”对我不起作用。
示例如下:
https://medium.com/interlay/archive/2020
所以 prasing 的输出将是 Jun 18, 2020 ; Mar 5 , 2020 ; Feb 23, 2020 etc.
日期出现在每篇文章的 <time>
标签内 <div>
。
Select <time>
标记并打印它的文本。
这是代码。
import requests
from bs4 import BeautifulSoup
url = 'https://medium.com/interlay/archive/2020'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')
t = [x.text.strip() for x in soup.find_all('time')]
print(t)
['Jun 18, 2020', 'Mar 4, 2020', 'Feb 23, 2020', 'Nov 30, 2020', 'Apr 15, 2020', 'Aug 21, 2020', 'Oct 27, 2020']
import requests
from bs4 import BeautifulSoup
url='https://medium.com/interlay/archive/2020'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
您可以从其 class 中找到 main_div
标签并循环遍历它以从 time
标签
中获取数据
main_div=soup.find_all("div",class_="streamItem streamItem--postPreview js-streamItem")
for div in main_div:
print(div.find("time").text)
输出:
Jun 18, 2020
Mar 4, 2020
Feb 23, 2020
Nov 30, 2020
Apr 15, 2020
Aug 21, 2020
Oct 27, 2020
我需要使用美汤解析媒体上文章的“发布日期”。 我在循环中成功解析了作者、标题、阅读时间,但出于某种原因“出版日期”对我不起作用。
示例如下:
https://medium.com/interlay/archive/2020
所以 prasing 的输出将是 Jun 18, 2020 ; Mar 5 , 2020 ; Feb 23, 2020 etc.
日期出现在每篇文章的 <time>
标签内 <div>
。
Select <time>
标记并打印它的文本。
这是代码。
import requests
from bs4 import BeautifulSoup
url = 'https://medium.com/interlay/archive/2020'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')
t = [x.text.strip() for x in soup.find_all('time')]
print(t)
['Jun 18, 2020', 'Mar 4, 2020', 'Feb 23, 2020', 'Nov 30, 2020', 'Apr 15, 2020', 'Aug 21, 2020', 'Oct 27, 2020']
import requests
from bs4 import BeautifulSoup
url='https://medium.com/interlay/archive/2020'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
您可以从其 class 中找到 main_div
标签并循环遍历它以从 time
标签
main_div=soup.find_all("div",class_="streamItem streamItem--postPreview js-streamItem")
for div in main_div:
print(div.find("time").text)
输出:
Jun 18, 2020
Mar 4, 2020
Feb 23, 2020
Nov 30, 2020
Apr 15, 2020
Aug 21, 2020
Oct 27, 2020