无法在美丽的汤中正确获取时间戳

Question

enter image description here 请参考所附图片。我正在尝试获取时间戳和下面的 10 #content，如图所示以及下面代码中的预期输出，但是我无法获取“40 分钟前”类型的文本。相反，我得到的是这种格式的“08-04-2021 16:48:34”。

 from bs4 import BeautifulSoup
    import requests
    
    URL="https://trends24.in/india/"
    html_text=requests.get(URL)
    soup= BeautifulSoup(html_text.content,'lxml')
    results = []
    
    job_elem=soup.findAll(attrs={'class': 'trend-card'})
    for j in job_elem:
        print(j.find('h5').get_text())
    
    for i in soup.select('#trend-list li'):
         d = dict()
         d[i.a.text] = ''
         try:
             val = i.select_one('.tweet-count').text
         except:
             val = "NA"
         finally:
             d[i.a.text] = val
             results.append(d)
             print(d)
**Output:**

08-04-2021 16:48:34
08-04-2021 15:54:30
08-04-2021 15:01:07
...
{'#AskNivetha': 'NA'}
{'#TikaUtsav': 'NA'}
{'#VakeelSaabFestivalBegins': '62K'}
...

**expected output :**

40 minutes ago  

{'#AskNivetha': 'NA'}
{'#TikaUtsav': 'NA'}
{'#VakeelSaabFestivalBegins': '62K'}
{'ANMOL SUSHANT': '33K'}
{'#TheBigBull': 'NA'}
{'#IPL2021': '73K'}
{'nidra ley uv creations': '64K'}
{'Chief Ministers': 'NA'}
{'B. True 48MP Camera': 'NA'}
{'conan': '51K'}

1 hour ago

{'#AskNivetha': 'NA'}
{'#VakeelSaabFestivalBegins': '50K'}
{'NIDRA LEY UV CREATIONS': '59K'}
{'#SecretOfHappyLiving': 'NA'}
{'#MeditateToRaiseWillpower': 'NA'}
{'#HappinessMantra': 'NA'}
{'ANMOL SUSHANT': 'NA'}
{'Tika Utsav': 'NA'}
{'Chief Ministers': 'NA'}
{'conan': '46K'}

此外，我正在尝试获取时间戳，然后获取 10 个#content 标题。如所附屏幕截图所示。

Answer 1

这是存储日期时间信息的格式。禁用 JavaScript 你会看到：

您在网页中看到的是在网页中运行JavaScript时美化的data-timestamp属性值。更具体地说，当调用以下内容时：

T24.prettyDate = function(t) {
    var e = new Date(1e3 * t),
        n = ((new Date).getTime() - e.getTime()) / 1e3,
        a = Math.floor(n / 86400);
    return isNaN(a) || a < 0 ? "" : 0 === a && ((n < 900 ? "just now" : n < 1800 && "few minutes ago") || n < 3600 && Math.floor(n / 60) + " minutes ago" || n < 7200 && "1 hour ago" || n < 86400 && Math.floor(n / 3600) + " hours ago") || 1 === a && "Yesterday" || a < 7 && a + " days ago" || a < 31 && Math.ceil(a / 7) + " weeks ago" || 31 < a && Math.ceil(a / 30) + " months ago"
}

您可以编写自己的函数，将以上内容作为逻辑指南并使用它，或者使用 selenium 来自动化浏览器。

无法在美丽的汤中正确获取时间戳

Unable to fetch timestamp correctly in beautiful soup

python

timestamp

beautifulsoup

web-scraping

web-scraping-language