获取标签之间的文本 BeautifulSoup4

Question

我试图抓取 99 伤害的前 CS:GO 玩家列表，但我在获取玩家名字时遇到了问题。

<a href="http://csgo.99damage.de/edb/player/4151-krimz" class="item small">
    <span stype="width:80px;"> 1. </span>
    <span style="width: 280px;">
        <img src="https://cdn1.gamesports.net/img/flags/se.gif" border="0" alt="se" title="Sweden">
        " KRiMZ "
    </span>

"KRiMZ" 是我在这种情况下尝试获取的玩家名字，但还有很多其他名字，所以我不能只搜索 KRiMZ。我在网上搜索了解决方案，但没有找到可以解决我的问题的解决方案。

Answer 1

我会使用 CSS selector（基于玩家配置文件 player 部分 URL）定位每个玩家元素，然后在其中找到前两个跨度 - 第一个会排名第二 - 用户名：

for player in soup.select("#content a[href*="player/"]"):
    rank, name = player.find_all("span")[:2]
    print(rank.get_text(strip=True), name.get_text(strip=True))

这是我正在执行的完整代码：

import requests
from bs4 import BeautifulSoup

url = "http://csgo.99damage.de/de/edb/players"
response = requests.get(url, headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36"})

soup = BeautifulSoup(response.content, "html.parser")
for player in soup.select('#content a[href*="player/"]'):
    rank, name = player.find_all("span")[:2]
    print(rank.get_text(strip=True), name.get_text(strip=True))

打印：

1. KRiMZ
2. olofmeister
3. JW
4. flusha
5. dennis
6. dev1ce
7. dupreeh
8. Xyp9x
9. Karrigan
10. cajunb
11. friberg
12. GeT_RiGhT
13. f0rest
14. Xizt
15. flamiE
16. GuardiaN
17. seized
18. Edward
19. Zeus
20. kioShiMa
21. pronax
22. Happy
23. NBK

获取标签之间的文本 BeautifulSoup4

Get text between tags BeautifulSoup4

html

python

web-scraping

python-3.x

bs4