为什么在浏览器开发工具和 BeautifulSoap / Postman 中获取不同的数据?
Why getting different data in browser developer tools vs BeautifulSoap / Postman?
我想从此网页中删除数据
我想获取所有博客...在结果标签下 (<div class="results">)
在浏览器工具中,结果标签下显示有 10 个片段...
但是使用 Beautifulsoap 我得到了
<div class="results">
</div>
邮递员得到同样的东西..
我就是这样做的..
topicuri = "\"
r = s.get(topicuri)
soup = BeautifulSoup(r.text, 'html.parser')
pages = soup.find('div', {'class': 'results'})
print(pages)
该网站正在使用 Javascript 来显示片段。 BeautifulSoup 不执行 Javascript,而浏览器执行。您可能希望在 Python 中使用 Chromium 引擎以 web-scrape Javascript-based 内容。
如上所述 requests
无法呈现 JavaScript
但有两种选择:
- 使用
requests
并在您的 url 上执行 post 请求
- 使用
selenium
得到呈现的 page_source
正如您所期望的那样。
例子
from selenium import webdriver
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
url = 'https://search.donanimhaber.com/portal?q=vodafone&p=3&devicetype=browsermobile&order=date_desc&in=all&contenttype=all&wordtype=both&range=all'
driver = webdriver.Chrome(ChromeDriverManager().install())
driver.maximize_window()
wait = WebDriverWait(driver, 10)
driver.get(url)
wait.until(EC.presence_of_all_elements_located((By.XPATH, './/div[@class="results"]/div[@class="snippet"]')))
content = driver.page_source
soup = BeautifulSoup(content,"html.parser")
pages = soup.find_all('div', {'class': 'snippet'})
for p in pages:
print(p.h2.text.strip())
输出
Vodafone'dan dijital sağlık projelerine ücretsiz 5G desteği
Vodafone'un son 15 yılda Türkiye ekonomisine katkısı açıklandı
"Yarını Kodlayanlar" projesinde gençler afet sorunlarına çözümler üretti
Küresel akıllı saat pazarı yılın ilk çeyreğinde yüzde 35 büyüdü
Vodafone Türkiye'nin ilk çeyrek sonuçları açıklandı: Servis gelirlerinde yüzde 19 artış
Netflix'e yeni eklenen dizi ve filmleri takip edebileceğiniz site
Sony ve SinemaTV anlaştı! Spider-Man, Venom 2 ve daha fazlası TV'de ilk kez SinemaTV'de yayınlanacak
Vodafone ve Riot Games, Türkiye'nin ilk 5G Wild Rift turnuvasını duyurdu
Türkiye'de kaç kişi numara taşıma ile operatör değiştirdi?
Turkcell'in Ramazan'a özel Salla Kazan kampanyası başladı
您还可以从 api 调用 json 响应
获取数据
import requests
import json
body= "vodafone"
headers= {
'content-type': 'application/json'
}
api_url = "https://search.donanimhaber.com/api/search/portal/?q=vodafone&p=3&devicetype=browsermobile&order=date_desc&in=all&contenttype=all&wordtype=both&daterange=all"
jsonData = requests.post(api_url, data=json.dumps(body), headers=headers).json()
for item in jsonData['contents']:
categoryName=item['categoryName']
print(categoryName)
输出:
Operatörler - Kurumsal Haberler
Operatörler - Kurumsal Haberler
Operatörler - Kurumsal Haberler
Mobil Aksesuarlar
Operatörler - Kurumsal Haberler
Kripto Para
Sinema ve Dizi
Mobil Oyunlar
Operatörler - Kurumsal Haberler
Operatörler - Kurumsal Haberler
我想从此网页中删除数据
我想获取所有博客...在结果标签下 (<div class="results">)
在浏览器工具中,结果标签下显示有 10 个片段...
但是使用 Beautifulsoap 我得到了
<div class="results">
</div>
邮递员得到同样的东西..
我就是这样做的..
topicuri = "\"
r = s.get(topicuri)
soup = BeautifulSoup(r.text, 'html.parser')
pages = soup.find('div', {'class': 'results'})
print(pages)
该网站正在使用 Javascript 来显示片段。 BeautifulSoup 不执行 Javascript,而浏览器执行。您可能希望在 Python 中使用 Chromium 引擎以 web-scrape Javascript-based 内容。
如上所述 requests
无法呈现 JavaScript
但有两种选择:
- 使用
requests
并在您的 url 上执行 post 请求
- 使用
selenium
得到呈现的page_source
正如您所期望的那样。
例子
from selenium import webdriver
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
url = 'https://search.donanimhaber.com/portal?q=vodafone&p=3&devicetype=browsermobile&order=date_desc&in=all&contenttype=all&wordtype=both&range=all'
driver = webdriver.Chrome(ChromeDriverManager().install())
driver.maximize_window()
wait = WebDriverWait(driver, 10)
driver.get(url)
wait.until(EC.presence_of_all_elements_located((By.XPATH, './/div[@class="results"]/div[@class="snippet"]')))
content = driver.page_source
soup = BeautifulSoup(content,"html.parser")
pages = soup.find_all('div', {'class': 'snippet'})
for p in pages:
print(p.h2.text.strip())
输出
Vodafone'dan dijital sağlık projelerine ücretsiz 5G desteği
Vodafone'un son 15 yılda Türkiye ekonomisine katkısı açıklandı
"Yarını Kodlayanlar" projesinde gençler afet sorunlarına çözümler üretti
Küresel akıllı saat pazarı yılın ilk çeyreğinde yüzde 35 büyüdü
Vodafone Türkiye'nin ilk çeyrek sonuçları açıklandı: Servis gelirlerinde yüzde 19 artış
Netflix'e yeni eklenen dizi ve filmleri takip edebileceğiniz site
Sony ve SinemaTV anlaştı! Spider-Man, Venom 2 ve daha fazlası TV'de ilk kez SinemaTV'de yayınlanacak
Vodafone ve Riot Games, Türkiye'nin ilk 5G Wild Rift turnuvasını duyurdu
Türkiye'de kaç kişi numara taşıma ile operatör değiştirdi?
Turkcell'in Ramazan'a özel Salla Kazan kampanyası başladı
您还可以从 api 调用 json 响应
获取数据import requests
import json
body= "vodafone"
headers= {
'content-type': 'application/json'
}
api_url = "https://search.donanimhaber.com/api/search/portal/?q=vodafone&p=3&devicetype=browsermobile&order=date_desc&in=all&contenttype=all&wordtype=both&daterange=all"
jsonData = requests.post(api_url, data=json.dumps(body), headers=headers).json()
for item in jsonData['contents']:
categoryName=item['categoryName']
print(categoryName)
输出:
Operatörler - Kurumsal Haberler
Operatörler - Kurumsal Haberler
Operatörler - Kurumsal Haberler
Mobil Aksesuarlar
Operatörler - Kurumsal Haberler
Kripto Para
Sinema ve Dizi
Mobil Oyunlar
Operatörler - Kurumsal Haberler
Operatörler - Kurumsal Haberler