使用 Selenium 和 Python 提取网站文本
Extract text of website using Selenium and Python
我想提取特定网页中的所有文本。
在 JavaScript 中,代码如下所示:
var webPage = require('webpage');
var page = webPage.create();
page.open('http://phantomjs.org', function (status) {
console.log('Stripped down page text:\n' + page.plainText);
phantom.exit();
});
如何在 Python 中 运行 page.plainText?
谢谢。
如果你想用 Selenium 做到这一点,你必须 select "top" 元素并在调用 getText()
.
之后
例如,在Python中:
driver = webdriver.PhantomJS(executable_path='pathTo/phantomjs')
driver.get('https://en.wikipedia.org/wiki/Selenium_(software)')
el = driver.find_element_by_tag_name('body')
print(el.text)
driver.close()
试试这个代码:
text = driver.find_element_by_tag_name("body").get_attribute("innerText")
我想提取特定网页中的所有文本。
在 JavaScript 中,代码如下所示:
var webPage = require('webpage');
var page = webPage.create();
page.open('http://phantomjs.org', function (status) {
console.log('Stripped down page text:\n' + page.plainText);
phantom.exit();
});
如何在 Python 中 运行 page.plainText?
谢谢。
如果你想用 Selenium 做到这一点,你必须 select "top" 元素并在调用 getText()
.
例如,在Python中:
driver = webdriver.PhantomJS(executable_path='pathTo/phantomjs')
driver.get('https://en.wikipedia.org/wiki/Selenium_(software)')
el = driver.find_element_by_tag_name('body')
print(el.text)
driver.close()
试试这个代码:
text = driver.find_element_by_tag_name("body").get_attribute("innerText")