selenium 将网站内容抓取到数组中

selenium scraping content from website into an array

我有兴趣从网站抓取内容并将其放入数组中。具体来说，我有兴趣通过识别纯文本所在的 html 元素将纯文本抓取到数组中。我将 selenium 与 Java 一起使用，我希望有人可以阐明执行此操作的最佳方法。我将扫描多个纯文本元素并将它们按顺序放入一个数组中。纯文本将在 html table 中，我需要选择 table 中包含我感兴趣的纯文本的特定部分。

这是一个相当广泛的问题，但我仍然希望我能提供帮助。我使用 selenium 和 scrapy 库 (python) 进行抓取，并且效果很好。如果您的问题是在 HTML 中查找文本的最佳方式是什么，那么可以肯定地说答案是 XPath。这是一种非常简单的语言，旨在从 html/xml 中提取多个元素。仅举 google 为例，我相信您会掌握窍门的。 Selenium 有一些用于 xpath 的内置函数，你会发现很多例子

selenium 将网站内容抓取到数组中

selenium scraping content from website into an array

selenium

selenium-ide

web-scraping

selenium-webdriver