selenium 将网站内容抓取到数组中

selenium scraping content from website into an array

我有兴趣从网站抓取内容并将其放入数组中。具体来说,我有兴趣通过识别纯文本所在的 html 元素将纯文本抓取到数组中。我将 selenium 与 Java 一起使用,我希望有人可以阐明执行此操作的最佳方法。我将扫描多个纯文本元素并将它们按顺序放入一个数组中。纯文本将在 html table 中,我需要选择 table 中包含我感兴趣的纯文本的特定部分。

这是一个相当广泛的问题,但我仍然希望我能提供帮助。我使用 seleniumscrapy 库 (python) 进行抓取,并且效果很好。如果您的问题是在 HTML 中查找文本的最佳方式是什么,那么可以肯定地说答案是 XPath。这是一种非常简单的语言,旨在从 html/xml 中提取多个元素。仅举 google 为例,我相信您会掌握窍门的。 Selenium 有一些用于 xpath 的内置函数,你会发现很多例子