selenium 将网站内容抓取到数组中
selenium scraping content from website into an array
我有兴趣从网站抓取内容并将其放入数组中。具体来说,我有兴趣通过识别纯文本所在的 html 元素将纯文本抓取到数组中。我将 selenium 与 Java 一起使用,我希望有人可以阐明执行此操作的最佳方法。我将扫描多个纯文本元素并将它们按顺序放入一个数组中。纯文本将在 html table 中,我需要选择 table 中包含我感兴趣的纯文本的特定部分。
这是一个相当广泛的问题,但我仍然希望我能提供帮助。我使用 selenium
和 scrapy
库 (python
) 进行抓取,并且效果很好。如果您的问题是在 HTML
中查找文本的最佳方式是什么,那么可以肯定地说答案是 XPath
。这是一种非常简单的语言,旨在从 html/xml
中提取多个元素。仅举 google 为例,我相信您会掌握窍门的。 Selenium 有一些用于 xpath 的内置函数,你会发现很多例子
我有兴趣从网站抓取内容并将其放入数组中。具体来说,我有兴趣通过识别纯文本所在的 html 元素将纯文本抓取到数组中。我将 selenium 与 Java 一起使用,我希望有人可以阐明执行此操作的最佳方法。我将扫描多个纯文本元素并将它们按顺序放入一个数组中。纯文本将在 html table 中,我需要选择 table 中包含我感兴趣的纯文本的特定部分。
这是一个相当广泛的问题,但我仍然希望我能提供帮助。我使用 selenium
和 scrapy
库 (python
) 进行抓取,并且效果很好。如果您的问题是在 HTML
中查找文本的最佳方式是什么,那么可以肯定地说答案是 XPath
。这是一种非常简单的语言,旨在从 html/xml
中提取多个元素。仅举 google 为例,我相信您会掌握窍门的。 Selenium 有一些用于 xpath 的内置函数,你会发现很多例子