使用 XPath 提取信息

Extracting information using XPaths

亲爱的社区,下午好,

我终于编制了一份有效的 XPath 列表,用于从我需要的 URL 中抓取所有信息。

我想征求您的建议,对于编码新手来说,仅使用 XPath(每个 link 大约 100 个 xpath)抓取大约 50k links 的最佳方法是什么?

Import.io 是我目前最好的工具,甚至 Excel 的 SEO 工具,但它们都有自己的局限性。导入 io 很昂贵,excel 的 SEO 工具不适合提取超过 1000 links。

我愿意学习推荐的系统,但请为我的项目推荐一个好的抓取方式!

#

已解决! SEO Tools 爬虫实际上非常有用,我相信我已经找到了我需要的东西。我想我会推迟 Python 或 Java 直到我遇到另一个艰难的障碍。 谢谢大家!

这在很大程度上取决于 "scraping information" 的含义。你到底想从网站上挖掘什么?所有主要语言(当然是您提到的 Java 和 Python)在连接网站、阅读内容、使用 DOM 解析 HTML 和使用 XPath 提取某些内容方面都有很好的解决方案碎片。例如,Java 有 JTidy,它允许您甚至将 "dirty" HTML 从网站解析为 DOM 并对其进行一些操作。但是,所需的工具将取决于项目的确切数据处理需求。

我鼓励您使用 Python(我使用 2.7.x)w/Selenium。我经常使用此组合(以有头和无头方式)自动抓取和测试网站,Selenium 解锁了与脚本网站交互的机会,这些网站没有针对每个页面的明确网络调用。

这是来自 Selenium 文档的一个很好的快速教程:2. Getting Started

那里有很多很棒的资源,post 全部都需要很长时间;但是,您会发现 Python 社区非常有帮助,并且您可能会发现 Python 是一种非常适合此类网络交互的语言。

祝你好运!