使用 XPath 提取信息

Extracting information using XPaths

亲爱的社区，下午好，

我终于编制了一份有效的 XPath 列表，用于从我需要的 URL 中抓取所有信息。

我想征求您的建议，对于编码新手来说，仅使用 XPath（每个 link 大约 100 个 xpath）抓取大约 50k links 的最佳方法是什么？

Import.io 是我目前最好的工具，甚至 Excel 的 SEO 工具，但它们都有自己的局限性。导入 io 很昂贵，excel 的 SEO 工具不适合提取超过 1000 links。

我愿意学习推荐的系统，但请为我的项目推荐一个好的抓取方式！

已解决！ SEO Tools 爬虫实际上非常有用，我相信我已经找到了我需要的东西。我想我会推迟 Python 或 Java 直到我遇到另一个艰难的障碍。谢谢大家！

这在很大程度上取决于 "scraping information" 的含义。你到底想从网站上挖掘什么？所有主要语言（当然是您提到的 Java 和 Python）在连接网站、阅读内容、使用 DOM 解析 HTML 和使用 XPath 提取某些内容方面都有很好的解决方案碎片。例如，Java 有 JTidy，它允许您甚至将 "dirty" HTML 从网站解析为 DOM 并对其进行一些操作。但是，所需的工具将取决于项目的确切数据处理需求。

我鼓励您使用 Python（我使用 2.7.x）w/Selenium。我经常使用此组合（以有头和无头方式）自动抓取和测试网站，Selenium 解锁了与脚本网站交互的机会，这些网站没有针对每个页面的明确网络调用。

这是来自 Selenium 文档的一个很好的快速教程：2. Getting Started

那里有很多很棒的资源，post 全部都需要很长时间；但是，您会发现 Python 社区非常有帮助，并且您可能会发现 Python 是一种非常适合此类网络交互的语言。

祝你好运！

使用 XPath 提取信息

Extracting information using XPaths

python

java

xml

xpath

import.io