端口 web scraper，scrapy 0.24，到 python 3. 或者使用更好的东西

Question

我正在尝试使用 scrapy 制作网络抓取工具，但由于它使用 Python2，我运行遇到了很多问题。是否可以同时对 tarball 中的所有文件执行运行 2to3 命令？这会导致不可预见的错误吗？是否有替代的网络爬虫框架，它是最新的、功能更强大的，可能会被推荐？

我这么说是因为最近 activity 似乎没有太多关于运行ning 0.24 版 scrapy 固有问题的表格，即它是用 python2.

如果 scrapy 是最佳选择，而移植是个坏主意，那么在我的 python3 导向机器上运行最好的方法是什么？运行的命令仅使用 python 2 或我可以在配置文件或诸如此类的东西中更改的内容。

更新

如果您遇到此类问题，您需要做的是：

只需运行 setup.py 脚本与 python2，即

python2 setup.py install

你可以开始了，之后就可以了。

^如@alecxe 所示

Answer 1

将 Scrapy 移植到 Python 3 的问题是 Scrapy 是 built-in on top of the twisted event-driven framework, which currently is not yet there。

在 Python 上没有像 Scrapy 这样庞大和成熟的网络抓取框架 3。虽然 pyspider 看起来很有前途，但它有点不同，请参阅：

此外，还有其他与网络抓取和 html-解析相关的库支持 Python 3:

port web scraper, scrapy 0.24, to python 3. or use something better