端口 web scraper,scrapy 0.24,到 python 3. 或者使用更好的东西
port web scraper, scrapy 0.24, to python 3. or use something better
我正在尝试使用 scrapy 制作网络抓取工具,但由于它使用 Python2,我 运行 遇到了很多问题。是否可以同时对 tarball 中的所有文件执行 运行 2to3 命令?这会导致不可预见的错误吗?是否有替代的网络爬虫框架,它是最新的、功能更强大的,可能会被推荐?
我这么说是因为最近 activity 似乎没有太多关于 运行ning 0.24 版 scrapy 固有问题的表格,即它是用 python2.
如果 scrapy 是最佳选择,而移植是个坏主意,那么在我的 python3 导向机器上 运行 最好的方法是什么? 运行 的命令仅使用 python 2 或我可以在配置文件或诸如此类的东西中更改的内容。
更新
如果您遇到此类问题,您需要做的是:
只需 运行 setup.py
脚本与 python2
,即
python2 setup.py install
你可以开始了,之后就可以了。
^如@alecxe 所示
将 Scrapy
移植到 Python 3 的问题是 Scrapy
是 built-in on top of the twisted
event-driven framework, which currently is not yet there。
在 Python 上没有像 Scrapy
这样庞大和成熟的网络抓取框架 3。虽然 pyspider
看起来很有前途,但它有点不同,请参阅:
- Can Scrapy be replaced by pyspider?
此外,还有其他与网络抓取和 html-解析相关的库支持 Python 3:
beautifulsoup4
lxml
requests
MechanicalSoup
(建立在 requests
和 BeautifulSoup
之上)
selenium
我正在尝试使用 scrapy 制作网络抓取工具,但由于它使用 Python2,我 运行 遇到了很多问题。是否可以同时对 tarball 中的所有文件执行 运行 2to3 命令?这会导致不可预见的错误吗?是否有替代的网络爬虫框架,它是最新的、功能更强大的,可能会被推荐?
我这么说是因为最近 activity 似乎没有太多关于 运行ning 0.24 版 scrapy 固有问题的表格,即它是用 python2.
如果 scrapy 是最佳选择,而移植是个坏主意,那么在我的 python3 导向机器上 运行 最好的方法是什么? 运行 的命令仅使用 python 2 或我可以在配置文件或诸如此类的东西中更改的内容。
更新
如果您遇到此类问题,您需要做的是:
只需 运行 setup.py
脚本与 python2
,即
python2 setup.py install
你可以开始了,之后就可以了。
^如@alecxe 所示
将 Scrapy
移植到 Python 3 的问题是 Scrapy
是 built-in on top of the twisted
event-driven framework, which currently is not yet there。
在 Python 上没有像 Scrapy
这样庞大和成熟的网络抓取框架 3。虽然 pyspider
看起来很有前途,但它有点不同,请参阅:
- Can Scrapy be replaced by pyspider?
此外,还有其他与网络抓取和 html-解析相关的库支持 Python 3:
beautifulsoup4
lxml
requests
MechanicalSoup
(建立在requests
和BeautifulSoup
之上)selenium