在 Window 7 中优化 gensim(C 编译器和 BLAS)

Optimizing gensim(C compilier and BLAS) in Window 7

我想在 Window7

中将 gensim 优化为 运行 doc2vec

[1] C 编译器

我按照以下说明安装了 gensim:https://radimrehurek.com/gensim/install.html

pip install --upgrade gensim

但是这个页面(https://radimrehurek.com/gensim/models/doc2vec.html)说安装gensim之前需要C编译器。

Make sure you have a C compiler before installing gensim, to use optimized (compiled) doc2vec training (70x speedup [blog]).

  1. 我应该在使用 pip 之前做些什么吗?

[2] BLAS

在教程中,https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb是说

Time to Train

If the BLAS library is being used, this should take no more than 3 seconds. If the BLAS library is not being used, this should take no more than 2 minutes, so use BLAS if you value your time.

所以看来我必须安装BLAS进行优化, 但我不知道 BLAS 是什么,window.

的 BLAS 安装指南很少而且很复杂
  1. 我应该为 Window 中的 运行ning gensim 安装哪个 BLAS 库?
  2. 如果我安装 BLAS 库,它会在我 运行ning gensim doc2vec 时自动 linked 到 python 代码吗?或者我应该做些什么来 link 它到 doc2vec 代码?

gensim优化代码需要的不仅仅是BLAS,还需要基于Cython代码的原生编译库。

如果可能的话,这种工作应该在类 UNIX 系统 (Linux/MacOS) 上完成,因为这是大多数开源库开发、测试和使用最多的地方。因此,您将更接近主要开发人员的系统配置和更大的用户社区 – 这意味着默认安装说明更有可能 "just work",并且您 运行 遇到的任何问题更有可能存在在可找到的地方回答。

但是如果您被困在使用 Windows 中,Python 的 'conda' 发行版通常可以很好地在 Windows 上安装关键库的优化版本,所以它可以是一个不错的选择。我特别喜欢从“miniconda”变体开始,这样只有我明确需要的包才会安装到环境中。

Miniconda installation instructions and getting-started-guide两个都不错。一般来说,一旦你处于 conda 环境中,你可以 conda install PACKAGENAME 用于主要的基础包,如 numpyscipy,并且仍然选择 pip install PACKAGENAME 用于任何不在conda 存储库,或者不是 conda 存储库中的最新版本。 (有时即使使用基于 conda 的环境,从 pip 获取 gensim 也是有意义的。)