如何安装离线 Spark NLP 包

How to install offline Spark NLP packages

如何在没有互联网连接的情况下安装离线 Spark NLP 包。 我已经下载了软件包 (recognizee_entities_dl) 并将其上传到集群。

我已经使用 pip install spark-nlp==2.5.5 安装了 Spark NLP。 我正在使用 PySpark,但我无法从集群下载包。

已经尝试过;

pipeline = PretrainedPipeLine.from_disk('/path/to/recognize_entities_dl')
pipeline = PretrainedPipeLine.load('/path/to/recognize_entities_dl')

错误:

'PretrainedPipeline' has no attribute 'load'

Input path does not exist:
    hdfs://...../recognize_entities_dl_en_2.4.3_2.4_1584626752821/metatdata

查看您的错误:

 hdfs://...../recognize_entities_dl_en_2.4.3_2.4_1584626752821/metatdata

metatdata 您应该通过删除一个额外的“t”来更改为 metadata

此外,您在“recognize_entities_dl_en_2.4.3_2.4_1584626752821”中看到 2.4.3

这表明它适用于 Spark NLP 2.4.3

但是,在问题中,您提到您正在使用,

spark-nlp==2.5.5

只要

就可以了
2.5.5 >= 2.4.3

但有时它会导致问题。

还有 2.4 在“recognize_entities_dl_en_2.4.3_2.4_1584626752821”

这表明它适用于 Apache Spark 2.4

针对 Apache Spark 2 构建和编译的 Spark NLP 库4.x。这就是模型和管道仅适用于 2.4.x 版本的原因。