数据流中的 nltk 依赖项

Question

我知道外部 python 依赖项可以通过 requirements.txt 文件输入到数据流中。我可以在我的数据流脚本中成功加载 nltk。但是，nltk 通常需要下载更多文件（例如停用词或 punkt）。通常在脚本的本地运行上，我可以运行

nltk.download('stopwords')
nltk.download('punkt')

这些文件将可供脚本使用。我该怎么做才能使工作脚本也可以使用这些文件。如果每个工人只需要执行一次，那么将这些命令放入 doFn/CombineFn 中似乎效率极低。脚本的哪一部分保证对每个工人运行一次？那可能是放置下载命令的地方。

根据 this，Java 允许通过类路径暂存资源。这不是我在 Python 中寻找的东西。我也没有寻找加载额外 python 资源的方法。我只需要 nltk 来找到它的文件。

Answer 1

nltk dependencies in dataflow