访问 Python UDF 中的外部文件

Accessing external file in Python UDF

我正在使用配置单元和 python udf。我定义了一个 sql 文件,我在其中添加了 python udf 并调用它。到目前为止一切顺利,我可以使用我的 python 函数处理我的查询结果。 但是,此时,我必须在 python udf 中使用外部 .txt 文件。我将该文件上传到我的集群(与 .sql 和 .py 文件相同的目录)并且我还使用以下命令将其添加到我的 .sql 文件中:

ADD FILE /home/ra/stopWords.txt;

当我在 python udf 中这样调用这个文件时:

file = open("/home/ra/stopWords.txt", "r")

我遇到了几个错误。我不知道如何添加嵌套文件并在配置单元中使用它们。

有什么想法吗?

所有添加的文件都位于 UDF 脚本的当前工作目录 (./) 中。

如果您使用 ADD FILE /dir1/dir2/dir3/myfile.txt 添加 单个文件 ,其路径将为

./myfile.txt

如果您使用 ADD FILE /dir1/dir2 添加 目录 ,文件的路径将为

./dir2/dir3/myfile.txt