UserWarning:pyarrow.open_stream 已弃用,请使用 pyarrow.ipc.open_stream 警告
UserWarning: pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream warnings
我在 运行 spark 2.4.2
本地通过 pyspark
进行 NLP 中的 ML 项目。管道中的部分预处理步骤涉及使用通过 pyarrow
优化的 pandas_udf
函数。每次我使用预处理的 spark 数据帧进行操作时,都会出现以下警告:
UserWarning: pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream
warnings.warn("pyarrow.open_stream is deprecated, please use "
我尝试更新 pyarrow
但没能避免警告。我的 pyarrow 版本是 0.14。我想知道这个警告的含义以及是否有人找到了解决方案?非常感谢您。
Spark 会话详细信息:
conf = SparkConf(). \
setAppName('map'). \
setMaster('local[*]'). \
set('spark.yarn.appMasterEnv.PYSPARK_PYTHON', '~/anaconda3/bin/python'). \
set('spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON', '~/anaconda3/bin/python'). \
set('executor.memory', '8g'). \
set('spark.executor.memoryOverhead', '16g'). \
set('spark.sql.codegen', 'true'). \
set('spark.yarn.executor.memory', '16g'). \
set('yarn.scheduler.minimum-allocation-mb', '500m'). \
set('spark.dynamicAllocation.maxExecutors', '3'). \
set('spark.driver.maxResultSize', '0'). \
set("spark.sql.execution.arrow.enabled", "true"). \
set("spark.debug.maxToStringFields", '100')
spark = SparkSession.builder. \
appName("map"). \
config(conf=conf). \
getOrCreate()
我在 pycharm
中遇到了同样的问题,使用 jupyter lab
时似乎工作正常
此警告来自您的 pyspark
版本,该版本使用了 pyarrow
的已弃用函数。
但是一切正常,所以您可以暂时忽略警告,或者更新您的 pyspark 版本(在最新版本中,他们修复了已弃用的 pyarrow 函数的用法)
我在 运行 spark 2.4.2
本地通过 pyspark
进行 NLP 中的 ML 项目。管道中的部分预处理步骤涉及使用通过 pyarrow
优化的 pandas_udf
函数。每次我使用预处理的 spark 数据帧进行操作时,都会出现以下警告:
UserWarning: pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream warnings.warn("pyarrow.open_stream is deprecated, please use "
我尝试更新 pyarrow
但没能避免警告。我的 pyarrow 版本是 0.14。我想知道这个警告的含义以及是否有人找到了解决方案?非常感谢您。
Spark 会话详细信息:
conf = SparkConf(). \
setAppName('map'). \
setMaster('local[*]'). \
set('spark.yarn.appMasterEnv.PYSPARK_PYTHON', '~/anaconda3/bin/python'). \
set('spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON', '~/anaconda3/bin/python'). \
set('executor.memory', '8g'). \
set('spark.executor.memoryOverhead', '16g'). \
set('spark.sql.codegen', 'true'). \
set('spark.yarn.executor.memory', '16g'). \
set('yarn.scheduler.minimum-allocation-mb', '500m'). \
set('spark.dynamicAllocation.maxExecutors', '3'). \
set('spark.driver.maxResultSize', '0'). \
set("spark.sql.execution.arrow.enabled", "true"). \
set("spark.debug.maxToStringFields", '100')
spark = SparkSession.builder. \
appName("map"). \
config(conf=conf). \
getOrCreate()
我在 pycharm
中遇到了同样的问题,使用 jupyter lab
时似乎工作正常
此警告来自您的 pyspark
版本,该版本使用了 pyarrow
的已弃用函数。
但是一切正常,所以您可以暂时忽略警告,或者更新您的 pyspark 版本(在最新版本中,他们修复了已弃用的 pyarrow 函数的用法)