如何最大程度地利用我的笔记本电脑内存来运行 pyspark?
How to max utilize my laptop memory for runing pyspark?
我从 800M txt 文件创建了一个数据框,df 有 2130 万行。我在内存为 16GB 的 mac 上安装了 pyspark 2.0.0。我没有修改任何设置。
我使用 70% 的 df 来训练 mllib 模型,java 堆内存来了。
虽然我使用 60% 的 df 进行训练,但没关系 return 我是一个模型。
如何最大限度地利用我的笔记本电脑进行设置,让我使用 80% 或更多的数据进行训练?
谢谢。
您可以为驱动程序设置spark.driver.memory
,为spark 执行器设置spark.executor.memory
。哪一个是正确的取决于你的应用程序,但在你的情况下我猜它是 spark.executor.memory
.
您可以将其设置为 spark-submit
and/or pyspark
.
的命令行选项
有关详细信息,请参阅 Apache Spark Memory Docs。
我从 800M txt 文件创建了一个数据框,df 有 2130 万行。我在内存为 16GB 的 mac 上安装了 pyspark 2.0.0。我没有修改任何设置。 我使用 70% 的 df 来训练 mllib 模型,java 堆内存来了。 虽然我使用 60% 的 df 进行训练,但没关系 return 我是一个模型。
如何最大限度地利用我的笔记本电脑进行设置,让我使用 80% 或更多的数据进行训练? 谢谢。
您可以为驱动程序设置spark.driver.memory
,为spark 执行器设置spark.executor.memory
。哪一个是正确的取决于你的应用程序,但在你的情况下我猜它是 spark.executor.memory
.
您可以将其设置为 spark-submit
and/or pyspark
.
有关详细信息,请参阅 Apache Spark Memory Docs。