我如何在 linux 环境中按小时安排 pyspark 脚本

How can i schedule pyspark script on hourly basis on linux enviroment

我有一个 pyspark 脚本,我希望该脚本每小时执行一次,这意味着脚本应该在每小时后执行一次。 我怎样才能按小时执行该脚本。

我搜索了很多但没有得到任何东西。

您可以使用以下任何一种方法

  1. https://developer.ibm.com/hadoop/2017/06/30/scheduling-spark-job-written-pyspark-sparkr-yarn-oozie/
  2. https://github.com/pinterest/pinball
  3. cron 选项卡
  4. http://airflow.apache.org/scheduler.html