为什么在我提交 python 文件时 Spark 要求一个 main 方法?

Why is Spark asking for a main method when I submit a python file?

我有一个包含以下内容的文件 sql2.py:

from __future__ import print_function

import os
import pyspark.sql
import pyspark.sql.types

from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql import Row
from pyspark.sql.types import StructField, StructType, StringType, IntegerType

def main(sc):

if __name__ == "__main__":
    sc = SparkContext(appName="PythonSQL")
    sqlContext = SQLContext(sc)
    some_rdd = sc.parallelize([Row(name="John", age=19),
                              Row(name="Smith", age=23),
                              Row(name="Sarah", age=18)])
    some_df = sqlContext.createDataFrame(some_rdd)
    teenagers = sqlContext.sql("SELECT name FROM some WHERE age >= 13 AND age <= 19")
    for each in teenagers.collect():

在我的机器上,我导航到 /apps/.../spark/bin 并执行:

./spark-submit ~/.../SparkProj/sql2.py


error: Must specify a main class with --class

如果我是 运行 一份 Java 或 Scala 工作,我会期待这条消息,但这对于 Python 工作没有意义。还有其他人遇到过这个问题吗?

另外,我现在 运行 的 Spark 版本是 1.0.0。

在 spark-1.3.0 上运行良好,您的 python 脚本在这里保存为 ./so2.py 并且它按原样工作,没有任何修改和 none您在 spark-1.0.0 中报告的奇怪行为。请参阅下面的输出。

我已经针对 openjdk-8 从源代码构建了 spark-1.3.0。我的 spark 设置的完整描述(可能足以准确复制它)在 this earlier spark answer 中。

