火花流率源生成行太慢

Question

我正在使用 Spark RateStreamSource 每秒生成大量数据以进行性能测试。

为了测试我实际上获得了我想要的并发量，我将 rowPerSecond 选项设置为较高的数字 10000，

    df = (
        spark.readStream.format("rate")
        .option("rowPerSecond", 100000)
        .option("numPartitions", 100)
        .load()
    )

但是，当我在本地运行我的 pyspark 脚本时，行生成非常慢。（每秒少于 1 行）

我把结果打印出来了，从下面的日志摘录可以看出，大约一分钟后行数是142

Row content: Row(timestamp=datetime.datetime(2021, 12, 6, 23, 36, 15, 16000), value=142)

所以我的问题是：

为什么费率源没有像我预期的那样工作，因为我在本地运行它与我有什么关系吗？
如何使用我的 spark 作业在本地增加并发性？

Answer 1

您的选项有错字 - 应该是 rowsPerSecond。

火花流率源生成行太慢

spark streaming rate source generate rows too slow

performance-testing

apache-spark

apache-spark-sql

pyspark

spark-structured-streaming