火花流率源生成行太慢

spark streaming rate source generate rows too slow

我正在使用 Spark RateStreamSource 每秒生成大量数据以进行性能测试。

为了测试我实际上获得了我想要的并发量,我将 rowPerSecond 选项设置为较高的数字 10000,

    df = (
        spark.readStream.format("rate")
        .option("rowPerSecond", 100000)
        .option("numPartitions", 100)
        .load()
    )

但是,当我在本地 运行 我的 pyspark 脚本时,行生成非常慢。 (每秒少于 1 行)

我把结果打印出来了,从下面的日志摘录可以看出,大约一分钟后行数是142

Row content: Row(timestamp=datetime.datetime(2021, 12, 6, 23, 36, 15, 16000), value=142)

所以我的问题是:

您的选项有错字 - 应该是 rowsPerSecond