火花流率源生成行太慢
spark streaming rate source generate rows too slow
我正在使用 Spark RateStreamSource 每秒生成大量数据以进行性能测试。
为了测试我实际上获得了我想要的并发量,我将 rowPerSecond 选项设置为较高的数字 10000,
df = (
spark.readStream.format("rate")
.option("rowPerSecond", 100000)
.option("numPartitions", 100)
.load()
)
但是,当我在本地 运行 我的 pyspark 脚本时,行生成非常慢。 (每秒少于 1 行)
我把结果打印出来了,从下面的日志摘录可以看出,大约一分钟后行数是142
Row content: Row(timestamp=datetime.datetime(2021, 12, 6, 23, 36, 15, 16000), value=142)
所以我的问题是:
- 为什么费率源没有像我预期的那样工作,因为我在本地 运行 它与我有什么关系吗?
- 如何使用我的 spark 作业在本地增加并发性?
您的选项有错字 - 应该是 rowsPerSecond
。
我正在使用 Spark RateStreamSource 每秒生成大量数据以进行性能测试。
为了测试我实际上获得了我想要的并发量,我将 rowPerSecond 选项设置为较高的数字 10000,
df = (
spark.readStream.format("rate")
.option("rowPerSecond", 100000)
.option("numPartitions", 100)
.load()
)
但是,当我在本地 运行 我的 pyspark 脚本时,行生成非常慢。 (每秒少于 1 行)
我把结果打印出来了,从下面的日志摘录可以看出,大约一分钟后行数是142
Row content: Row(timestamp=datetime.datetime(2021, 12, 6, 23, 36, 15, 16000), value=142)
所以我的问题是:
- 为什么费率源没有像我预期的那样工作,因为我在本地 运行 它与我有什么关系吗?
- 如何使用我的 spark 作业在本地增加并发性?
您的选项有错字 - 应该是 rowsPerSecond
。