并行写入 xlsxwriter 工作表比顺序写入慢

Question

我想同时写入同一工作簿的多个工作表。代码如下：

import threading
import xlsxwriter
import time


def write_to_w1(w1, data):
    print('task1 executing....')
    for row, item in enumerate(data):
        w1.write(row, 0, item, row_format)

def write_to_w2(w2, data):
    print('task2 executing....')
    for row, item in enumerate(data):
        w2.write(row, 0, item, row_format)

def write_to_w3(w3, data):
    print('task3 executing....')
    for row, item in enumerate(data):
        w3.write(row, 0, item, row_format)


start = time.time()
data1 = [i for i in range(0,500000)]
data2 = [i for i in range(0,500000)]
data3 = [i for i in range(0,500000)]

workbook = xlsxwriter.Workbook('~/Desktop/threading.xlsx')
row_format = workbook.add_format({'bold': False, 'align': 'left', 'text_wrap': True, 'valign': 'vcenter'})
w1 = workbook.add_worksheet('w1')
w2 = workbook.add_worksheet('w2')
w3 = workbook.add_worksheet('w3')

t1 = threading.Thread(target=write_to_w1, args=(w1, data1), name='t1')
t2 = threading.Thread(target=write_to_w2, args=(w2, data2), name='t2')
t3 = threading.Thread(target=write_to_w3, args=(w3, data3), name='t3')

# starting thread 1
t1.start()
# starting thread 2
t2.start()
# starting thread 3
t3.start()

# wait until thread 1 is completely executed
t1.join()
# wait until thread 2 is completely executed
t2.join()
# wait until thread 3 is completely executed
t3.join()

# both threads completely executed
print("Done!")
workbook.close()
end = time.time()
print('total time ==>', end-start)

在使用顺序执行进行基准测试时，并行版本执行了大约 52 秒，顺序版本执行了 50 秒。

是什么导致了这种性能下降？是同步问题还是写入单个工作簿问题？

Answer 1

在正常操作中，xlsxwriter 将数据存储在内存中，并在 close() 阶段将数据写入文件，然后压缩这些文件。在任何相当大的 xlsxwriter 程序中，文件写入操作占执行时间的大部分。

您看不到加速的原因可能是线程在到达程序的 close() 部分时重新加入。

我认为在构造函数中使用 {'constant_memory': True} 可能会从线程版本中获得更好的性能，因为它使用中间文件而不是内存。然而，通过使用您的程序进行快速测试，它不会。

加速大型 xlsxwriter 程序的更好方法是使用 pypy。对于程序的 non-threaded 版本，参考系统的执行时间从 46.7s (Python2) 到 8.2s (PyPy) 或者几乎快了 6 倍。

事实上，pypy 提供的性能接近 xlsxwriter libxlsxwriter 的纯 C 实现，对于更大的数据集，它比 Python 版本快大约 10 倍。

并行写入 xlsxwriter 工作表比顺序写入慢

Parallel writes to xlsxwriter worksheet slower than sequential writes

parallel-processing

multithreading

python-3.x

xlsxwriter