将 xlsx 转换为 parquet

Convert xlsx to parquet

是否可以在不转换为 csv 的情况下将 xlsx excel 文件转换为镶木地板? 问题是我有很多 excel 文件,每个文件都有很多 sheet,我不想将每个 sheet 转换为 csv,然后再转换为镶木地板,所以我想知道是否有办法直接将 excel 转换为镶木地板?或者,有没有办法用 nifi 做到这一点? 我想用 python 脚本

这样做
def csv_from_excel():

wb = xlrd.open_workbook('your_workbook.xls')
sh = wb.sheet_names()
for i in sh:
    sh = wb.sheet_by_name(i)
    your_csv_file = open('your_csv_file.csv', 'wb')
    wr = csv.writer(your_csv_file, quoting=csv.QUOTE_ALL)

    for rownum in xrange(sh.nrows):
        wr.writerow(sh.row_values(rownum))

    your_csv_file.close()
`

从Nifi的角度来看,这里两个有趣的问题是:

  1. 妮菲能捡到这个Excel吗?

利用 XLSX processor, but if your situation is a bit more complex, this elaborate HCC article 可能会有帮助,这应该不会太困难。

  1. Nifi 可以写入 Parquet 吗?

这部分很简单,有了PutParquet processor,Nifi就可以直接写入Parquet了。