将 xlsx 转换为 parquet
Convert xlsx to parquet
是否可以在不转换为 csv 的情况下将 xlsx excel 文件转换为镶木地板?
问题是我有很多 excel 文件,每个文件都有很多 sheet,我不想将每个 sheet 转换为 csv,然后再转换为镶木地板,所以我想知道是否有办法直接将 excel 转换为镶木地板?或者,有没有办法用 nifi 做到这一点?
我想用 python 脚本
这样做
def csv_from_excel():
wb = xlrd.open_workbook('your_workbook.xls')
sh = wb.sheet_names()
for i in sh:
sh = wb.sheet_by_name(i)
your_csv_file = open('your_csv_file.csv', 'wb')
wr = csv.writer(your_csv_file, quoting=csv.QUOTE_ALL)
for rownum in xrange(sh.nrows):
wr.writerow(sh.row_values(rownum))
your_csv_file.close()
`
从Nifi的角度来看,这里两个有趣的问题是:
- 妮菲能捡到这个Excel吗?
利用 XLSX processor, but if your situation is a bit more complex, this elaborate HCC article 可能会有帮助,这应该不会太困难。
- Nifi 可以写入 Parquet 吗?
这部分很简单,有了PutParquet processor,Nifi就可以直接写入Parquet了。
是否可以在不转换为 csv 的情况下将 xlsx excel 文件转换为镶木地板? 问题是我有很多 excel 文件,每个文件都有很多 sheet,我不想将每个 sheet 转换为 csv,然后再转换为镶木地板,所以我想知道是否有办法直接将 excel 转换为镶木地板?或者,有没有办法用 nifi 做到这一点? 我想用 python 脚本
这样做def csv_from_excel():
wb = xlrd.open_workbook('your_workbook.xls')
sh = wb.sheet_names()
for i in sh:
sh = wb.sheet_by_name(i)
your_csv_file = open('your_csv_file.csv', 'wb')
wr = csv.writer(your_csv_file, quoting=csv.QUOTE_ALL)
for rownum in xrange(sh.nrows):
wr.writerow(sh.row_values(rownum))
your_csv_file.close()
`
从Nifi的角度来看,这里两个有趣的问题是:
- 妮菲能捡到这个Excel吗?
利用 XLSX processor, but if your situation is a bit more complex, this elaborate HCC article 可能会有帮助,这应该不会太困难。
- Nifi 可以写入 Parquet 吗?
这部分很简单,有了PutParquet processor,Nifi就可以直接写入Parquet了。