在 DataFusion 中读取 Excel 并在读取时进行编辑

Reading Excel with edit on read in DataFusion

我正在使用 google DataFusion Wrangler 插件读取 excel 文件。在 excel 中，第一行需要被丢弃，因为 headers 和数据从第二行开始。
问题是当 Wrangler 读取 parse-as-excel 一个文件时，它给出了选择第一行作为 header 的默认选项。
需要一些帮助来隔离，以便跳过第一行，header 是第二行，后面是数据。
感谢您的帮助！

Wrangler 插件目前不支持此行为。如您所知，Wrangler 只会查看第一列以解码 headers.

在这种情况下，pre-processing删除第一行的文件是最简单的解决方案。

是的，这是可能的。您必须过滤任何始终具有值（非空）的列。但是你必须在之后手动输入列名。

在牧马人中，转到“A”列，单击箭头打开菜单。然后选择“过滤器”，如果值为空，则选择“删除行”。它将删除第一行。

您重复该操作，但如果“A”列等于 A 列的 header 值，则进行过滤以删除。

在 DataFusion 中读取 Excel 并在读取时进行编辑

Reading Excel with edit on read in DataFusion

google-cloud-platform

google-cloud-data-fusion