将 Parquet 文件编辑为二进制文件

Editing Parquet Files as Binary

假设 AWS S3 上的 Parquet 文件(用于 AWS Athena 查询)。

我需要通过更改数值来匿名化具有特定数字字段的记录(更改一个数字就足够了)。

  1. 我可以将 parquet 文件扫描为二进制文件并找到数值吗?或者压缩后将无法找到这样的字符串?
  2. 假设我能做到 #1 - 我可以通过在二进制级别更改此数字的数字来匿名记录而不破坏镶木地板文件吗?

10X

不,这是不可能的。 Parquet 在其格式中有两层使得这不可能:编码和压缩。它们都对数据重新排序以适应 less space,它们之间的区别在于 CPU 用法和通用性。有时可以压缩数据,这样如果所有值都相同/非常相似,我们需要的每个值少于一个字节。更改单个值会导致更多 space 使用,从而使您无法进行编辑。