Parquet 文件中的空值最佳实践

Null values best practices in Parquet files

我想弄清楚如果我有一个可能包含空值的字符串列,最佳做法是什么。
在 SQL 数据库中,null 是一个合法值,但通过阅读,我发现了很多问题和人们对 parquet 文件中的 null 值的疑问。
如果我想稍后使用国外的工具集(如 Drill、Spark 等)处理这些镶木地板文件。 将空值存储为空值或空字符串的最佳方法是什么?

好吧,这与其他工具或 Spark 无关,它与您的业务逻辑不同地考虑 null 或空字符串 "" 因为许多其他应用程序将它们视为单独的逻辑实体,

但是,如果您的应用程序对它们的处理方式相同,那么您可以将它们标记为更安全的选项作为空字符串 "",这将避免该列的所有未来 NullpointerExceptions

AFAIK 所有其他大数据组件(Drill、Spark 等,包括 Parquet 文件格式)处理 null 值非常好。