在 polars 中用 pl.Null (null) 惯用地替换空字符串 ''

Idiomatic replacement of empty string '' with pl.Null (null) in polars

我有一个 polars DataFrame,其中包含许多系列,如下所示:

pl.Series(['cow', 'cat', '', 'lobster', ''])

我希望他们成为

pl.Series(['cow', 'cat', pl.Null, 'lobster', pl.Null])

由于 pl.Null 不是 PyString:

类型,因此简单的字符串替换将不起作用
pl.Series(['cow', 'cat', '', 'lobster', '']).str.replace('', pl.Null)

在极地中对 Series/DataFrame 执行此操作的惯用方法是什么?

系列

对于单个系列,可以使用set方法。

import polars as pl
my_series = pl.Series(['cow', 'cat', '', 'lobster', ''])
my_series.set(my_series.str.lengths() == 0, None)
shape: (5,)
Series: '' [str]
[
        "cow"
        "cat"
        null
        "lobster"
        null
]

数据帧

对于 DataFrame,我建议使用 when/then/otherwise。例如,使用此数据:

df = pl.DataFrame({
    'str1': ['cow', 'dog', "", 'lobster', ''],
    'str2': ['', 'apple', "orange", '', 'kiwi'],
    'str3': ['house', '', "apartment", 'condo', ''],
})
df
shape: (5, 3)
┌─────────┬────────┬───────────┐
│ str1    ┆ str2   ┆ str3      │
│ ---     ┆ ---    ┆ ---       │
│ str     ┆ str    ┆ str       │
╞═════════╪════════╪═══════════╡
│ cow     ┆        ┆ house     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ dog     ┆ apple  ┆           │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│         ┆ orange ┆ apartment │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ lobster ┆        ┆ condo     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│         ┆ kiwi   ┆           │
└─────────┴────────┴───────────┘

我们可以 运行 对所有字符串列进行替换,如下所示:

df.with_columns([
    pl.when(pl.col(pl.Utf8).str.lengths() ==0)
    .then(None)
    .otherwise(pl.col(pl.Utf8))
    .keep_name()
])
shape: (5, 3)
┌─────────┬────────┬───────────┐
│ str1    ┆ str2   ┆ str3      │
│ ---     ┆ ---    ┆ ---       │
│ str     ┆ str    ┆ str       │
╞═════════╪════════╪═══════════╡
│ cow     ┆ null   ┆ house     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ dog     ┆ apple  ┆ null      │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ null    ┆ orange ┆ apartment │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ lobster ┆ null   ┆ condo     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ null    ┆ kiwi   ┆ null      │
└─────────┴────────┴───────────┘

以上应该是相当高效的。

如果您只想在某些列上用 null 替换空字符串,您可以提供一个列表:

only_these = ['str1', 'str2']
df.with_columns([
    pl.when(pl.col(only_these).str.lengths() == 0)
    .then(None)
    .otherwise(pl.col(only_these))
    .keep_name()
])
shape: (5, 3)
┌─────────┬────────┬───────────┐
│ str1    ┆ str2   ┆ str3      │
│ ---     ┆ ---    ┆ ---       │
│ str     ┆ str    ┆ str       │
╞═════════╪════════╪═══════════╡
│ cow     ┆ null   ┆ house     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ dog     ┆ apple  ┆           │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ null    ┆ orange ┆ apartment │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ lobster ┆ null   ┆ condo     │
├╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ null    ┆ kiwi   ┆           │
└─────────┴────────┴───────────┘