如何在 read_csv 中将非数字条目转换为 NaN

How to convert non-numeric entries to NaN in read_csv

我正在阅读一个文件:

pd.read_csv("file.csv", dtype={'ID_1':float})

文件看起来像:

ID_0, ID_1,ID_2
a,002,c
b,004,d
c,   ,e       
n,003,g

不幸的是,read_csv 抱怨无法将“ ”转换为浮点数。

读取 csv 并将无法转换为浮点数的任何内容转换为 NaN 的正确方法是什么?

这是我阅读文档的理解:

def my_func(x):
    try:
        converted_value = float(x)
    except ValueError:
        converted_value = 'NaN'
    return converted_value

pd.read_csv("file.csv", dtype={'ID_1':float}, converters={'ID_1':my_func})

(因为我现在在工作并且无法访问 pandas 我不能告诉你它是否有效但它看起来应该如此(每个程序员都说过......))

另请参阅这些相关的 SO 问题:

  • Inconsistent pandas read_csv dtype inference on mostly-integer string column in huge TSV file

  • Convert percent string to float in pandas read_csv

  • ...以及 pandas.read_csv documentation

如果您不指定 dtype 参数并传递 skipinitialspace=True 那么它将正常工作:

In [4]:
t="""ID_0,ID_1,ID_2
a,002,c
b,004,d
c,   ,e
n,003,g"""

pd.read_csv(io.StringIO(t), skipinitialspace=True)
Out[4]:
  ID_0  ID_1 ID_2
0    a   2.0    c
1    b   4.0    d
2    c   NaN    e
3    n   3.0    g

所以在你的情况下:

pd.read_csv("file.csv", skipinitialspace=True)

会正常工作

您可以看到 dtypes 符合预期:

In [5]:
pd.read_csv(io.StringIO(t), skipinitialspace=True).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
ID_0    4 non-null object
ID_1    3 non-null float64
ID_2    4 non-null object
dtypes: float64(1), object(2)
memory usage: 176.0+ bytes