str() 和 astype(str) 之间的区别?
Difference between str() and astype(str)?
我想将数据帧 df 保存到 .h5 文件 MainDataFile.h5 :
df.to_hdf ("c:/Temp/MainDataFile.h5", "MainData", mode = "w", format = "table", data_columns=['_FirstDayOfPeriod','Category','ChannelId'])
并出现以下错误:
*** Exception: cannot find the correct atom type -> > [dtype->object,items->Index(['Libellé_Article', 'Libellé_segment'], dtype='object')]
如果我以这种方式修改列 'Libellé_Article':
df['Libellé_Article'] = str(df['Libellé_Article'])
没有错误了,而我在执行时仍然收到错误消息:
df['Libellé_Article'] = df['Libellé_Article'].astype(str)
问题是使用 str() 会炸毁我的 ram。
有什么想法吗?
str(df['Libellé_Article'])
会将整个列的内容转换为单个字符串。它最终会得到一个非常大的字符串。这就是炸毁 RAM 的原因
例如
>> df = pd.DataFrame([1,2,3], columns=['A'])
>> df['A']
0 1
1 2
2 3
Name: A, dtype: int64
>> str(df['A'])
'0 1\n1 2\n2 3\nName: A, dtype: int64'
>> df['A'].astype(str)
0 1
1 2
2 3
Name: A, dtype: object
因此,如果要将整个列转换为字符串类型,则应仅使用 .astype(str)
- 这里的区别是
.astype(str)
是一个 Pandas 系列的方法,而 str()
是一个函数。
- 这就是为什么:
.astype(str)
将适用于 series 而不是 int
而 str()
两者都适用。
我想将数据帧 df 保存到 .h5 文件 MainDataFile.h5 :
df.to_hdf ("c:/Temp/MainDataFile.h5", "MainData", mode = "w", format = "table", data_columns=['_FirstDayOfPeriod','Category','ChannelId'])
并出现以下错误:
*** Exception: cannot find the correct atom type -> > [dtype->object,items->Index(['Libellé_Article', 'Libellé_segment'], dtype='object')]
如果我以这种方式修改列 'Libellé_Article':
df['Libellé_Article'] = str(df['Libellé_Article'])
没有错误了,而我在执行时仍然收到错误消息:
df['Libellé_Article'] = df['Libellé_Article'].astype(str)
问题是使用 str() 会炸毁我的 ram。
有什么想法吗?
str(df['Libellé_Article'])
会将整个列的内容转换为单个字符串。它最终会得到一个非常大的字符串。这就是炸毁 RAM 的原因
例如
>> df = pd.DataFrame([1,2,3], columns=['A'])
>> df['A']
0 1
1 2
2 3
Name: A, dtype: int64
>> str(df['A'])
'0 1\n1 2\n2 3\nName: A, dtype: int64'
>> df['A'].astype(str)
0 1
1 2
2 3
Name: A, dtype: object
因此,如果要将整个列转换为字符串类型,则应仅使用 .astype(str)
- 这里的区别是
.astype(str)
是一个 Pandas 系列的方法,而str()
是一个函数。 - 这就是为什么:
.astype(str)
将适用于 series 而不是 int 而str()
两者都适用。