数据帧的unicode数据到字符串

Question

我在读取 xls 文件时遇到了一些问题。此类数据帧上的每个数据都具有 'unicode' 类型，我对此无能为力。我想将其更改为 str 值。另外，如果可能的话，我想知道这个事实的原因。我听说了一些关于 'external data' 的事情，我知道列和索引也在这些名称之前显示了 unicode 的 'u'。我对编码几乎一无所知，如果有人另外解释一下，我将不胜感激。

我正在使用 Python 2，我尝试使用

的函数逐列求解

.astype(str) 
.astype(basestring)
.apply(str)

和

.str.decode('iso-8859-1').str.encode('utf-8')

（我在这里读了最后一个，我只是把它写在我的代码中以尝试另一件事）。我也试过

unicodedata.normalize('NFKD', df_bolsa[l]).encode('ascii','ignore')

但这最后一个不能与系列一起使用。我希望有人能够帮助我澄清这件事。非常感谢您！！

Answer 1

您可以使用以下代码。

for column in df:
    df[column] = df_peru[column].str.encode('utf-8')

Answer 2

为了帮助别人，这个版本对我有用。将我的数据框加载到 Oracle 数据库时出现错误：“UnicodeDecodeError: 'ascii' codec can't decode byte 0xea in position 2: ordinal not in range(128)”

我在 Python 版本 2.7

for column in df:
    df[column]=  df[column].astype(str).str.decode('utf-8')

数据帧的unicode数据到字符串

unicode datas of a dataframe to strings

python

unicode-string

python-2.7

pandas

python-unicode